被忽略的胜负手,IAAS层如何决定AI大模型训推的性能上限
内容简介:
当算力军备竞赛聚焦于 GPU 峰值性能时,一个常被忽视的事实是:训推任务能否跑满算力,往往不取决于卡,而取决于卡之外的 IaaS 层。网络带宽与时延、RDMA 拥塞控制、存储 IO、虚拟化开销、拓扑亲和性等任一短板,都会让昂贵的 GPU 陷入"等待"。本次演讲将沿着"通算 → 智算"的演进脉络,并结合线上训练与推理性能瓶颈分析实战案例,拆解从现象定位到根因归因的完整方法论,揭示 IaaS 层这一"被忽略的胜负手"如何决定 AI大模型训推的性能上限。
演讲提纲:
1.算力幻觉 —— 为什么买了顶配 GPU,性能却没达到预期?
1.1一组反差数据:标称算力 vs 实际 MFU/吞吐
1.2一笔经济账:万卡集群每提升 1% MFU,等价于多少张 GPU、多少千万级成本节省
1.3行业现状:注意力高度集中在 GPU 卡,IaaS 层被默认"够用"
1.4核心观点:性能优化,是 AI 时代企业的核心竞争力
2.重新认识 IaaS 层 —— 从"通算"到"智算"的范式转变
2.1通算时代 IaaS 的设计假设:CPU 为中心、东西向流量小
2.2智算时代的新约束:万卡互联、集合通信主导、显存与带宽强耦合
2.3一张图看懂:智算 IaaS 的四大支柱(计算 / 网络 / 存储 / 调度)
3.性能瓶颈的技术迭代史 —— IaaS 层做对了什么
3.1计算侧:虚拟化损耗、NUMA 亲和、GPU 直通与拓扑感知
3.2网络侧:从 TCP 到 RDMA/RoCE,再到自研高性能网络与拥塞控制
3.3存储侧:从本地盘到并行文件系统,Checkpoint 与数据加载的优化
3.4调度侧:拓扑感知调度、Scheduling、故障自愈与断点续训
4.实战案例:训推场景的性能瓶颈定位 —— 智算场景更强调全链路性能分析方法
4.1AI infra 全链路性能分析方法
4.2案例背景:DDP训练性能优化案例
4.3案例背景:在线推理RT抖动分析案例
5.从实战到新架构 —— 解法的演进与被引入的新挑战
5.1从性能瓶颈到架构革新
5.2新架构带来的衍生挑战
6.总结与展望
听众收益:
1.帮助听众建立从底层基础设施到上层AI业务的全栈性能优化视角
2.为大规模模型训练提速、推理降本提供可落地的技术参考。
现任阿里巴巴技术支持专家,6年IAAS & AI领域实践经验,聚焦于内核、操作系统、服务器虚拟化以及AI Infra相关技术,有多行业云上客户业务的全链路性能分析和优化场景落地的能力。