AiDD研发数字峰会

论坛主席：张冬梅

Dr. Dongmei Zhang is a Distinguished Scientist at Microsoft with extensive experiences in research and development. She pioneered and established “Software Analytics” as a new research direction, founding the Software Analytics Group at Microsoft Research Asia in 2009 to drive the integration and advancement of data, AI, and software engineering. She subsequently expanded her work into the field of data intelligence by creating the “Data, Knowledge & Intelligence (DKI)” research group. Over a career spanning more than twenty years at Microsoft, Dr. Zhang has led her teams to closely collaborate with product teams across the company on technology transfer. Her contributions include digital ink technologies in Windows 7 and Microsoft Math, as well as foundational research in Software Analytics, AIOps, and data intelligence that have enhanced and impacted products such as Power BI, Excel, Azure, and Microsoft 365. Currently, she is the Chief Scientist of the Microsoft Software Technology Center in China (STCA) while continuing to lead the DKI research group. Dr. Zhang received her Ph.D. in Robotics from the School of Computer Science at Carnegie Mellon University. She received her M.E. and B.E. from Tsinghua University.

微软杰出科学家
微软 STCA首席科学家

AI前沿技术探索与实践

本论坛深入探讨AI Agent在软件工程中的落地试点和无限可能，将聚焦于智能体如何模拟人类认知理解任务要求，实现大模型与传统软件工程工具链的有力结合，如AI Agent在单测生成任务、系统测试执行任务等环节的落地场景，研究落地路径和落地难点。你将与AI业内专家分享最新研究成果、共同探索AI Agent赋能软件工程的奇妙过程！

被忽略的胜负手，IAAS层如何决定AI大模型训推的性能上限

刘小杨（望云）

阿里云技术专家

内容简介：

当算力军备竞赛聚焦于 GPU 峰值性能时，一个常被忽视的事实是：训推任务能否跑满算力，往往不取决于卡，而取决于卡之外的 IaaS 层。网络带宽与时延、RDMA 拥塞控制、存储 IO、虚拟化开销、拓扑亲和性等任一短板，都会让昂贵的 GPU 陷入"等待"。本次演讲将沿着"通算 → 智算"的演进脉络，并结合线上训练与推理性能瓶颈分析实战案例，拆解从现象定位到根因归因的完整方法论，揭示 IaaS 层这一"被忽略的胜负手"如何决定 AI大模型训推的性能上限。

演讲提纲：
1.算力幻觉 —— 为什么买了顶配 GPU，性能却没达到预期？
1.1一组反差数据：标称算力 vs 实际 MFU/吞吐
1.2一笔经济账：万卡集群每提升 1% MFU，等价于多少张 GPU、多少千万级成本节省
1.3行业现状：注意力高度集中在 GPU 卡，IaaS 层被默认"够用"
1.4核心观点：性能优化，是 AI 时代企业的核心竞争力
2.重新认识 IaaS 层 —— 从"通算"到"智算"的范式转变
2.1通算时代 IaaS 的设计假设：CPU 为中心、东西向流量小
2.2智算时代的新约束：万卡互联、集合通信主导、显存与带宽强耦合
2.3一张图看懂：智算 IaaS 的四大支柱（计算 / 网络 / 存储 / 调度）
3.性能瓶颈的技术迭代史 —— IaaS 层做对了什么
3.1计算侧：虚拟化损耗、NUMA 亲和、GPU 直通与拓扑感知
3.2网络侧：从 TCP 到 RDMA/RoCE，再到自研高性能网络与拥塞控制
3.3存储侧：从本地盘到并行文件系统，Checkpoint 与数据加载的优化
3.4调度侧：拓扑感知调度、Scheduling、故障自愈与断点续训
4.实战案例：训推场景的性能瓶颈定位 —— 智算场景更强调全链路性能分析方法
4.1AI infra 全链路性能分析方法
4.2案例背景：DDP训练性能优化案例
4.3案例背景：在线推理RT抖动分析案例
5.从实战到新架构 —— 解法的演进与被引入的新挑战
5.1从性能瓶颈到架构革新
5.2新架构带来的衍生挑战
6.总结与展望

听众收益：
1.帮助听众建立从底层基础设施到上层AI业务的全栈性能优化视角
2.为大规模模型训练提速、推理降本提供可落地的技术参考。

现任阿里巴巴技术支持专家，6年IAAS & AI领域实践经验，聚焦于内核、操作系统、服务器虚拟化以及AI Infra相关技术，有多行业云上客户业务的全链路性能分析和优化场景落地的能力。

AiDD峰会

K+峰会

联系我们