大模型架构创新与工程优化

本论坛聚焦大模型核心技术革新与落地实践,围绕MoE架构、新的记忆机制、检索效率优化、模型压缩蒸馏、推理性能提升、高效训练框架、工程化部署等一些核心主题,汇聚业界专家与技术精英,进行深度解析,分享跨场景创新方案与实操经验,助力听众掌握架构设计核心逻辑、破解落地瓶颈,降低研发成本、提升部署效率,收获可迁移的技术思路与实践方案。
出品人:柴思远
大数据算法技术专家,组建智谱解决方案团队,成功推动了大模型技术在多领域的突破性应用。深耕AI技术与企业智能化转型,带领团队与美团、360、金山、小米、小鹏、大众、荣耀等知名企业展开深度合作,为重点大模型项目落地提供强有力的技术解决方案,助力其实现智能化升级与业务创新。历任大搜车数据中台负责人,妙计旅行数据产品负责人,搜狗自然语言研究员等。
智谱 副总裁
面向 AI Agent 时代的下一代推理基础设施:AI Serving Stack 
架构解析与生产级实践
车 漾
阿里云高级技术专家及CNCF Fluid项目联合发起人
内容简介:
当AI Agent从人类手中接过Token消耗的指挥棒,大模型推理服务正经历从”面向Chatbot”到”面向智能体”的结构性跃迁。7×24小时不间断工作的Agent带来单次任务百次工具调用、10:1至100:1的输入输出比、常态性突破100K的长上下文,彻底重塑了负载特征与成本模型。
本次演讲将深度解析由 SGLang、Mooncake、阿里云及高校联合打造的开源解决方案——AI Serving Stack。我们将探讨如何通过 Kubernetes 标准 API RoleBasedGroup (RBG) 实现推理服务的拓扑感知编排;如何利用 SMG 网关实现 KVCache 感知的智能路由;以及如何借助 Mooncake 实现以 KVCache 为中心的存储计算解耦与 PD(Prefill-Decode)分离架构。结合小红书等企业的落地案例,展示该架构如何将 GPU 利用率大幅度提升,实现成本节约超 50%,为构建高吞吐、低延迟、可观测的生产级 Agent 基础设施提供最佳实践参考。

演讲提纲:
1. 背景:AI Agent 崛起带来的基础设施范式转移
1.1 负载特征质变:从“离散低频”的人类请求到“持续高频”的 Agent 协作(结构化请求、长上下文)。
1.2 核心痛点分析:
- 状态化需求:KVCache 从“临时缓存”变为“数字记忆体”的挑战。
- 资源效率瓶颈:单体 Pod 部署导致的 Prefill/Decode 资源错配。
- 弹性滞后:分钟级弹性无法满足秒级扩缩容需求。
2. 架构设计:AI Serving Stack 核心解密
2.1 编排层(RBG):
- 引入 RoleBasedGroup:将单体 Deployment 拆解为拓扑化的角色有机体。
- SCOPE 五大能力:实现 Router、Prefill、Decode 的协同调度与原子化管理。
2.2 路由层(SMG):
- 从轮询到智能:实现基于 KVCache 命中率、PD 分离感知的差异化调度策略。
- 优先级队列与过载保护:保障不同 SLO 任务的稳定性。
2.3 存储与计算层(Mooncake & SGLang):
- 以 KVCache 为中心的 PD 分离架构。
- Transfer Engine 与池化共享:跨实例、跨节点的零拷贝数据传输与复用。
3. 生产实践与收益
3.1 落地案例:Qwen 大模型在小红书 PD 分离架构下的部署实战。
3.2 工程实践:从架构到指标
- 小红书案例:分钟级模型运维、50%+成本节省、发布失败率降至5%
- Qwen3-235B性能数据:PD分离下2.74 QPS、P99延迟<80ms、GPU利用率70%
- 弹性效率:秒级扩缩容、潮汐混部、一键部署<5分钟
4. 未来展望与开源生态
4.1 全栈开源与多框架兼容性(vLLM, TensorRT-LLM)。
4.2 从“经验驱动”到“数据驱动”的自动配置优化。

听众收益:
洞察趋势:深入理解 AI Agent 时代大模型推理面临的“规模经济”向“效率经济”转型的底层逻辑。
掌握架构:学习业界领先的 PD 分离(Prefill-Decode Separation)与 KVCache 分离架构的设计原理与实现细节。
落地指南:获得一套经过生产环境验证的、全栈开源的 Kubernetes 推理编排方案(AI Serving Stack),了解如何解决资源利用率低和弹性伸缩慢的实际难题。
开源方案:全面了解AI Serving Stack全栈开源技术生态,获取零商业锁定的生产级落地路径与CNCF标准化演进方向
避坑经验:借鉴大规模分布式推理场景下的运维经验,包括故障协同自愈、配置自动化及全链路可观测性建设。
阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化项目,并推动RBG(RoleBasedGroup)项目成为SGLang社区云原生编排项目,使能云原生AI从理论创新到千卡推理场景的规模落地。

百万 Agent 时代的原生记忆体与数据基础设施
刘 松
TiDB 副总裁
内容简介:
分析面向Agent 爆发对数据基础设施的核心挑战,阐述TiDB 以All-In-One DB 作为基础,如何通过创新的产品设计,支撑 百万Agent需求下的长短期记忆存取,记忆共享、权限管理,多模态数据融合与实时检索等等课题命题,支持企业级Agent 的统一构建与运行。        

演讲提纲:
1. 百万Agent 时代的数据挑战
2. 面向 Agent 的记忆体与数据基础设施架构设计
3. TiDB Agent 方向的实践案例

听众收益:
1. 理解百万Agent 需求下的前瞻架构
2. 获得面向Agent 记忆与数据基础设施的可落地方案              
在数据库、AI基础设施及企业级软件领域拥有超过20 年的深厚经验。作为开源分布式数据库 TiDB 的战略推动者,深度参与了从中国市场拓展到全球商业化落地的全过程,对大规模数据系统的挑战与机遇有深刻洞察。近年来,专注于AI原生基础设施的演进,致力于探索分布式数据库如何成为支撑下一代智能应用(如AI Agent)的数据基础设施。分享兼具技术深度与战略高度,能够为听众带来从架构演进到工程实践的全景视角。
高性能AI存储 Checkpoint空间优化治理实践
姚 春
沨呵智慧 高性能存储开发架构师
内容简介:
在大模型训练场景中,TB 级 Checkpoint 的频繁读写与空间分配,常引发存储系统抖动,影响训练稳定性与效率。本方案基于高性能文件存储特性,通过 Checkpoint 空间优化治理引擎,实现训练过程的空间预分配、优先写入预分配空间,从根源避免反复的空间分配与释放操作。该方案可支撑 GPT-3、LLaMA、万亿参数 GPT 等超大模型的训练需求,保障存储系统平稳运行,降低 I/O 抖动风险,为大规模模型训练提供高可靠、高性能的存储支撑,助力训练任务高效推进。

演讲提纲:
1. 痛点引入:大模型训练的 Checkpoint 存储挑战
介绍 TB 级 Checkpoint(如 GPT-3 2.4TB、LLaMA 6-7TB)的存储压力,以及频繁空间分配释放对系统稳定性的影响。
2. 核心方案:Checkpoint 空间优化治理引擎
讲解 “空间预分配→优先写入预分配空间→平稳运行” 的治理逻辑,结合高性能文件存储特性说明实现路径。
3. 场景价值:适配大规模训练需求
阐述该方案如何支撑大模型训练,保障存储系统稳定、降低 I/O 抖动,提升训练任务效率与可靠性。
4. 落地效果:高性能存储与模型训练的协同优势
总结方案带来的实际收益,如系统稳定性提升、训练任务无中断、支撑更大规模模型训练等核心价值。

听众收益:  
1. 从存储底层视角,为 AI 训练架构提供更全面的稳定性设计思路
2. 快速掌握高性能文件存储与大模型训练的适配方案,打破存储性能瓶颈
3. 直接解决大模型训练中最棘手的存储抖动问题,降低业务中断风险

现任沨呵智慧AI高性能存储资深开发架构师,同济大学电子信息工程硕士。18 年企业级存储、云计算与 AI 数据平台全栈技术经验,先后在 IBM、阿里云、DDN 从事研发、客户支持、解决方案架构与技术管理工作,具备深厚底层技术功底与大规模项目落地能力。长期专注AI 存储、高性能数据平台、专有云 IaaS、分布式存储等领域,精通存储全技术栈与底层源码,具备代码研发与架构优化能力,拥有NVDIMM 扩展 HBA 写缓存技术专利。
高效时序预测:从数值序列到事件文本
邓锦亮
北京航空航天大学 准聘教授
内容简介:
时间序列预测广泛应用于金融、城市运行和国防安全等场景,并常用于实时监测、风险预警和决策支持,因此预测效率具有重要意义。在开放环境下,时间序列不仅依赖历史观测序列,还会受到外部事件持续影响。现有方法通常利用深度模型建模历史序列,并借助大语言模型理解事件文本,但往往在高维表示空间中直接建模复杂信息,计算成本较高。本报告从预测效率的角度出发,分别针对历史序列与事件语义中的冗余结构提出高效建模方法:通过相位编码与原型模式学习压缩数值模式,并通过态势限定空间推理提取预测相关语义信号,从而在保持预测性能的同时显著降低模型规模和训练成本。        

演讲提纲:
1. 背景与痛点:高维建模导致效率瓶颈
诉求:在金融、安全等实时决策场景中,预测效率是模型能否落地的关键。
痛点:现实时序受政策、突发事件等外部影响。现有主流方法依赖大模型在“高维空间”建模,导致参数庞大、推理开销极重。
2. 核心破局点:挖掘数据的“低维结构”
放弃盲目追求更大、更复杂的模型。
转而从历史序列和事件文本两类复杂数据中,提取真正决定未来演化的“低维特征”。
3. 两条互补的技术路线与成效
针对历史序列(数值模式压缩):利用相位编码与原型模式学习来概括重复模式。在保持性能的前提下,大幅压缩约99%的模型参数。
针对事件信息(语义信号提取):通过“态势限定空间推理”,过滤冗余文本,只聚焦上升、下降等少量核心态势。在不牺牲效果的前提下,降低约50%的训练成本。
4. 总结升华:双线合一的高效预测
“数值模式压缩”与“语义信号提取”并非孤立路线,而是面向同一目标的互补思路。两者共同实现了从“高维复杂建模”向“紧凑高效预测”的成功转变。
 
听众收益:
1. 理解开放环境下时间序列预测的新挑战。了解在现实应用中,时间序列不仅由历史观测决定,还会受到外部事件持续影响,从而需要同时建模数值模式与事件语义信息。
2. 掌握提升预测效率的建模思路。通过挖掘数据中的低维结构,提高时间序列预测效率,包括基于相位编码与原型模式学习的数值模式压缩方法,以及基于态势限定空间的事件语义推理方法。
北京航空航天大学计算机学院准聘教授,主持国家高层次海外青年人才项目。2024年于悉尼科技大学澳大利亚人工智能研究中心获博士学位,2024年至2025年于香港科技大学任博士后研究员。主要研究领域包括时空数据挖掘、时间序列分析和城市计算等,研究成果在TKDE、NeurIPS、ICLR、ICDE、KDD等国际会议与期刊发表论文30余篇。
AI-Infra全链路性能分析和优化实战
孙禹峰
阿里云 技术专家
内容简介:
从训推业务及Infra痛点入手,聚焦大模型训推全链路性能分析、瓶颈定位与优化的体系和能力。结合多行业云上真实案例,分享从数据侧到计算侧再到通信侧的常见优化方法。以期实现算力效能的最大化释放,为技术团队提供一套可复制的性能分析、定位及优化的方法论,在大幅压缩训练推理成本的同时,确立高吞吐、低延迟的生产级稳定性标准。        

演讲提纲:
1. 背景与挑战:大模型时代的训推性能问题痛点
大模型时代的训推性能问题痛点
对技术服务团队的要求
2. 核心方法论:全链路性能分析体系与瓶颈定位
性能指标体系简介
基于业务场景的分析体系OK
性能瓶颈定位和工具应用
3. 核心方法论:全链路性能优化方法
训推场景的架构优化
差异化场景与分层落地策略
4. 实战攻坚:基于业务场景的深度优化案例
推理场景加速优化实践行业案例
训练场景加速优化实践行业案例
5. 前景与展望

听众收益:
1. 掌握全链路性能分析方法论,精准定位数据、计算、通信瓶颈,提升算力效能与系统稳定性。
2. 借鉴多行业实战案例,学会低成本优化策略,构建高吞吐、低延迟的生产级AI系统。      

现任阿里云公共云技术服务支持专家,8年AI领域实践经验,聚焦于训推框架及AI Infra相关技术,具有多行业云上客户业务的全链路性能分析和优化场景落地的能力。
京ICP备2020039808号-4 京公网安备11011202100922号