AiDD研发数字峰会

大模型架构创新与工程优化

本论坛聚焦大模型核心技术革新与落地实践，围绕MoE架构、新的记忆机制、检索效率优化、模型压缩蒸馏、推理性能提升、高效训练框架、工程化部署等一些核心主题，汇聚业界专家与技术精英，进行深度解析，分享跨场景创新方案与实操经验，助力听众掌握架构设计核心逻辑、破解落地瓶颈，降低研发成本、提升部署效率，收获可迁移的技术思路与实践方案。

出品人：柴思远

大数据算法技术专家，组建智谱解决方案团队，成功推动了大模型技术在多领域的突破性应用。深耕AI技术与企业智能化转型，带领团队与美团、360、金山、小米、小鹏、大众、荣耀等知名企业展开深度合作，为重点大模型项目落地提供强有力的技术解决方案，助力其实现智能化升级与业务创新。历任大搜车数据中台负责人，妙计旅行数据产品负责人，搜狗自然语言研究员等。

智谱副总裁

面向 AI Agent 时代的下一代推理基础设施：AI Serving Stack
架构解析与生产级实践

车漾
阿里云高级技术专家及CNCF Fluid项目联合发起人

内容简介：

当AI Agent从人类手中接过Token消耗的指挥棒，大模型推理服务正经历从”面向Chatbot”到”面向智能体”的结构性跃迁。7×24小时不间断工作的Agent带来单次任务百次工具调用、10:1至100:1的输入输出比、常态性突破100K的长上下文，彻底重塑了负载特征与成本模型。
本次演讲将深度解析由 SGLang、Mooncake、阿里云及高校联合打造的开源解决方案——AI Serving Stack。我们将探讨如何通过 Kubernetes 标准 API RoleBasedGroup (RBG) 实现推理服务的拓扑感知编排；如何利用 SMG 网关实现 KVCache 感知的智能路由；以及如何借助 Mooncake 实现以 KVCache 为中心的存储计算解耦与 PD（Prefill-Decode）分离架构。结合小红书等企业的落地案例，展示该架构如何将 GPU 利用率大幅度提升，实现成本节约超 50%，为构建高吞吐、低延迟、可观测的生产级 Agent 基础设施提供最佳实践参考。

演讲提纲：

1. 背景：AI Agent 崛起带来的基础设施范式转移
1.1 负载特征质变：从“离散低频”的人类请求到“持续高频”的 Agent 协作（结构化请求、长上下文）。
1.2 核心痛点分析：
- 状态化需求：KVCache 从“临时缓存”变为“数字记忆体”的挑战。
- 资源效率瓶颈：单体 Pod 部署导致的 Prefill/Decode 资源错配。
- 弹性滞后：分钟级弹性无法满足秒级扩缩容需求。
2. 架构设计：AI Serving Stack 核心解密
2.1 编排层（RBG）：
- 引入 RoleBasedGroup：将单体 Deployment 拆解为拓扑化的角色有机体。
- SCOPE 五大能力：实现 Router、Prefill、Decode 的协同调度与原子化管理。
2.2 路由层（SMG）：
- 从轮询到智能：实现基于 KVCache 命中率、PD 分离感知的差异化调度策略。
- 优先级队列与过载保护：保障不同 SLO 任务的稳定性。
2.3 存储与计算层（Mooncake & SGLang）：
- 以 KVCache 为中心的 PD 分离架构。
- Transfer Engine 与池化共享：跨实例、跨节点的零拷贝数据传输与复用。
3. 生产实践与收益
3.1 落地案例：Qwen 大模型在小红书 PD 分离架构下的部署实战。
3.2 工程实践：从架构到指标
- 小红书案例：分钟级模型运维、50%+成本节省、发布失败率降至5%
- Qwen3-235B性能数据：PD分离下2.74 QPS、P99延迟＜80ms、GPU利用率70%
- 弹性效率：秒级扩缩容、潮汐混部、一键部署＜5分钟
4. 未来展望与开源生态
4.1 全栈开源与多框架兼容性（vLLM, TensorRT-LLM）。
4.2 从“经验驱动”到“数据驱动”的自动配置优化。

听众收益：

洞察趋势：深入理解 AI Agent 时代大模型推理面临的“规模经济”向“效率经济”转型的底层逻辑。
掌握架构：学习业界领先的 PD 分离（Prefill-Decode Separation）与 KVCache 分离架构的设计原理与实现细节。
落地指南：获得一套经过生产环境验证的、全栈开源的 Kubernetes 推理编排方案（AI Serving Stack），了解如何解决资源利用率低和弹性伸缩慢的实际难题。
开源方案：全面了解AI Serving Stack全栈开源技术生态，获取零商业锁定的生产级落地路径与CNCF标准化演进方向
避坑经验：借鉴大规模分布式推理场景下的运维经验，包括故障协同自愈、配置自动化及全链路可观测性建设。

阿里云高级技术专家及CNCF Fluid项目联合发起人，拥有深厚的云原生AI基础设施经验，他聚焦解决AIGC工程化核心瓶颈：通过创新数据编排技术（如Fluid分布式缓存框架）实现模型加载加速与存储成本降低，技术演进覆盖从容器化深度学习到LLM多云架构优化，在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践，主导的Fluid项目成为CNCF孵化项目，并推动RBG（RoleBasedGroup）项目成为SGLang社区云原生编排项目，使能云原生AI从理论创新到千卡推理场景的规模落地。

百万 Agent 时代的原生记忆体与数据基础设施

刘松

TiDB 副总裁

内容简介：

分析面向Agent 爆发对数据基础设施的核心挑战，阐述TiDB 以All-In-One DB 作为基础，如何通过创新的产品设计，支撑百万Agent需求下的长短期记忆存取，记忆共享、权限管理，多模态数据融合与实时检索等等课题命题，支持企业级Agent 的统一构建与运行。

演讲提纲：
1. 百万Agent 时代的数据挑战
2. 面向 Agent 的记忆体与数据基础设施架构设计
3. TiDB Agent 方向的实践案例

听众收益：
1. 理解百万Agent 需求下的前瞻架构
2. 获得面向Agent 记忆与数据基础设施的可落地方案

在数据库、AI基础设施及企业级软件领域拥有超过20 年的深厚经验。作为开源分布式数据库 TiDB 的战略推动者，深度参与了从中国市场拓展到全球商业化落地的全过程，对大规模数据系统的挑战与机遇有深刻洞察。近年来，专注于AI原生基础设施的演进，致力于探索分布式数据库如何成为支撑下一代智能应用（如AI Agent）的数据基础设施。分享兼具技术深度与战略高度，能够为听众带来从架构演进到工程实践的全景视角。

高性能AI存储 Checkpoint空间优化治理实践

姚春

沨呵智慧高性能存储开发架构师

内容简介：

在大模型训练场景中，TB 级 Checkpoint 的频繁读写与空间分配，常引发存储系统抖动，影响训练稳定性与效率。本方案基于高性能文件存储特性，通过 Checkpoint 空间优化治理引擎，实现训练过程的空间预分配、优先写入预分配空间，从根源避免反复的空间分配与释放操作。该方案可支撑 GPT-3、LLaMA、万亿参数 GPT 等超大模型的训练需求，保障存储系统平稳运行，降低 I/O 抖动风险，为大规模模型训练提供高可靠、高性能的存储支撑，助力训练任务高效推进。

演讲提纲：
1. 痛点引入：大模型训练的 Checkpoint 存储挑战
介绍 TB 级 Checkpoint（如 GPT-3 2.4TB、LLaMA 6-7TB）的存储压力，以及频繁空间分配释放对系统稳定性的影响。
2. 核心方案：Checkpoint 空间优化治理引擎
讲解 “空间预分配→优先写入预分配空间→平稳运行” 的治理逻辑，结合高性能文件存储特性说明实现路径。
3. 场景价值：适配大规模训练需求
阐述该方案如何支撑大模型训练，保障存储系统稳定、降低 I/O 抖动，提升训练任务效率与可靠性。
4. 落地效果：高性能存储与模型训练的协同优势
总结方案带来的实际收益，如系统稳定性提升、训练任务无中断、支撑更大规模模型训练等核心价值。

听众收益：
1. 从存储底层视角，为 AI 训练架构提供更全面的稳定性设计思路
2. 快速掌握高性能文件存储与大模型训练的适配方案，打破存储性能瓶颈
3. 直接解决大模型训练中最棘手的存储抖动问题，降低业务中断风险

现任沨呵智慧AI高性能存储资深开发架构师，同济大学电子信息工程硕士。18 年企业级存储、云计算与 AI 数据平台全栈技术经验，先后在 IBM、阿里云、DDN 从事研发、客户支持、解决方案架构与技术管理工作，具备深厚底层技术功底与大规模项目落地能力。长期专注AI 存储、高性能数据平台、专有云 IaaS、分布式存储等领域，精通存储全技术栈与底层源码，具备代码研发与架构优化能力，拥有NVDIMM 扩展 HBA 写缓存技术专利。

高效时序预测：从数值序列到事件文本

邓锦亮

北京航空航天大学准聘教授

内容简介：

时间序列预测广泛应用于金融、城市运行和国防安全等场景，并常用于实时监测、风险预警和决策支持，因此预测效率具有重要意义。在开放环境下，时间序列不仅依赖历史观测序列，还会受到外部事件持续影响。现有方法通常利用深度模型建模历史序列，并借助大语言模型理解事件文本，但往往在高维表示空间中直接建模复杂信息，计算成本较高。本报告从预测效率的角度出发，分别针对历史序列与事件语义中的冗余结构提出高效建模方法：通过相位编码与原型模式学习压缩数值模式，并通过态势限定空间推理提取预测相关语义信号，从而在保持预测性能的同时显著降低模型规模和训练成本。

演讲提纲：
1. 背景与痛点：高维建模导致效率瓶颈
诉求：在金融、安全等实时决策场景中，预测效率是模型能否落地的关键。
痛点：现实时序受政策、突发事件等外部影响。现有主流方法依赖大模型在“高维空间”建模，导致参数庞大、推理开销极重。
2. 核心破局点：挖掘数据的“低维结构”
放弃盲目追求更大、更复杂的模型。
转而从历史序列和事件文本两类复杂数据中，提取真正决定未来演化的“低维特征”。
3. 两条互补的技术路线与成效
针对历史序列（数值模式压缩）：利用相位编码与原型模式学习来概括重复模式。在保持性能的前提下，大幅压缩约99%的模型参数。
针对事件信息（语义信号提取）：通过“态势限定空间推理”，过滤冗余文本，只聚焦上升、下降等少量核心态势。在不牺牲效果的前提下，降低约50%的训练成本。
4. 总结升华：双线合一的高效预测
“数值模式压缩”与“语义信号提取”并非孤立路线，而是面向同一目标的互补思路。两者共同实现了从“高维复杂建模”向“紧凑高效预测”的成功转变。

听众收益：
1. 理解开放环境下时间序列预测的新挑战。了解在现实应用中，时间序列不仅由历史观测决定，还会受到外部事件持续影响，从而需要同时建模数值模式与事件语义信息。
2. 掌握提升预测效率的建模思路。通过挖掘数据中的低维结构，提高时间序列预测效率，包括基于相位编码与原型模式学习的数值模式压缩方法，以及基于态势限定空间的事件语义推理方法。

北京航空航天大学计算机学院准聘教授，主持国家高层次海外青年人才项目。2024年于悉尼科技大学澳大利亚人工智能研究中心获博士学位，2024年至2025年于香港科技大学任博士后研究员。主要研究领域包括时空数据挖掘、时间序列分析和城市计算等，研究成果在TKDE、NeurIPS、ICLR、ICDE、KDD等国际会议与期刊发表论文30余篇。

AI-Infra全链路性能分析和优化实战

孙禹峰

阿里云技术专家

内容简介：

从训推业务及Infra痛点入手，聚焦大模型训推全链路性能分析、瓶颈定位与优化的体系和能力。结合多行业云上真实案例，分享从数据侧到计算侧再到通信侧的常见优化方法。以期实现算力效能的最大化释放，为技术团队提供一套可复制的性能分析、定位及优化的方法论，在大幅压缩训练推理成本的同时，确立高吞吐、低延迟的生产级稳定性标准。

演讲提纲：
1. 背景与挑战：大模型时代的训推性能问题痛点
大模型时代的训推性能问题痛点
对技术服务团队的要求
2. 核心方法论：全链路性能分析体系与瓶颈定位
性能指标体系简介
基于业务场景的分析体系OK
性能瓶颈定位和工具应用
3. 核心方法论：全链路性能优化方法
训推场景的架构优化
差异化场景与分层落地策略
4. 实战攻坚：基于业务场景的深度优化案例
推理场景加速优化实践行业案例
训练场景加速优化实践行业案例
5. 前景与展望

听众收益：
1. 掌握全链路性能分析方法论，精准定位数据、计算、通信瓶颈，提升算力效能与系统稳定性。
2. 借鉴多行业实战案例，学会低成本优化策略，构建高吞吐、低延迟的生产级AI系统。

现任阿里云公共云技术服务支持专家，8年AI领域实践经验，聚焦于训推框架及AI Infra相关技术，具有多行业云上客户业务的全链路性能分析和优化场景落地的能力。

AiDD峰会

K+峰会

联系我们