出品人:严峻驰
IAPR Fellow
上海交通大学 人工智能学院副院长

致远人工智能方向负责人,CCF优博及优博导师。曾任IBM中国研究院首席研究员、IBM美国沃森研究中心访问研究员。国家科技部重大项目、自然基金委优青、重大研究计划项目负责人。主要研究兴趣为机器学习与智能决策。发表CCF-A类顶级论文超过200篇(含最佳论文提名),引用过2万次。授权美国发明专利30余项。任IEEE TPAMI、PR期刊编委、ICML/ICLR/NeurIPS等会议领域主席。获评两年一度IEEE十大人工智能新星奖。

端云LLM协同智能

本论坛聚焦端侧大模型与端云协同这一前沿主题。端侧大模型在隐私安全、离线可用性以及个性化服务体验等方面独具优势,为智能终端的发展开启新的机遇。端云协同则完美结合了云侧强大算力与端侧灵活性,实现优势互补,为用户提供更智能高效的服务体验。论坛将广邀行业专家与技术精英,深入探讨端侧大模型的技术突破与应用实践,共同探寻端云协同的最佳模式与发展路径。                                                 
基于开源技术栈构建智能弹性LLM推理服务的架构实践
车 漾
阿里云 高级技术专家 
内容简介:
在构建云原生大语言模型推理服务时,弹性伸缩能力与GPU资源成本的平衡成为关键挑战。传统方案受限于GPU实例的冷启动延迟(通常3分钟以上,甚至10多分钟)和资源预留成本,难以实现真正的按需付费。本文提出基于Knative、Fluid等开源技术栈构建的智能弹性架构,通过三大技术创新突破弹性瓶颈:
1. 时序感知型弹性伸缩算法AHPA:基于时间序列预测模型,结合在线推理请求量的周期性特征(日/周趋势、节假日波动),实现提前的容量预调度。相较传统HPA的被动响应机制,提升流量波峰的资源保障率,同时避免冗余资源预留。
2.GPU实例的秒级冷启动优化:基于Fluid数据编排框架构建分布式模型缓存层,通过预取策略大幅度缩短模型加载时间。结合Tensorize的模型预热技术,实现Pod启动后秒级启动。
3. 混合弹性调度策略:创新性融合流量驱动(Knative Pod Autoscaler)、时序预测(AHPA)和成本约束策略,构建三层弹性决策引擎。以Qwen-7B模型为例,在保障SLA(P99延迟<7s)前提下,实测节省GPU资源成本达63%以上,较传统K8s HPA方案提升40%资源利用率。
本方案已在金融、电商领域多个LLM推理场景落地验证,成功复现Coreweave等商业方案的核心能力。通过全链路开源技术栈的深度调优,为构建经济高效的Serverless LLM服务提供可复用的架构范式。

演讲提纲:
1.云上大模型推理痛点与成本挑战:背景痛点、弹性局限、Scale-to-zero难题
2.开源Knative弹性架构实践突破:流量驱动扩缩容、资源混用预热降本
3.AHPA智能弹性与冷启动优化:监控预测联动保障可靠性、vLLM/Fluid/tensorizer加速启动
4.客户案例和方案演示        

听众收益:
1.掌握通过开源技术优化大模型弹性伸缩端到端的实践方案,了解可能的优化点。
2.了解开源技术优化大模型弹性伸缩所需要的技术栈,作为技术选型,包括Knative,HPA,Fluid,Tensorizer

阿里巴巴云原生应用平台高级技术专家,从事 Kubernetes 和容器相关产品的开发,重点探索利用容器技术加速异构计算、深度学习、边缘计算等广泛场景方案的交付与落地,同时是对于开源社区的积极参与者。他是CNCF旗下开源项目Fluid的创始人之一,也是核心维护者。也是业界第一个 GPU 共享调度的主要作者和维护者。他还是Alluxio开源项目的管理委员会成员(PMC Member),Kubernetes,Docker和Kubeflow等社区的积极贡献者。
面向智能工厂管控一体化的工业大模型与专用小模型协同与融合
薛 栋
华东理工大学 副教授 
内容简介:
随着制造业向数字化转型与智能化升级,工业大模型凭借其强大的泛化能力和跨领域适应性,已成为智能工厂的核心技术支撑。然而,面对特定场景的高精度需求和实时响应要求,专用小模型的轻量化优势不可或缺。本报告将系统阐述工业大模型的构建方法、关键技术及其在智能工厂中的应用价值,同时深入分析小模型在特定任务中的精细化表现。通过典型案例和实验数据,展示大模型与小模型如何在数据共享、任务分解、模型调度等方面实现高效协同,最终推动智能工厂的管控一体化落地。

演讲提纲:
第一部分:引言与背景
智能制造的趋势与挑战:从数字化到智能化
智能工厂管控一体化的核心需求:高效、精准、实时
工业大模型与专用小模型的角色与意义
第二部分:工业大模型的构建与应用
1.什么是工业大模型?
2.工业大模型的构建方法
3.工业大模型的应用场景
4.优势与局限
第三部分:专用小模型的构建与应用
1.什么是专用小模型
2.专用小模型的构建方法
3.专用小模型的应用场景
4.优势与局限
第四部分:大模型与小模型的协同与融合
1.协同与融合的必要性
2.协同与融合的技术框架
3.协同与融合的实现方法
4.典型案例分析
第五部分:技术挑战与未来展望

听众收益:
1.掌握工业大模型与专用小模型的协同方法与技术框架
听众将深入了解工业大模型与小模型在智能工厂中的协同机制,包括数据共享、任务分解和模型调度等关键技术。通过报告中的案例分析,听众可以学习如何在实际工业场景中应用这些技术,解决复杂任务与细粒度需求并存的问题,提升智能制造系统的整体效率与稳定性。
2.获取工业AI模型构建与优化的实践经验
报告将详细介绍工业大模型和专用小模型的构建方法、应用场景以及优化策略。听众将学习如何结合大规模数据训练、轻量化设计和迁移学习等技术,开发适合工业场景的AI模型,并理解如何在资源受限的环境中实现高效部署。
3.洞察智能工厂管控一体化的未来发展方向
听众将从报告中获得关于工业AI技术未来发展的深刻洞察,包括技术挑战、生态系统构建以及标准化的趋势。这些信息将帮助AI研发人员在技术规划和项目实施中提前布局,抓住智能制造领域的技术创新机遇。

浙江大学平台“百人计划”研究员,博士生导师,启真优秀青年学者。入选第十届中国科协青年人才托举工程。研究方向包括大小模型端云协同智能,多媒体计算与推荐系统。近年来,在TPAMI、TKDE、KDD、CVPR等CCF A类期刊和会议上发表论文四十余篇。曾获2023年度上海市科技进步一等奖、2023年度计算机学会科技进步一等奖,2024年ACM Multimedia最佳论文奖提名,2023年中国人工智能学会CICAI最佳论文奖、2021年WAIC云帆奖-明日之星(全球15人)等奖励与荣誉。
大小模型协同算法及端云协同应用
张圣宇
浙江大学 研究员 
内容简介:
在中心化云机器学习的基础之上,发挥端侧情境机器学习隐私保护、实时响应、动态适应的优势进行互补,形成“端云协同”机器学习的计算框架,已成为产学研的焦点。本报告将分享团队在大小模型协同基础算法研究、在资源受限分布偏移下的端云协同学习和推理方法,以及在推荐系统、端侧多模态交互智能体(GUI Agent)等应用研究探索。

演讲提纲:
1.大小模型端云协同智能的背景
端云协同计算通过卸载部分学习任务至端侧,让端和云协同完成任务,从而发挥终端靠近用户和数据源的天然优势,降低服务延时至毫秒级,增强模型个性化精准推理能力,缓解云服务器中心负载压力,同时支持用户原始数据在设备本地处理
有效克服主流云学习范式在实时性、个性化、负载成本、隐私安全等方面的不足
2.大小模型协同基础算法
基于生成的协同:ModelGPT + 用户对模型的需求描述 + 少量数据 =(推理生成)  开箱即用小模型。在 All-in-One 的通用大模型范式之外,初步探索 One-to-All 的可能性,为更广泛的小数据、小算力(边端)、离线应用场景提供AI落地支撑。
3.大小模型端云协同智能
3.1不同端设备存在差异化任务功能和差异化使用场景,云模型向端侧迁移部署面临着跨场景、跨任务的泛化性问题
3.2解决端云大小模型在差异化尺寸架构和优化目标下的协同推断问题。云不直接执行任务本身,而是帮助端更好的执行既定任务
3.3面对不同端数据偏差和训练偏差下,解决个性化端模型向去偏云汇聚学习难题。
4.案例分析
4.1推荐系统应用
4.2图形界面智能体应用

听众收益:
如何联合应用平台既有的特定业务小模型与云侧大模型,将端侧小模型轻量部署、快速响应、个性适配的优势,和云侧大模型认知推理、多模态理解、通用泛化的优势进行互补。
如何在适当的场景和时间下分配AI计算的工作负载,以提供更好的体验,并高效利用资源。在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务。而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。

浙江大学平台“百人计划”研究员,博士生导师,启真优秀青年学者。入选第十届中国科协青年人才托举工程。研究方向包括大小模型端云协同智能,多媒体计算与推荐系统。近年来,在TPAMI、TKDE、KDD、CVPR等CCF A类期刊和会议上发表论文四十余篇。曾获2023年度上海市科技进步一等奖、2023年度计算机学会科技进步一等奖,2024年ACM Multimedia最佳论文奖提名,2023年中国人工智能学会CICAI最佳论文奖、2021年WAIC云帆奖-明日之星(全球15人)等奖励与荣誉。
京ICP备2020039808号-4 京公网安备11011202100922号