出品人:钱 岭
中国移动 集团首席专家
中国移动云能力中心首席科学家,教授级高工,国务院特殊津贴获得者,苏州市姑苏领军人才,工信部数据中心联盟大数据促进委员会委员,中国通信学会边缘计算、算力网络和量子计算专委会委员,中国计算机学会大数据专家委员会通信委员,中国敏捷开发10大贡献者,中国移动科协云计算专家组副组长。
2001年1月毕业于清华大学计算机科学与技术系,获得工学博士学位,2001年加入贝尔实验室基础科学研究院任高级研究员。2008年加入中国移动通信研究院“大云”项目组,担任中国移动通信研究院云计算首席技术架构师、云计算系统部总经理助理。2014年加入中国移动苏州研发中心历任产品部总经理、大数据研发部/产品部总经理、公司级性能管理组组长、战略技术部总经理、公司首席科学家、技术部总经理、创新中心总经理。
在云计算和大数据技术架构、海量数据管理技术、软件工程方法、基于CMMI和敏捷开发方法的过程改进、软件质量管理、软件度量、量子计算、算力网络等领域有较多的研究和实践工作。

领域大模型训练与优化

本论坛聚焦于针对特定行业或领域的大模型进行优化与实际应用探索。包括对大模型进行领域内二次预训练,SFT,强化对齐等最新技术的方法,以提升其在特定任务上的性能与效率。实践方面,着重于将这些优化后的大模型部署于实际业务场景,解决行业痛点,推动智能化转型与升级。 
大模型在得物部署优化实践
孟令公
得物 机器学习高级专家 
内容简介:
主要介绍DeepSeek等大模型在得物部署与落地的经验,包括大模型推理性能优化,部署成本节省,以及我们如何从0到1构建大模型训练平台,让各业务方以低门槛对大模型进行微调训练与部署上线。     
   
演讲提纲:
1.大模型推理引擎优化
1.1如何设计高性能的大模型推理引擎
1.2解决显存碎片问题,大幅提升吞吐—Paged Attention
1.3缓存之前请求的计算结果,减少重复计算—Radix Attention
1.4请求分块处理,避免单个请求卡顿—Chunked Prefill
1.5使用多卡推理,推理速度翻倍
1.6小模型推理+大模型验证—推测解码
2.DeepSeek大模型部署优化
2.1DeepSeek:专家并行 VS Tensor并行
2.2DeepSeek:MTP与推测解码
2.3DeepSeek: MLA优化与数据并行
3.得物大模型训练与推理平台实践
3.1得物大模型训练推理平台:一键发起微调训练与推理部署
3.2得物大模型训练推理平台:拒绝采样,生成推理数据
3.3得物大模型训练推理平台:多lora部署方式
4.总结与展望            
得物机器学习高级专家,算法工程方向,主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯,阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地。
DeepSeek R1-MoE-NAS 融合赋能领域大模型高效训练体系
张 延
联通 数字政府产品部交付总监 
内容简介:
聚焦 “LLaMA - Transformers - Horovod 融合赋能:领域大模型高效训练的创新体系”。当前领域大模型虽潜力巨大,但在数据、模型适配及应用阶段面临诸多挑战,如数据收集整合难、模型架构不适配、应用泛化性差等。深入剖析这些瓶颈,阐述基于 LLaMA、Transformers 与 Horovod 构建的全方位优化方案,涵盖多源数据整合、基于迁移学习的模型适配、多任务与元学习融合等策略。同时,拆解构建高效训练创新体系的全流程,展示政务领域应用实例成效。最后,展望知识图谱、强化学习等新兴技术与现有方案融合的广阔前景,为各行业智能化发展提供强大技术支撑。        

演讲提纲:
1.领域大模型发展瓶颈剖析:数据、模型与应用的挑战
2.技术赋能破局:DeepSeek R1 与 MoE/NAS 协同的领域大模型优化策略与方案  
3.渐进优化:领域大模型全流程优化框架
4.实践验证:政务领域大模型应用成效
5.技术融合与展望:领域大模型优化策略的总结与未来探索        

听众收益:
技术认知提升:深入理解人工智能领域中领域大模型训练与优化的关键技术,像LLaMA、Transformers、Horovod,以及知识图谱、强化学习等前沿技术。明白多源数据整合、智能标注、数据增强等数据处理技术的原理与应用,掌握迁移学习、模型结构微调、分布式训练等模型构建技术,知悉多任务与元学习融合、动态自适应模型调整等应用策略,拓宽技术视野,紧跟人工智能发展趋势。
行业应用洞察:有助于不同行业从业者把握行业智能化转型脉搏,为自身所在行业的智能化发展提供思路与方法借鉴,挖掘领域大模型在本行业的潜在应用价值,推动业务创新与效率提升。
问题解决能力增强:若从事人工智能相关研发工作,可学习到针对领域大模型训练与优化难题的系统性解决方案,如如何解决数据获取难、标注质量低、模型训练效率低、应用场景适应性差等问题,提升解决实际问题的能力,在项目实践中少走弯路,提高研发效率与成果质量。
创新思维启发:对新兴技术与现有优化方案融合的探讨,如知识图谱与领域大模型融合、强化学习与领域大模型结合,能启发听众的创新思维,激发在技术融合创新上的探索热情,尝试将不同技术组合应用于实际场景,推动技术创新与应用突破。

现任联通数字科技有限公司数字政府产品部交付总监,拥有高级技术职称。加入中国计算机学会、中国人工智能协会、ACM 协会、中国电子学会,并在部分协会中担任职务。深耕人工智能与大数据领域多年,凭借算法优化与技术创新推动企业数据资源整合标准化,为数字化转型提供核心支撑;主导智能应用领域关键系统研发与解决方案落地,助力机构提升运营效率,加速数字化进程并推动行业智能化升级。
NASL领域大模型训练
刘 东
网易 算法专家 
内容简介:
NASL 是网易 CodeWave 智能开发平台用于描述 Web 应用的领域特定语言。
为了能够在CodeWave开发IDE中提供代码补全、自然语言生成代码等智能化能力,需要一个具备NASL语言知识的大模型,但经过各种尝试,当前各家大模型在不做训练的情况下均无法掌握NASL语言的相关知识。
因此团队决定自行训练NASL领域大模型,主要是基于当前已有的开源模型做进一步训练微调,增加其在NASL领域的相关能力,来支撑CodeWave中相关产品功能的实现。
分享中主要介绍NASL领域大模型训练的整体方案思考,各个环节遇到的挑战与我们的解决思路。

演讲提纲:
1.CodeWave智能开发平台与NASL语言介绍
2.NASL领域模型训练背景
3.NASL领域模型训练整体思路
4.NASL领域数据构造挑战与解决方案

听众收益:
1.领域模型训练的整体流程
2.领域数据构造经验        

长期从事人工智能领域算法与系统的研发工作,参与过语音识别、机器翻译、机器学习平台等多个方向的项目研发,目前主要负责网易CodeWave产品中NASL大语言模型以及多模态模型的相关研发工作。
京ICP备2020039808号-4 京公网安备11011202100922号