大模型训练与优化

深入探讨模型训练、优化和调参的最佳实践,探讨模型的可解释性、泛化能力和鲁棒性,以及如何应对数据偏差和过拟合等挑战,同时探讨在大规模数据处理和模型优化方面的最佳实践。我们还将关注探讨如何通过算力优化推动AI技术在各行业的创新和应用,以及未来算力优化在AI领域的发展方向和商业应用前景。
出品人:马国俊
抖音集团智能服务部门技术负责人
抖音集团AI委员会委员

负责字节跳动用户体验中台、抖音生态治理、抖音质效实验室、伽利略推荐系统等多方向的智能化建设,技术上主要涉及NLP、多模态、LLM/mLLM、数据挖掘与服务工程等领域,带领团队连续获得字节跳动最佳技术贡献团队奖,个人发明专利50多项。
大数据技术如何赋能大模型训练及开发
张松昕
南方科技大学研究学者
内容简介:
Scaling law表明,大模型需要在互联网级别的海量数据上进行训练, 但现有的大模型训练方案基本上仍然采用过去小规模数据的简单训练范式, 难以匹配现有需求。我们从底层训练框架出发,重新设计了数据在训练过程中的生命周期,  使数据开发与模型训练解耦, 改善了大模型训练中大规模数据处理及治理的难题. 从而将数据和算法在大模型开发周期中可以在同等层次上对待,还为大模型训练提供了更加灵活和智能的解决方案。这项研究为未来的大模型训练开辟了新的方向,不仅在理论上具有重要意义,也在实际应用中展现出巨大的潜力。

演讲提纲:
1、现有的大模型训练流程面临哪些瓶颈
2、为什么要使用大数据技术
3、如何使用大数据技术加速模型开发

听众受益:
1、如何从大数据的角度切入大模型
2、加速大模型训练的优化方向        
南方科技大学统计与数据科学系研究学者,UCloud顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLM Leaderboard、Opencompass同参数量级模型榜首。
基于鸿蒙场景的大模型训练与优化探索
曹高雄
华为云鸿蒙智能化算法专家
内容简介:
鸿蒙具有广大的开发者用户,同时有大量的APP迫切需要进行鸿蒙化改造,通过鸿蒙智能化可以大大提升开发者效率以及加速鸿蒙化改造。目前我们基于大模型在鸿蒙智能化改造方面做了一些探索。

演讲提纲:  
1、鸿蒙智能化的背景
2、鸿蒙智能化的场景
3、关键问题与技术
4、展望

听众受益: 
1、能让听众了解到关于鸿蒙智能化的一些信息
2、能让听众了解到关于大模型的一些技术   

目前作为华为云鸿蒙智能化研发负责人,主要负责鸿蒙智能化研发工作。曾获得wsdm、CCF等NLP和推荐算法比赛4次冠军,1次亚军。工作以来长期从事NLP相关方面的研究与应用落地工作,在政企、金融等行业具有丰富的应用落地经验。  
面向智能制造的鹏城脑海大模型训练与优化
梁骁俊
鹏城实验室副研究员
唐 鹏
鹏城实验室工程师
内容简介:
智能制造是人工智能高水平赋能新型工业化的主攻方向,是推进新型工业化是发展新质生产力的关键。以ChatGPT为代表的大模型作为通用AI新范式,持续引发了工业应用变革争鸣,其颠覆性和新进前沿技术催生新产业新模式新动能,持续引发社会的大变革。本次报告介绍基于鹏城云脑强大算力基础训练完成的国内首个完全自主可控、安全可信、开源开放的预训练大模型底座——鹏城·脑海大模型,以及本团队在典型工业场景赋能智能制造的初步探索。        

演讲提纲:  
1、 智能制造研究背景
1)制造业是国民经济的基础和支柱
2)智能制造是有机深度融合新一代信息技术与制造业,核心是智能化
3)通用AI大模型正在改变AI领域关键创新模式
4)新一代人工智能催生新产业新模式新动能,构筑工业应用新模式
2、 大模型赋能制造若干挑战
1)挑战1:通用大模型匮乏高质量确定性工业知识
2)挑战2:大模型缺乏工业中类人的创造性认知
3)挑战3:大模型缺乏多粒度应用解析与关联
4)挑战4:亟需高效可信工业大模型评测机制
3、鹏城云脑与脑海大模型
1)鹏城云脑E级智算平台
2)鹏城脑海基座大模型高效训练
3)鹏城脑海开源合作生态
4、知识增强大模型应用探索
1)高质量多层级工业领域知识库
2)工业知识增强大模型智能决策
3)工业应用工场化赋能支撑技术
4)工业 AI 大模型可信评测平台
5、总结与展望        

听众受益:
1、了解大模型赋能工业的战略性需求与技术挑战
2、了解鹏城实验室构建的基座大模型,以及赋能智能制造探索工作进展
3、了解博士攻读以及就业机会,鹏城实验室工业智能团队亟需大模型方向的优秀科研与技术人员,以及有志于大模型赋能工业化方向的高校联培博士生
深圳市鹏城实验室副研究员,智能系统与应用创新研究所工业智能研究室主任,南方科技大学博士生导师,入选广东省引进青年人才。研究方向包括力学建模与计算、工业人工智能、智能系统与智能制造。发表SCI论文20余篇,申请10余项中国发明专利。主持国家自然科学基金1项,鹏城实验室重大攻关任务课题2项。担任中国自动化学会系统仿真专委会副主任,深圳市计算机协会大模型专委会执行委员。
北京科技大学博士,鹏城实验室工程师,长期从事流程工业和高端装备系统建模、智能感知和过程监测研究工作,目前负责大模型轻量化部署、工业大模型应用以及时序大模型等技术研究。
基于评估驱动的大模型优化
费志辉
抖音质效实验室算法技术专家
内容简介:
本次分享首先介绍大模型发展历程中面临的挑战,然后介绍大模型评估、优化技术的重要性,最后系统性地介绍字节Byteval在大模型智能评估、大模型问题挖掘和精准优化上的能力建设工作。Byteval是面向抖音系(抖音AI特效、剪映特效、数字人分身等)的大模型能力评估平台,提供大模型自动评估、数据增广和数据质量评估工具、以及大模型可解释性归因等基础能力,积累了上百万的私域高质量评估数据集,对模型在研发、准出和线上阶段提供科学、可信评估结论,反哺模型效果和安全的能力持续提升。

演讲提纲:
1、大模型发展历程和挑战
1)大模型技术发展历程
2)挑战1: 大模型安全保障
3)挑战2: 大模型效果提升
2、大模型评估方法设计与最佳实践
1)大模型评估标准
2)大模型评估框架
3)评估和训练语料建设
3、大模型评估如何驱动模型优化
1)线上线下问题挖掘
2)训练语料优化
3)大模型优化
4)大模型可解释归因
4、Byteval平台化
1)通用框架设计
2)算法开放能力
5、思考与展望
1)大模型鲁棒性优化
2)可解释性驱动的模型优化        

听众受益:
1、了解LLM安全和效果评测的重要性
2、了解LLM评测如何提升效率和可信度的一些技巧
3、了解抖音系大模型产品的智能化评测现状
曾就职于腾讯,2020年加入字节,目前担任大模型算法专家,负责Byteval(抖音大模型评测平台)的安全和效果评估工作,保障了抖音系多个大模型的安全效果能力的持续提升。
京ICP备2020039808号-4 京公网安备11011202100922号