内容简介:
Scaling law表明,大模型需要在互联网级别的海量数据上进行训练, 但现有的大模型训练方案基本上仍然采用过去小规模数据的简单训练范式, 难以匹配现有需求。我们从底层训练框架出发,重新设计了数据在训练过程中的生命周期, 使数据开发与模型训练解耦, 改善了大模型训练中大规模数据处理及治理的难题. 从而将数据和算法在大模型开发周期中可以在同等层次上对待,还为大模型训练提供了更加灵活和智能的解决方案。这项研究为未来的大模型训练开辟了新的方向,不仅在理论上具有重要意义,也在实际应用中展现出巨大的潜力。
演讲提纲:
1、现有的大模型训练流程面临哪些瓶颈
2、为什么要使用大数据技术
3、如何使用大数据技术加速模型开发
听众受益:
1、如何从大数据的角度切入大模型
2、加速大模型训练的优化方向
南方科技大学统计与数据科学系研究学者,UCloud顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLM Leaderboard、Opencompass同参数量级模型榜首。