内容简介:
本议题主要围绕基于LLM的AI应用评测体系及实践效果展开,从方案、数据、工程化三个角度对LLM评测、AI应用评测进行背景介绍,并基于研发大模型评测体系架构对测试工作流、技术全景图进行概述和分析。基于上述的分析和介绍会抛出几个短期的技术规划和痛点问题,并从方案介绍、数据构建、工程化实践三个角度对这些规划、问题进行更加深入的分享,同时会基于内部的模型演进情况、效能数据对实践结果进行印证。最后会结合开场介绍的评测体系给出一些技术挑战方向和长期规划的思考,引导听众进入Q&A环节的交流。
演讲提纲:
1、研发大模型评测体系洞察及挑战
2、研发大模型评测指标设计
3、研发大模型评测数据集构建
4、研发大模型评估工程建设
5、研发大模型评测实践分享
6、展望与思考
听众受益:
1、了解基于LLM的AI应用分层评测体系框架,并对LLM评测活动的工作流、相关技术形成体系化认识。
2、了解华为内部在研发大模型的实践经验,包括工程化方案、测试驱动模型改进的效果、测评能力工程化实践带来的效能提升等。
3、了解模型评测的难点、挑战和长期规划,在LLM测试技术领域为听众提供启发。
2021年博士毕业加入华为,目前在华为云PaaS服务产品部下属的集成验证部担任大模型评测团队负责人、DevOps协作产品测试经理、CodeArts盘古助手测试经理。加入华为以来先后任职算法SE、大模型测试TSE、产品测试经理等岗位,2023年获得华为公司金牌个人奖,2024年升至主任工程师。自加入华为以来申请专利5篇,参编多个智能化产品评估标准及白皮书撰写,牵头完成华为盘古研发大模型及产品完成信通院最高等级认证。