LLM和AI应用的评测

本论坛旨在深入探讨人工智能和大型语言模型(LLM)的性能评估方法。涵盖模型基准测试、评估指标、测试工具和框架、结果解释、模型比较、可解释性和透明度等关键主题。通过分享最新的评测技术和策略,致力于帮助参与者理解AI和LLM的性能,推动评估标准的制定和评测技术的进步。
出品人:朱少民
“软件工程3.0”定义者/CCF杰出会员、质量工程SIG主席
同济大学特聘教授、CCF质量工程SIG主席、软件绿色联盟标准评测组组长,近三十年来一直从事软件测试、质量管理等工作,先后获得多项省、部级科技进步奖,已出版了二十多部著作和4本译作,代表作主要有《软件测试方法和技术》、《全程软件测试》、《敏捷测试》等,并经常在国内外学术会议或技术大会上发表演讲,曾任思科(中国)软件有限公司QA高级总监、IEEE ICST2019工业论坛主席、IEEE ICST、QRS、DAS等国际学术会议的程序委员、《软件学报》审稿人等。
面向复杂软件开发场景的大模型评测与优化探索
刘名威
中山大学副教授
内容简介:
大模型在代码生成和理解等领域取得显著进展,为软件开发提供了广泛支持。然而,它们在上下文处理、领域知识覆盖等方面的局限性,使其在复杂软件开发场景(如大规模代码库和复杂上下文)中的应用仍面临挑战。现有评测通常在简单设置下进行,难以真实反映其在复杂环境中的能力。
为此,报告人开展了系列研究,专注于复杂软件开发场景的大模型评测与优化探索。研究涵盖类级别代码生成、仓库级别代码翻译和漏洞检测等任务,分析大模型的应用潜力与局限性,并提出针对不同场景的应用策略,以提升其在复杂开发环境中的适应性和效能。

演讲提纲:
1、引言
1)介绍大模型在软件开发中的重要性
2)提出研究背景和动机
2、大模型的应用现状
1)概述大模型在代码生成、理解和缺陷检测等领域的进展
2)强调其对软件开发的智能化支持
3、复杂软件开发场景的挑战
1)描述复杂场景的特性(如大规模代码库、复杂上下文等)
2)讨论大模型在上下文处理、领域知识覆盖及提示词敏感性等方面的局限性
4、现有评测的不足
1)说明目前大模型能力评测的简单设置
2)讨论其对真实应用效果的影响
5、研究目标与方法
1)介绍针对复杂软件开发场景的评测与优化探索的研究框架
2)描述研究方法和具体任务(如类级别代码生成、仓库级别代码翻译、漏洞检测)
6、研究成果与分析
1)总结评测结果,分析大模型的应用潜力与局限性
2)提出不同场景的应用策略
7、未来的研究方向
1)展望大模型在复杂开发环境中的改进方向
2)讨论后续研究的重点领域与目标
8、结论
1)强调大模型技术与实际需求的深度结合
2)总结演讲的主要观点和启示

听众受益:  
1、深入理解大模型的应用潜力
听众将了解到大模型在复杂软件开发场景中的实际应用效果,包括其在类级别代码生成、仓库级别代码翻译和漏洞检测等具体任务中的表现。这将帮助听众评估大模型的适用性,识别其在特定开发环境中的优势和局限。
2、掌握针对复杂场景的优化策略
演讲将提供针对复杂软件开发环境中大模型的应用策略,帮助听众了解如何选择和优化模型,以提升其在特定任务中的效能。这些策略将为软件开发人员和团队提供实用的指导,推动智能化开发实践的落地。
3、促进技术与实际需求的结合
听众将认识到大模型技术如何与实际开发需求深度结合,从而推动软件开发流程的智能化和高效化发展。这一认识将激发听众探索如何将最新技术应用于自己的项目和团队,提升工作效率和质量。        
博士生导师,“逸仙学者计划”新锐学者。他于2022年在复旦大学获得博士学位,并在2024年完成了复旦大学的博士后研究。他的研究领域聚焦于软件工程(SE)与人工智能(AI)的交叉领域,尤其在AI4SE和SE4AI方面。他的主要研究兴趣在于利用先进的AI技术,如大规模语言模型(LLM)和知识图谱(KG),来解决软件工程中的挑战,并应对AI应用和场景中常见的软件工程和系统工程问题。具体的研究方向包括基于大模型的智能化开发与维护、可信代码大模型、软件开发知识图谱等。在过去的五年中,他在软件工程领域的顶级国际期刊和会议上(如TSE、TOSEM、ICSE、FSE、ASE等)发表了20余篇论文,并荣获了多项奖项,包括IEEE TCSE杰出论文奖(ICSME 2018,CCF-B)和ACM SIGSOFT杰出论文奖(FSE 2023,CCF-A)。
蚂蚁数科AI Agent质量保障体系建设探索
李 赫
蚂蚁数科测试开发专家
内容简介: 
基于LLM的Agent应用已在日常生活&企业生产中广泛使用,而RAG技术凭借其可大幅减少幻觉、可知识更新、可隐私保护等特性,已成为Agent应用必不可少的底层技术支撑。
本议题将重点探讨以AI Agent为核心的质量保障体系构建,阐述在AI Agent驱动的业务应用中如何通过性能、效果、安全等核心环节实现Agent的深度评测与优化,同时能够广泛应用于各种RAG架构的AI Agent产品的质量保障体系,从而推动Agent产品的企业级落地

演讲提纲: 
1、AI Agent在蚂蚁数科的应用场景。
2、Agent质量保障的整体方法策略。
3、Agent效果评测的方法和标准。
4、Agent性能测试的方法和标准。
5、Agent一站式质量平台建设。

听众受益: 
1、评估与选择能力提升:学习AI Agent的评测方法和标准,有助于听众在实际工作中更好地评估不同解决方案的优劣,为项目选型或技术栈决策提供科学依据。
2、技能与工具掌握:评测过程中涉及的评测数据处理、效果评估、性能压测等技能,对于听众来说是宝贵的实践机会,能够提升听众在AI领域的专业技能,并熟悉相关工具和平台的建设思路。

10余年软件开发及测试经验,在测试工具开发、质量效能平台建设等方向有丰富的落地经验,先后就职于网易、淘宝、腾讯音乐、现任蚂蚁数科AI业务质量&质量效能负责人。
研发大模型评测体系及实践分享
郝 毅
华为主任工程师
内容简介:
本议题主要围绕基于LLM的AI应用评测体系及实践效果展开,从方案、数据、工程化三个角度对LLM评测、AI应用评测进行背景介绍,并基于研发大模型评测体系架构对测试工作流、技术全景图进行概述和分析。基于上述的分析和介绍会抛出几个短期的技术规划和痛点问题,并从方案介绍、数据构建、工程化实践三个角度对这些规划、问题进行更加深入的分享,同时会基于内部的模型演进情况、效能数据对实践结果进行印证。最后会结合开场介绍的评测体系给出一些技术挑战方向和长期规划的思考,引导听众进入Q&A环节的交流。

演讲提纲:
1、研发大模型评测体系洞察及挑战
2、研发大模型评测指标设计
3、研发大模型评测数据集构建
4、研发大模型评估工程建设
5、研发大模型评测实践分享
6、展望与思考

听众受益:
1、了解基于LLM的AI应用分层评测体系框架,并对LLM评测活动的工作流、相关技术形成体系化认识。
2、了解华为内部在研发大模型的实践经验,包括工程化方案、测试驱动模型改进的效果、测评能力工程化实践带来的效能提升等。
3、了解模型评测的难点、挑战和长期规划,在LLM测试技术领域为听众提供启发。

2021年博士毕业加入华为,目前在华为云PaaS服务产品部下属的集成验证部担任大模型评测团队负责人、DevOps协作产品测试经理、CodeArts盘古助手测试经理。加入华为以来先后任职算法SE、大模型测试TSE、产品测试经理等岗位,2023年获得华为公司金牌个人奖,2024年升至主任工程师。自加入华为以来申请专利5篇,参编多个智能化产品评估标准及白皮书撰写,牵头完成华为盘古研发大模型及产品完成信通院最高等级认证。  
京ICP备2020039808号-4