出品人:黄胜鲁
中兴通讯敏捷高级教练,智家中心研发改进总工、中心教练组组长,支撑公司百亿级产品研发效能改进。
深耕管理域、工程域十余年,多次带领多个项目通过CMMI5认证,22年带领重点项目通过信通院DevopsL3认证。
中兴通讯 智家研发改进总工

大模型和AI应用评测

聚焦大模型能力、AI应用能力的测评,涵盖评测指标、评测数据集构建和评测方法等理念和深度赋能,通过大厂场景化落地的案例,围绕提升模型+Agent能力和AI智能水平,对评测集和评测平台的建设、评测方法的应用等进行实例化讲解。使听众快速掌握行业先进评测方法,明晰评测集建设、平台搭建的核心逻辑,通过真实案例直接借鉴相关评测经验和优秀实践,规避误区。
面向行业智能体评测的个性化、高拟真的评估新范式
张俊俊
蚂蚁集团 测试开发专家
内容简介:
随着大语言模型(LLM)驱动的智能体(Agent)在各行各业迅速落地,一个核心挑战日益凸显:如何在复杂的真实环境中,客观、高效地评估 Agent 的实际能力和用户体验?传统的单元测试和离线数据集已无法有效捕捉用户行为的多样性、任务目标的动态性以及多模态交互的复杂性。这导致 Agent 在上线后表现不敌预期,优化迭代缺乏明确依据。
为解决这一痛点,我们提出并构建了一套全新的评估范式——以 **Evaluation Agent**为核心的自动化评测体系。该体系将其作为“数字分身”,在可控的沙盒环境中,模拟真实用户与多种模态交互下的个性化行为,产生可量化的交互轨迹,并通过judge model进行自动化评分,从而实现对产品 Agent 更精准、系统化评测。

演讲提纲:
1. 评测的范式革新:从人工到自动化
1.1 传统评测方式的困境与挑战
1.1.1    人工评测的局限性
1.1.2    离线静态评测的不足
1.2 自动化评测的必要性与价值
1.2.1    业务需求驱动
1.2.2    技术可行性分析
1.3 Evaluation Agent范式的核心理念
1.3.1    数字分身概念:用AI模拟真实用户行为
1.3.2    沙盒环境:提供可控、可重复的测试环境
1.3.3    全链路评测:从交互到结果的端到端评估
1.3.4    数据驱动:基于量化指标的客观评价
2. Evaluation Agent的四大核心支柱
2.1 Persona Modeling(用户画像建模)
2.1.1    多维度用户特征建模
2.1.2    个性化行为生成策略
2.1.3    Persona库的构建与管理
2.2 Multi-modality Integration(多模态集成)
2.2.1    文本模态处理
2.2.2    语音模态支持
2.2.3    视觉模态评估
2.3 Judge Model(评判模型)
2.3.1    评分标准的设计原则
2.3.2    自动化评分机制
2.3.3    评分一致性保障
2.3.4    持续优化机制
2.4 Sandbox Environment(沙盒环境)
2.4.1    环境隔离与安全性
2.4.2    真实环境模拟
2.4.3    可观测性设计
3. 从评测到迭代:构建高效的评测闭环
3.1 评测流程的标准化设计
3.2 数据驱动的问题发现
3.3 迭代优化的闭环机制

听众收益:
1.评测新思路与系统化方法: 掌握一套构建 Evaluation Agent 评测体系的完整方法论,为您的 Agent 产品提供一套系统化的质量保障方案。
2.核心技术分享: 深入理解 Sandbox、Persona、Multi-modality 和 Judge Model 这四大核心模块的功能与构建要点,并能将拓展至自己的项目中。
3.量化评估与迭代闭环: 学习如何通过评测轨迹数据,建立一套可量化的评估指标,形成从发现问题到验证效果的高效迭代闭环。
4.实战经验与踩坑分享: 获得宝贵的实战经验和常见问题解决方案,避免在构建评测体系时走弯路。

蚂蚁集团支付宝技术部测试开发专家,担任过多个行业重大项目的质量保障1号位(出行酒旅、医疗健康管家等)。目前负责行业智能体评测工作,专注于行业智能体算法评测领域的技术创新攻坚。
场景驱动的三层评测体系
蔡李生
中兴通讯 有线研究院AI技术教练
内容简介:
大模型时代,如何保障AI应用从知识、模型到应用的全链路质量与可持续性?我们借鉴TDD思想,创新性构建了场景驱动的三层自动化评测体系。该体系通过高频场景触发,赋能“知识-模型-应用”的闭环验证,为企业数智化转型保驾护航。目前,该实践已融入公司级工具链,并完成多领域试点验证,具备显著的可复制性与推广价值。        

演讲提纲:
1. 引言:三层体系与评测场景简介
- 快速切入大模型应用可持续性面临的挑战。
- 介绍以“知识-模型-应用”为核心的三层评测体系框架及其价值。
- 阐明“场景驱动”作为体系运作的核心原则。
2. 架构:场景驱动的三层体系核心设计
- 深入剖析三层架构的核心要素:知识层(准确性)、模型层(性能)、应用层(价值)。
- 展示如何通过自动化评测场景串联三层,构建质量反馈闭环。
3. 实践:体系落地与工具化集成
- 分享如何将体系融入开发流程(CI/CD)与公司级工具链。
- 简述试点推广中的关键步骤与经验心得。
4. 成效:量化收益与推广价值
- 用数据展示在质量、效能、成本上的提升效果。
- 总结体系的可持续性及企业级推广价值。

听众收益:   
本次演讲将为您带来在AI大模型时代下,关于应用质量、效能与可持续性的前沿实践与深刻洞察。聆听本次分享,您将获得:
1. 一套可落地的可持续质量保障体系: 了解如何将经典的TDD(测试驱动开发)思想创新性地应用于AI应用生命周期,获得一套经过实践验证的、覆盖“知识-模型-应用”三层的自动化评测体系框架,为您企业的AI项目保驾护航。
2. 破解AI应用“黑盒”难题的关键思路: 学习如何通过场景驱动,将模糊的AI能力评估转化为可量化、可监控、可迭代的标准化评测流程,有效解决大模型应用在准确性、稳定性及价值交付上的不确定性痛点。
3. 提升效能与降低风险的实用方法: 获取具体的实践案例和工具链集成方案,了解如何通过高频自动化评测及早发现问题,显著减少人工验证成本,加速迭代周期,同时大幅降低因模型退化或知识幻觉带来的业务风险。

现任中兴通讯有线研究院AI技术教练,深耕大模型(LLM)技术研发与落地应用。目前主要聚焦于AI赋能研发提效与AI落地质量保障两大方向,牵头有线院AI评测能力建设、需求域AI研发提效等多个核心专题,致力于通过创新技术为工程实践赋能。其主导构建的“场景驱动三层评测体系”有效夯实了AI应用的质量基石,护航企业数智化转型。同时,积极融入技术社区,曾赴2024年AIDD、NJSD等业界技术大会进行交流学习,持续追踪前沿动态。
大模型评测系统建设和项目实践
欧阳灿
腾讯微信 WXG大模型体验评测系统
负责人
内容简介:
在大语言模型(LLM)迅速发展的今天,如何评价大模型的优劣是一项至关重要但又颇具挑战的任务。本次分享总结了WXG在LLM评测中的实践经验,涵盖iEval模型库、iEval-LLM-Bench评测框架、iEval评测平台、自助评测、业务项目评测实践,这些评测工具和工具帮助我们科学全面地评估大语言模型,推动技术进步。        
演讲提纲:
1.大模型评测面临的挑战
2.iEval模型库
提供统一的模型API入口,集成多个厂商的优秀模型,提供体验、对比、API调用,为模型对比选型提供直观对比,提高模型大规模系统评测的效率
3.iEval评测系统
3.1 评测集设计
提供多维度的评测集,多类型的prompt模板,丰富的评测算子
3.2 iEval-LLM-Bench评测框架
提供统一评测框架,支持多模型、多评测集、多评测算子低代码扩展接入
3.3 iEval评测平台
提供结果上报汇总能力,结果对比展示能力,评测集管理、评测任务管理能力
4.自助评测
提高在线/离线多种形式的自助评测工具,简化模型开发者评测流程,提高评测效率
5.业务项目评测实践
介绍iEval评测系统在微信视频号、微信小程序等业务中的评测实践

听众收益:
1.了解到大模型评测的方法和工具
2.了解到WXG在大模型业务项目中的评测实践        

负责WXG技术架构部AI业务评测、LLM评测,负责iEval体验评测平台开发,主导iEval-LLM-Bench评测框架建设
京ICP备2020039808号-4 京公网安备11011202100922号