出品人:齐彦松
字节跳动 用户增长测试团队负责人
字节跳动用户增长测试团队负责人历年负责过搜索、中台等业务测试和团队管理工作,拥有十余年的质量领域从业经验。现就职于字节跳动,任用户增长测试团队负责人,同时带领团队孵化多个行业领先的智能化应用技术,完成规模化推广落地。

大模型评测

本论坛旨在深入探讨人工智能和大型语言模型(LLM)的性能评测方法。涵盖模型基准测试、评测指标、数据集构建、测试工具和框架、结果分析与解释、模型比较等关键主题。通过分享最新的评测策略和技术实践,致力于帮助参与者理解AI和LLM的性能、可解释性和公正性等,推动评测数据集、标准的制定和评测技术的进步。      
AI Robustness Evaluation Techniques and Case Studies 
in Various Domains
천선일 (Chon Sun-il)
ThinkforBL Manager 
内容简介:
AI has become an essential technology in safety-critical fields such as disaster response, defense, and law enforcement. However, the question ""Is this AI truly robust?"" still lacks a well-defined and reliable evaluation standard. A simplistic approach that merely tests AI in various environments does not constitute an engineering-based validation. The process of evaluating AI robustness itself must be reliable. If evaluation results vary depending on the examiner’s subjective judgment, then this falls into the realm of talent, not technology.
This presentation introduces technical methodologies that enable objective and consistent AI robustness evaluation. We have established seven technical standards in Korea and conducted numerous pilot projects, including public data diagnostics, to accumulate real-world application cases. Additionally, we are currently researching evaluation methodologies for Large Language Models (LLMs) and will share some insights from this research. Moving beyond superficial discussions on AI Trustworthiness, this talk presents concrete technological approaches to ensuring the Reliability of AI testing and evaluation itself.

演讲提纲:
1. Defining AI Robustness Evaluation as an Engineering Challenge
·         Why a reproducible and objective evaluation method is necessary instead of simple environmental testing
·         The core issue of result variability due to the examiner’s experience or subjectivity
2. Technical Approaches to AI Robustness Evaluation
·         AI robustness testing and validation techniques applicable across multiple domains
3. AI Robustness Evaluation Technologies in Korea
·         Technological advancements developed through previous research
4. Real-World Pilot Projects and Public Data Diagnostic Cases
·         Practical applications and outcomes of AI evaluation technologies in public and industrial sectors
·         Key requirements for enhancing the reliability of AI evaluation
5. Global Expansion and Collaborative Opportunities
·         Potential for global standardization of AI robustness evaluation technologies
·         Proposed international collaboration models to strengthen AI Trustworthiness
6. Considerations and Exploration of LLM-Based AI Evaluation
·         Current research directions for LLM-based AI evaluation techniques
Potential integration with existing AI evaluation frameworks

听众收益:
1. Master an Objective & Technical Approach to AI Robustness Evaluation
·         Go beyond simplistic AI safety discussions and learn verifiable evaluation techniques.
2. Explore Practical Applications Through Technical Standards and Pilot Cases
·         Move beyond conceptual discussions and discover real-world applications of proven technologies.
3. Identify Opportunities for Global Standardization and Collaboration
Discuss how to ensure the credibility of AI robustness evaluation and explore global cooperation opportunities.
1. Developed AI Trustworthiness Verification Techniques and established seven group standards with Korea’s Telecommunications Technology Association (TTA)
2. Extensive experience in AI system development and commercialization and published research on AI Trustworthiness at international conferences
3. Certified in Functional Safety Verification Frameworks
AFSP (Automotive Functional Safety Professional)
CACSP (Certified Automotive Cyber Security Professional)
4. Lead author of the AI Trustworthiness Development Guide, published by the Korean Ministry of Science and ICT, covering all domains: Smart Policing, Hiring, Generative AI, Autonomous Driving, Healthcare, and Public & Social Services
5. Master’s Degree in Electronic Engineering from Jeonbuk National University
大模型评测数据集一站式构建
张莉莎
智慧芽 大模型评测专家&高级测试开发经理 
内容简介:
对于大模型的评测,数据集构建至关重要,该主题主要讨论领域大模型的评测数据集构建方法及落地,从大模型能力分析,场景定位,主客观域等多维构建评测数据集,自动化构建平台的落地实现。    
   
演讲提纲:

1.大模型评测数据集构建现状;
2.大模型评测数据集构建维度;
3. 大模型评测数据集构建方法;
4.大模型评测数据集指标选取;
5.大模型评测数据集对齐;
6. 大模型评测数据集自动化构建平台。

听众收益:
1.了解目前大模型评测数据集现状;
2.共同探讨领域大模型评测数据集构建方法的科学性。
5年的GUI测试开发经验,5年的大数据测试开发经验,2年大模型研发评测经验。
教育大模型评测体系构建与场景化测试实践
文 皓
科大讯飞 AI研究院教育质量部负责人 
内容简介:
在大模型落地场景中,最核心的一项工作是评估大模型在产品端的实际效果,但面临的挑战有:
1.如何设计科学的评测方案来评测大模型在教育场景的效果?
2.教育类产品通常需要多个AI能力编排形成整套的解决方案,如果保障产品端到端的成效?
3.如何持续的监控发布后的产品,及时发现AI算法的效果问题?

演讲提纲:
1.背景与挑战
1.1教育大模型的应用场景
2.2评测与落地的关键挑战
2.教育大模型评测体系构建
2.1评测维度与核心指标
2.2评测工具与方法论
3.作业批改场景的端到端测试实践
3.1场景需求与技术拆解
3.2端到端评测流程设计
3.3实战经验与避坑指南
4.总结与展望
4.1评测体系演进方向
4.2给行业的关键建议

听众收益:
1.了解教育大模型产品在端到端的测评中遇到的问题以及从我们团队的解决方案中获取一些启示
2.大模型产品测评提效的经验

有10多年软件开发及测试经验,2017年加入讯飞研究院质量团队,负责AI算法测试,对于认知类技术产品的落地有较多经验; 在讯飞星火大模型的攻关项目中,参与了星火大模型在教育、汽车、司法等多个业务场景的落地工作。
迈向通用智能裁判:大模型评测系统的自主进化之路
王 晓
抖音 测试开发资深专家 
内容简介:
随着大模型技术的快速发展,如何高效、全面地评估模型能力成为行业痛点。本议题聚焦于 “裁判大模型” 核心技术,探讨如何构建具备自主规划、动态评估与可信验证能力的智能评测系统。我们将分享从评测需求解析到报告生成的全链路自动化评测流程。未来,智能裁判系统将逐步突破单一场景限制,向 “评测一切” 的通用化目标迈进。        

演讲提纲:
1. 大模型评测的核心桃战与演进方向
2. 智能裁判系统的技术架构与核心模块
2.1 分层设计:需求解析→维度管理→评估执行→报告生成
2.3 动态维度生成:预置知识库 + Prompt 工程的协同创新
2.4 多模型协同验证与置信度管理机制
3. 关键技术突破:从单一场景到泛化能力
3.1反事实修正与对抗样本检测
3.2 领域知识库注入与垂类增强策略
3.3 多模态评测的技术探索(语音、图像等)
4. 行业实践与未来展望

听众收益:
方法论层面:理解智能评测系统的设计逻辑,掌握动态维度生成与多模型协同验证的核心技术。
技术架构层面:学习分层 Agent 架构的工程实现,探索从需求解析到报告生成的全链路自动化方案。
行业洞察层面:把握大模型评测的发展趋势,了解垂直领域智能化覆盖率提升的实践路径与挑战。

专注于大模型评测体系建设及算法支持。主导多个大模型评测系统研发,推动自动化评测技术在质量保障领域的落地应用,在模型能力评估与质量优化方向积累了丰富经验。发表人工智能领域论文 3 篇,其中包含SCI 一区 / CCF A 类论文1 篇,持有大模型方向发明专利2 项。技术方向聚焦智能评测系统设计、质量保障大模型创新,致力于通过技术突破提升模型迭代效率与质量。      
蚂蚁数科AI Agent质量保障体系建设探索
张 鑫
蚂蚁集团 数字科技线高级测试开发 
内容简介:
基于RAG&ToolUsing等关键技术构建的AI Agent体系凭借其显著减少幻觉、实现知识动态更新、保障隐私安全等核心优势,已成为AI Agent系统关键的技术基础设施。
本议题将重点探讨以AI Agent为核心的质量保障体系构建,从性能、效果等关键维度建立系统的评测方法论,提出覆盖Agent全生命周期的质量保障体系,该体系能够提供可复用的质量保障方法,最终实现智能体应用在企业复杂场景中的有效落地

演讲提纲:
1. AI Agent在蚂蚁数科的应用场景。
2. Agent质量保障的整体方法论策略。
3.Agent有标效果评测与无标效果评测的科学方法与标准化体系。
4. Agent性能测试的技术方法和评估标准。
5. Agent一站式质量平台建设与实践。

听众收益:
1. 评估与选择能力提升:学习AI Agent的评测方法和标准,有助于听众在实际工作中更好地评估不同解决方案的优劣,为项目选型或技术架构决策提供科学依据。
2. 技能与工具掌握:评测过程中涉及的评测数据处理、效果评估、性能压测等核心技能,为听众提供宝贵的实践机会,显著提升听众在AI领域的专业能力,同时深入理解相关工具和平台的建设思路。        
专注于AI Agent评测、算法评测等质量平台建设平台建设,具备丰富的测试工具开发,质量效能平台实施和落地经验,目前在蚂蚁数科质量团队担任核心开发,主导AI评测平台的技术攻坚与创新方案探索。
京ICP备2020039808号-4 京公网安备11011202100922号