论坛主席:郑丽君

美团 高级技术专家
15年以上测试技术研究经历,10年以上质量技术管理经验。带领团队在测试数字化及工具化、测试效能与度量洞察、AI测试工具搭建与应用等方面持续探索新能力,在以上领域具有多个典型实践项目案例。

大模型和AI应用评测

本论坛旨在深入探讨人工智能和大型语言模型(LLM)的性能评估方法。涵盖模型基准测试、评估指标、测试工具和框架、结果解释、模型比较、可解释性和透明度等关键主题。通过分享最新的评测技术和策略,致力于帮助参与者理解AI和LLM的性能,推动评估标准的制定和评测技术的进步。
Agent 自进化:企业级智能体全生命周期进化飞轮实践
夏 明
阿里云 高级产品专家
内容简介:
当企业级智能体从实验原型走向生产环境,真正的挑战才刚刚开始。当前大量 Agent 处于"裸奔"状态——没有可观测性,没有评估体系,没有优化闭环。这与 2010 年代微服务爆发初期的困境如出一辙,但 Agent 的非确定性行为使挑战更加严峻。本次分享将从行业实践出发,深入剖析企业级智能体面临的可观测性、评估体系、优化闭环三大空白,系统阐述"观测→评估→优化"三层进化飞轮的方法论与工程实践,并结合真实案例展示如何通过数据驱动的方式让智能体具备自我感知、自我评估、自我优化的持续进化能力,帮助企业构建从 Demo 到生产级的 Agent 工程体系        

演讲提纲:
1. 企业级 Agent 运行的核心痛点与解题思路
2. Agent 全栈数据无侵入采集,性能/成本/异常全链路追踪
3. Agentic Judge 驱动真实效果评估,用实验替代人工抽检
4. 上下文智能调优与自主进化双路径,驱动智能体越用越聪明

听众收益:
1. 掌握"观测→评估→优化"三层进化飞轮的方法论,获得可直接落地的实操路径
2. 获得评估器质量工程、数据集自动化构建、CI/CD 质量门禁等关键环节的最佳实践
3. 建立"Agent 自进化"的思维框架,思考如何让智能体从被动运维走向主动进化        
阿里云高级产品专家,应用实时监控服务 ARMS 产品前研发负责人,现任 Agent 观测与优化 AgentLoop 产品负责人。
京ICP备2020039808号-4 京公网安备11011202100922号