多智能体协同架构设计与实现

本论坛将聚焦多智能体协同决策与具身智能在前沿人工智能领域的创新实践,深入探讨多智能体系统如何通过大模型赋能,在复杂场景中实现自主协作与智能进化。同时,论坛也将关注具身智能在机器人交互、行为决策以及与人类社会深度融合等方面的最新研究成果。    
出品人:王仕亿
英国曼彻斯特大学电子电气工程博士学位,研究方向为集群系统和AI强化学习。旅居欧洲15年,从事多年智能制造、建筑智能、人工智能工程师和科研工作。目前为上海交通大学和普元信息联合博士后工作站在站博士后,从事AI架构研究。主要从事AI算法、架构、智能体设计,参加多项国家AI标准制定以及国家AI相关课题研究。同时兼任普元信息Al科学家工作,负责公司AI架构和智能体设计。其他社会职务,包括:IEEEAI系列标准编委会专家、国家信通院A系列标准编委会专家、百度文心开源服务站专家。
普元信息AI科学家
Agentic Skill 在阿里云 ECS 大规模诊断中的实践与落地
胡 兵
阿里云 技术专家
内容简介:
传统的云资源诊断依赖规则引擎和专家脚本,但在面对阿里云ECS海量实例、复杂故障场景时,往往显得僵化且维护成本高昂。本演讲将揭秘阿里云内部如何利用 Agentic Skill(代理技能) 架构,将LLM的推理能力转化为确定性的运维动作,实现从“被动报警”到“自主侦探与治愈”的范式转变,分享在大规模高并发场景下的工程挑战与落地经验。        

演讲提纲:
1. 背景与挑战 —— 当规则引擎撞上“规模墙”
2. 核心架构 —— 构建 ECS 的“全科医生”
3. 落地场景 —— 那些 AI 解决的“疑难杂症”
4. 工程化挑战 —— 从 Demo 到 Production
5. 成效与展望        

听众收益:
架构认知: 掌握 LLM Agent 在基础设施运维领域的落地架构设计。
实战经验: 了解如何构建高可用、低幻觉的“诊断技能库”(Skill Set),解决复杂场景(如系统宕机、网络抖动)的归因难题。
工程避坑: 获取在大规模场景下控制 Agent 成本、保障执行安全(Safety)及提升响应速度的工程化方案。
未来视野: 洞察从自动化(Automation)向自主化(Autonomy)演进的SRE新趋势。


模仿生物集群智能的大模型注意力提升实践与场景落地应用
王仕亿
普元信息 AI科学家
内容简介:
从自然界中的集群现象出发,通过仿真与物理实验复现集群聚集行为逻辑,将集群智能应用于解决大模型注意力问题,重点落地数据湖智能找数、文本热点信息标注、知识库构建,验证了集群智能体在提升检索匹配效率、标注准确度的实际价值,展现其在多行业的应用潜力。

演讲提纲:
1. 演讲者及研究背景介绍
1.1 个人履历、研究方向与从业经验
1.2 参与的科研项目、标准制定及论文成果
2. 自然集群智能现象的研究与实践基础
2.1 自然中的群体智慧:蜜蜂、鸟群、鱼群等集群行为
2.2 在奥地利集群智能实验室的研究经验:蜂群趋热聚集的仿真和研究
3. 集群聚集行为的技术实现
3.1 仿真层面实现人工群体聚集行为:双源环境热区聚集对比、三源动态环境追踪、病毒传播聚集行为模拟
3.2 物理层面实现:集群机器人 Mona 光源聚集实验
4. 集群智能的现实应用方向
4.1 跨领域应用场景:城市公共交通、医疗卫生细胞运动、互联网流量监控
4.2 核心应用方向:解决大模型智能体的注意力问题
5. 根据集群去热实验仿真提升大模型注意力的具体场景落地
5.1 政务数据湖智能找数场景
5.1.1 找数业务核心痛点:语义化需求难匹配、搜索不灵活、人工理解门槛高、数据定位精准度低
5.1.2 解决方案:基于资产 / 职责目录、需求清单构建找数智能体,实现需求到标签的拆解
5.1.3 POC 验证成果:核心指标表现、匹配效果与检索可解释性分析
5.2 知识库构建:基于信息热点挖掘关键词及热度,搭建专属知识库
5.3 另一个AI 场景
5.3.1 案件处理流程:案件信息识别→大模型生成标签→标签与调解案件关联→数据统计输出
5.3.2 人工与 AI 判断结果对比:各案件类型误判率分析
5.3.3 效率对比:大模型在样例 / 全量案件分类标注中的效率提升数据
6. 总结与致谢

听众收益:
1. 展示产学研的链路,从科学实验到AI场景落地,从自然集群现象提炼 AI 技术逻辑的思路,了解自然集群智慧聚集原理向集群智能体注意力提升的转化方法,为 AI 技术创新提供自然仿生视角。
2. 能清晰知晓政务数据找数、司法案件分类等实际业务的 AI 落地路径,掌握智能体在解决语义匹配、效率低下等行业痛点的实操方案。
3. 可获取集群智能在多领域的应用案例与效果数据,直观了解该技术在政务、金融、司法等场景的落地价值与实践潜力,为自身业务的 AI 升级提供参考。
普元信息AI科学家,负责AI(智能体)架构团队,承接上海大数据中心公共数据治理,工商联智能体等项目负责人。擅长集群系统强化学习,AI智能体架构设计。英国曼彻斯特大学博士,上海交通大学AI博士后,研究方向为集群系统与AI强化学习。深耕欧洲工业和科研领域15年,参与西门子数字化工厂建设项目,若干欧盟科研项目。在集群系统、强化学习、数据治理方面的重要期刊和顶级会议中有多篇论文。同时参与多项国际IEEE、国家AI、可信数据集、数据空间等相关标准制定工作。

自主进化智能体:从固定工作流到动态架构的演进
张 驰
西湖大学博导 AGI实验室负责人
内容简介:
本次演讲将深入剖析多个前沿应用场景,系统性地展现自主进化智能体从刚性工作流向动态自适应架构的范式跨越。通过对 GUI 智能体、医疗智能体以及数据库智能体等典型应用案例的介绍与分析,我们将共同见证智能体在工作范式、记忆广度与上下文理解深度上的全方位进化。这些案例不仅清晰地勾勒出智能体从单纯的效率工具向具备自我迭代能力的智能实体转变的演进脉络,更深刻探讨了这种演化在应对现实世界复杂不确定性时的关键意义,旨在为构建具备生命感的自主智能系统提供全新的理论视野与实践参考。

演讲提纲:
1. 自主进化智能体的背景与核心挑战
痛点:传统 Agent 依赖预定义(Hard-coded)的刚性工作流,面对复杂、模糊且多变的环境时极易失效。
契机:大模型能力的涌现为 Agent 提供了从“指令执行”向“策略自演进”跨越的可能。
2. GUI 智能体:从表层交互到深度逻辑进化
感知进化:实现对 App 业务逻辑的深度理解,而非仅停留在 UI 控件的像素级识别。
效能进化:通过对执行空间的动态探索与策略修剪,实现操作路径的最优化与执行效率的指数级提升。
3. 数据库 Agent:针对底层特性的特化演进
领域适配:针对数据库的 Schema 结构、索引特性及查询优化器进行深度的针对性进化。
闭环优化:基于执行反馈不断自我修正调度策略,实现从通用对话到专业数据库专家的角色转变。
4. 架构演进:从零构建高效智能体实体
自发生长:探索 Agent 架构如何从基础组件出发,通过环境交互自动迭代出最适合任务的协同拓扑。
动态重构:打破固定的模块堆砌,实现记忆机制、上下文调度与推理逻辑在任务过程中的实时自我重组。
5. 结语:迈向具备生命感的自主智能系统
总结:从固定工作流向动态架构的演进,是智能体具备应对现实世界不确定性的关键。
展望:探讨这种自我迭代能力对于构建真正意义上的“数字生命”的深远意义。

听众收益:
1. 了解最新Agent研究思想
2. Agent进化的应用案例        
现任西湖大学特聘研究员,博士生导师,并担任通用人工智能(AGI)实验室负责人。在加入西湖大学前,曾入选腾讯“技术大咖”头部人才计划担任高级研究员。 他长期深耕生成式AI与多模态大模型研究,在CVPR、TPAMI等国际顶尖会议及期刊发表论文60余篇,并连续入选斯坦福大学“全球前2%顶尖科学家”榜单。张驰博士致力于产学研的深度融合,其主导研发的生成式模型曾支撑腾讯QQ核心业务,服务上亿用户。同时,他积极构建开源生态,主导的AppAgent、MeshAnything、Metric 3D等知名开源项目在GitHub累计获星超20,000,被工业界与学术界广泛采纳为行业基准。
通义多模态、多端GUI智能体Mobile-Agent
徐海洋
阿里巴巴 通义实验室高级算法专家
内容简介:
随着多模态大模型和AI agent技术的快速发展,围绕Mobile、PC等端侧构建多模态GUI智能体,以进行自动化操作,成为了现在业界最热的研究应用方向之一,有望变革新的人机交互方式。我们围绕多智能体架构、复杂任务拆解、自主进化推理、GUI基础模型等技术构建整个通义多模态、多端智能体Mobile-Agent技术体系,包括多模态GUI智能体框架体系Mobile-Agent/Mobile-Agent-V2/Mobile-Agent-E、基础GUI智能体模型Mobile-Agent-v3/Mobile-Agent-v3.5等,通过仿真环境数据Scaling,Environment RL Scaling,体系化提升Agent能力等,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。Mobile-Agent工作也发表在NeuIPS 2024,并获得CCL2024、2025 Best Demo,相关代码均已开源到Github (https://github.com/X-PLUG/MobileAgent)        

演讲提纲:
1. 大模型智能体背景介绍,包括GUI、Deepresearch,OpenClaw/Manus等;
2. 通义多模态、多端GUI智能体框架Mobile-Agent,包括多模态单智能体Mobile-Agent、多智能体Mobile-Agent-v2、多模态自主进化智能体Mobile-Agent-E;
3. 通义GUI Foundation Model GUI-Owl/GUI-Owl-1.5,通过仿真环境数据Scaling和真实环境配合,Environment RL Scaling支持多端训练,体系化提升GUI Agent的Long/Short Memory、Tool-Use、Multi-Agent适配能力等;
4. 通义Mobile-Agent开源应用,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。

听众收益:  
1. 体系化了解大模型GUI智能体;
2. 详细了解多模态GUI智能体Mobile-Agent框架体系;
3. GUI Foundation Model GUI-Owl/GUI-Owl-1.5。

阿里通义实验室高级算法专家,负责通义Mobile-Agent、mPLUG等系列工作,包括多模态智能体Mobile-Agent、多模态大模型mPLUG/mPLUG-Owl/QwenVL,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025两年 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer,主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA等。
京ICP备2020039808号-4 京公网安备11011202100922号