通义多模态、多端GUI智能体Mobile-Agent
内容简介:
随着多模态大模型和AI agent技术的快速发展,围绕Mobile、PC等端侧构建多模态GUI智能体,以进行自动化操作,成为了现在业界最热的研究应用方向之一,有望变革新的人机交互方式。我们围绕多智能体架构、复杂任务拆解、自主进化推理、GUI基础模型等技术构建整个通义多模态、多端智能体Mobile-Agent技术体系,包括多模态GUI智能体框架体系Mobile-Agent/Mobile-Agent-V2/Mobile-Agent-E、基础GUI智能体模型Mobile-Agent-v3/Mobile-Agent-v3.5等,通过仿真环境数据Scaling,Environment RL Scaling,体系化提升Agent能力等,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。Mobile-Agent工作也发表在NeuIPS 2024,并获得CCL2024、2025 Best Demo,相关代码均已开源到Github (https://github.com/X-PLUG/MobileAgent)
演讲提纲:
1. 大模型智能体背景介绍,包括GUI、Deepresearch,OpenClaw/Manus等;
2. 通义多模态、多端GUI智能体框架Mobile-Agent,包括多模态单智能体Mobile-Agent、多智能体Mobile-Agent-v2、多模态自主进化智能体Mobile-Agent-E;
3. 通义GUI Foundation Model GUI-Owl/GUI-Owl-1.5,通过仿真环境数据Scaling和真实环境配合,Environment RL Scaling支持多端训练,体系化提升GUI Agent的Long/Short Memory、Tool-Use、Multi-Agent适配能力等;
4. 通义Mobile-Agent开源应用,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。
听众收益:
1. 体系化了解大模型GUI智能体;
2. 详细了解多模态GUI智能体Mobile-Agent框架体系;
3. GUI Foundation Model GUI-Owl/GUI-Owl-1.5。
阿里通义实验室高级算法专家,负责通义Mobile-Agent、mPLUG等系列工作,包括多模态智能体Mobile-Agent、多模态大模型mPLUG/mPLUG-Owl/QwenVL,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025两年 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer,主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA等。