出品人:彭靖田
谷歌 开发者专家
谷歌 出海创业加速器导师

谷歌开发者专家,谷歌出海创业加速器导师。加州大学访问学者,毕业于浙江大学竺可桢学院。
行业布道者:Linux 云原生基金会(CNCF) 程序委员,深度学习和大模型培训学生超10万人。
连续创业者:3家公司成功退出(字节收购,股权退出)。华为公司 2012 实验室深度学习团队成员,从零到一参与了华为深度学习平台和华为深度学习云服务的设计与研发工作。2017 年作为技术合伙人加入才云科技(2020年被字节全资收购,成为字节火山云),负责 AI Cloud产品和解决方案。(2019-2023)品览数据联合创始人兼CTO,带队自主研发 AI 智能工程设计云平台 AlphaDraw「筑绘通」,是国内有报道的以 AI 生成式算法赋能建筑设计并实现 AI 自动制图和 AI 生成模型的领先科技企业,累计融资近2亿元。
开源项目 Kubeflow 维护者,TensorFlow 贡献者。国内第一本深度剖析 Google AI 框架的畅销书《深入理解 TensorFlow》作者。

多智能体协同与具身智能

本论坛将聚焦多智能体协同决策与具身智能在前沿人工智能领域的创新实践,深入探讨多智能体系统如何通过大模型赋能,在复杂场景中实现自主协作与智能进化。同时,论坛也将关注具身智能在机器人交互、行为决策以及与人类社会深度融合等方面的最新研究成果。                       
可信多模态系统的探索与应用
杨思蓓
上海科技大学 助理教授 
内容简介:
在本演讲以「可信多模态系统」为核心脉络,系统化拆解四大关键技术:首先构建环境感知层,通过可供性知识引导的目标检测技术,将物体功能属性(如"可抓握""可攀爬")融入视觉识别,解决动态场景的语义鸿沟;基于精准感知结果,在认知决策层设计模块化思维链架构,通过知识路由机制实现推理过程的可控性;针对视频模态的复杂性,在表征学习层提出VideoLLM时空解耦框架;最终在生成验证层建立多模态证据链,通过内部机制实现从特征混淆到语义偏差(如常识错误)的全链路幻觉消解。        

演讲提纲:
1. 可信系统的构建挑战:多模态认知的「感知-推理-生成」断层问题
2. 环境感知革新
3. 可控推理引擎
4. 时空认知建模
5. 可信生成闭环

听众收益:
1. 理解多模态系统从感知到生成的技术链设计方法论
2.掌握「环境知识注入→推理路径控制→表征控制→生成验证」的递进优化策略
现任上海科技大学信息科学与技术学院助理教授,2020年获香港大学博士学位,研究方向聚焦计算机视觉与自然语言处理的交叉领域,其团队在CVPR/ECCV/NeurIPS等顶会发表多模态学习相关论文20余篇。
具有情商的人形机器人智能交互关键技术探讨
刘 迅
数字华夏 研究院院长 
内容简介:
在智能交互领域,具备情商的人形机器人不仅需要理解语言,还需精准感知人的表情、动作及场景,并进行情感化响应。本报告探讨实现高情商人形机器人交互的关键技术,涵盖四大核心模块:人的表情语言的多模态感知、人的动作和场景的多模态感知、情商大模型的提示词工程与微调、以及动作/表情/文本的多模态表达。我们设计了一整套技术架构,从传感器数据采集、深度学习模型训练到交互策略优化,并结合真实应用场景进行落地实践。例如,在展厅讲解、情感辅导等领域,机器人能够通过多模态感知分析用户情绪,并以恰当的方式回应,从而提升交互质量和用户体验。本报告将结合具体应用案例,展示如何优化机器人的情感智能,使其在多元场景中发挥更大价值。  
     
演讲提纲:
1. 情商机器人交互的技术挑战与发展趋势
2. 场景、表情、语言、动作的多模态感知
3. 情商大模型的提示词工程与微调
4. 动作/表情/文本的多模态表达范式
5. 应用实践与未来方向

听众收益:
1. 深入理解高情商人形机器人交互的核心技术,掌握多模态感知、情感计算及交互优化的最新进展。
2. 获得情商大模型优化与多模态融合的工程实践经验,了解如何在真实应用场景中落地,实现更自然的人机互动。
3. 启发机器人在不同领域的创新应用,探索在陪护、教育、心理咨询等方向的商业化和技术落地路径。        

正高级工程师,浙江大学计算机科学博士,师从张三元老师,苏步青院士门徒。历任华为高级算法工程师、扩博智能机器视觉专家、普适导航研究院院长。在人形及特种机器人领域持有国家发明专利11件,国际发明专利1件,SCI等高水平论文7篇。10年+技术高管经验,主导过多项千万级智能硬件产品并成果落地商用。10年+从事机器视觉、人工智能、多模态大模型等高新技术在人形及特种机器人智能化等前沿领域的研究与落地。获上海市青年五四奖章、上海市闵行区领军人才、上海市重点产品质量攻关成果项目三等奖、上海市技术发明奖一等奖提名等多项市级荣誉。
企业级AI应用系统开发与多智能体协同实践:
工业级研发全流程数字化革命
罗宇超
苏州云体科技有限公司 CEO 
内容简介:
本议题聚焦“企业级AI应用系统开发”和“多智能体协同”,以苏州云体科技在开发MappingSpace的过程中的实践经验,解读AI如何驱动工业智能智造领域研发流程的数字化变革。通过AI自动生成需求文档、测试用例及安全合规分析,结合与代码管理AI应用、测试AI应用的多智能体协同,打破传统工具堆砌与数据孤岛的困境,实现需求到测试的全流程AI化。内容涵盖AI本地化部署、跨系统协作的标准化方案(如Cursor、豆包等集成),并结合具体制造业行业案例验证技术价值。        

演讲提纲:
1. 企业级AI系统开发:研发全流程的AI赋能
痛点解析:传统ALM工具无法应对需求爆炸
AI标准化开发方案: 需求自动生成:基于AIGC的文档/架构图生成
合规性自动化:Safety GPT解析ISO 26262/21434,V模型追溯矩阵一键生成。
企业级部署优势:支持私有化部署,保障数据安全与定制化适配能力。
2. 多智能体协同:研发生态的效率革命
智能体生态构建: MappingSpace与编码工具协同:通过Open API连接Cursor,基于需求文档,自动生成代码
测试智能体扩展:生成测试用例后,自动触发Eolink的API测试或豆包的自动化工具,覆盖跨系统验证。
3. 实战案例:从合规认证到多工具协同
某汽车零部件:通过AI生成功能安全文档+GitLab代码关联,ASIL-D认证周期缩短40%。
4. 未来展望:AI驱动的研发新范式
开放协同:与Cursor等开发智能体的深度集成潜力(如代码生成与需求自动对齐)。

听众收益
系统性认知:掌握企业级AI系统开发的关键路径,实现需求、测试、合规的全链路自动化。
场景化方案:学习MappingSpace与GitLab/Cursor等工具的多智能体协同实践,打通研发数据流。
合规降本增效:通过AI生成ASPICE/ISO 26262文档,降低70%人工审核成本。        
 
德国卡尔斯鲁厄理工学院 (KIT) 汽车技术专业硕士毕业。主要研究方向是新能源汽车技术、研发流程数字化、AI工业软件、质量管理等。先后在蔚来汽车与上汽零束,从事整车软件研发流程质量管理与工具链开发工作。
2021年,创建了苏州云体科技有限公司。云体科技致力于开发针对智能网联汽车的研发管理工业软件。2022年9月,云体科技推出国产汽车研发管理软件MappingSpace,能同时支持汽车行业满足ASPICE标准及敏捷开发,是国内该领域目前唯一一家研发管理工业软件。作为第一发明人,目前共拥有8项发明专利、11项软著。
先后获得苏州金鸡湖领军人才称号、苏州市姑苏领军人才称号、中国信通院-汽车云领域年度十大创新技术专家奖、中国信通院云上工作组首批技术专家。
多模态、多端智能体Mobile-Agent
徐海洋
阿里巴巴通义实验室 高级算法专家 
内容简介:
随着多模态大模型的快速发展,围绕Mobile、PC等端侧构建多模态智能体,进行自动化操作成为了现在业界最热的研究应用方向。我们围绕多智能体架构、复杂任务拆解、自主进化推理构建整个多模态、多端智能体Mobile-Agent技术体系,包括多模态单智能体Mobile-Agent、多模态多智能体Mobile-Agent-V2、自主进化多模态智能体Mobile-Agent-E:、复杂任务拆解多模态PC智能体PC-Agent等。Mobile-Agent工作也获得CCL2024 Best Demo。

演讲提纲:
1.大模型智能体背景
2. 多模态手机智能体Mobile-Agent
3.多模态PC智能体PC-Agent
4. Mobile-Agent开源应用

听众收益:
1.了解大模型智能体发展背景;
2.了解Mobile-Agent开源应用。

阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG、Mobile-Agent系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent、PC-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文50多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,Mobile-Agent,AliceMind,DELTA。
京ICP备2020039808号-4 京公网安备11011202100922号