AiDD研发数字峰会-北京站

出品人：陈祖龙

阿里巴巴企业智能算法负责人

阿里巴巴企业智能算法负责人，中国设计与人工智能良渚智库专家，浙江省人工智能协会智能制造分会百人专家，中国“双法”学会数学建模分会理事，现负责面向大型企业的数字化智能文档、企业级办公助手以及法务、设计领域等领域大模型相关工作，曾负责阿里巴巴飞猪算法（搜索、推荐、广告、供应链等）团队和淘宝首页人群个性化推荐，带领团队在在旅游业务上做到了不错的效果，在WWW、SIGIR、SIGKDD、ICDE、WSDM、IJCAI、CIKM、AAAI、ACL、EMNLP等国际顶级会议和VLDB、TITS、TCE、TOIS、ITOJ、TACL等国际顶级期刊发表论文和期刊40多篇等，并担任WWW等多个会议PC，拥有10项发明专利，参与省级重点项目一项。

领域多模态大模型技术与实践

本论坛汇聚来自学术界和工业界的顶尖专家与技术精英，全面探讨多模态大模型在各垂直领域的前沿应用与创新实践。涵盖自然语言处理、计算机视觉、语音识别及多模态融合等多个方向，结合实际案例，深入解析技术的实际应用与挑战，为与会者提供宝贵的研究经验和创新思路，推动多模态大模型技术的广泛应用与发展。

多模态大模型在闲鱼商品发布中的应用

内容简介：

演讲主要内容为多模态大模型在闲鱼平台二手商品发布场景中的实践，功能实现根据用户上传商品照片，自动生成商品描述。涉及技术包括多模态大模型预训练与指令微调，多模态RAG系统，大模型在线部署以及模型评估方法等。

演讲提纲：
1、业务背景和痛点介绍：闲鱼电商平台，个人买家发布商品，由于缺乏专业的电商经验，拍商品图容易但是编写描述难度大。AI根据商品照片自动生成描述可以有效提高用户的发布效率和商品的发布质量；
2、解决问题的技术挑战：多模态大模型可以根据图片描述商品信息，但很难具备闲鱼平台特有风格，因此需要领域训练；同时商品多样，幻觉问题严重，也需要解决；
3、我们的技术方案：
1）多模态大模型领域适应训练：训练思路和目标、数据构成、模型选择和训练，最终模型具备的领域能力；
2）描述生成幻觉问题抑制：RAG方法，根据商品图进行图搜，检索同款商品作为生成参考信息；指令中增加属性模板，保证生成可控性；
3）模型部署：大模型在线serving的挑战：RT、资源消耗、安全问题；
4）模型离线和在线评测：模型如何评测、迭代相关内容；
4、一些经验：实验过程中的一些体会和经验；
5、QA。

听众受益：
1、领域多模态大模型预训练和微调的全流程的理论和实践经验；
2、真实应用场景下，大模型线上应用的实践经验。

张庆恒
阿里巴巴算法专家

毕业于北京邮电大学，曾在腾讯和阿里担任算法研究方向工作，在自然语言处理、多模态等方向具有多年工作经验，在大模型和多模态大模型等方向同样有工业化落地经验。

基于强物理约束的可信视频生成大模型

内容简介：

本次讲座将探讨视觉生成模型在模拟真实物理世界中的挑战与机遇。首先，我们将回顾视觉生成模型的发展历程，特别关注近年来基于扩散模型的重要进展，如Sora模型在视频生成领域所取得的突破。随后，深入分析模拟真实物理世界的关键要素，包括外观、几何、光照、运动和声音等，并探讨现有模型在这些方面所遇到的挑战。接着，我们将阐述现有视频生成模型在模拟物理世界方面的局限性，并介绍我们团队如何通过引入确定性条件提高模型精度和效率的方法，重点关注人脸、人体等场景的相关工作。最后，讲座将展望未来研究方向，探讨如何融合确定性条件与概率扩散模型，以实现更逼真、可控的视觉生成。

演讲提纲：
1、视觉生成模型的演进与现状
1 ）视觉生成模型的发展历程
2）基于扩散模型的突破性进展
3 ）Sora模型在视频生成领域的成就
2、模拟真实物理世界的挑战与机遇
1）模拟真实物理世界的关键要素：外观、几何、光照、运动、声音
2）现有模型在模拟物理世界方面的挑战和局限性
3、提高模型精度和效率的方法
1）引入基于物理约束的确定性条件
2 ）团队在人脸、人体等场景上的相关工作
4、未来研究方向
1 ）融合确定性条件与概率扩散模型
2 ）实现更逼真、高效、可控的视觉生成

听众受益：
1、了解视觉生成模型的最新进展：演讲将介绍近年来视觉生成模型的重大突破，特别是基于扩散模型的进展，以及Sora模型在视频生成领域的成就，帮助听众了解该领域的最新发展趋势。
2、洞悉模拟真实物理世界的挑战与机遇：演讲将深入探讨模拟真实物理世界所面临的挑战，并介绍团队在提高模型精度和效率方面的研究成果，为听众提供对该领域未来发展方向的思考。
启发未来研究方向：演讲将展望未来研究方向，探讨如何融合确定性条件与概率扩散模型，以实现更逼真、可控的视觉生成，为听众提供新的研究思路和灵感。

朱思语
复旦大学教授

复旦大学人工智能创新与产业研究院研究员，长聘正教授，博士生导师。
朱思语本科毕业于浙江大学，博士毕业于香港科技大学。在博士阶段，作为联合创始人创立了3D视觉公司Alituzre，并后来被苹果公司收购。2017年至2023年，在阿里云人工智能实验室担任总监。2023年起，任职于复旦大学人工智能创新与产业研究院，担任研究员和博士生导师。朱思语的主要研究方向包括视频和三维生成式模型，涉及基于视觉的三维和视频的重建、生成、理解、方针和模拟。他发表了60余篇高水平会议和期刊论文，包括CVPR、ICCV、ICLR和TPAMI等计算机视觉和机器学习领域，包括Hallo, Champ, AnimateAnything等有一定行业影响力的视频生成大模型。在40余个计算机视觉国际比赛和榜单上取得第一名。

多模态金融知识助手

内容简介：

多模态技术可以将不同类型的数据（如文本、图像、语音等）进行整合，并利用大模型对数据进行理解和生成，在金融场景有广泛的应用。本报告将介绍马上消费金融的“天镜”大模型的关键技术与实践应用，利用金融数据自动标注与合成技术提升了大模型知识提取能力，提出基于代码思维链的问答新技术解决表格问答精度低的痛点，引入音视频理解大模型实现金融知识的多模态问答，通过推理和智能体技术为金融工作人员提供业务材料生成，帮助投资者做出更准确的决策。报告还将对多模态大模型在金融领域的应用进行展望。

演讲提纲：
1、多模态大模型的关键技术与应用
2、多模态金融文档理解技术和挑战
1）基于数据自动标注与合成的金融图表的识别和理解
2）针对金融表格问答的代码思维链技术
3、结合多模态金融文档理解和检索增强生成的知识助手
1）基于RAG的知识助手
2）融合音视频的多模态问答技术
3）金融报告素材生成技术
4、多模态大模型的金融应用前景

听众受益：
1、掌握多模态大模型的背景和核心技术
2、掌握大模型知识助手这一重要的金融应用场景
3、掌握金融文档分析的核心技术和前沿

邓伟洪
马上消费副院长

马上消费金融AI研究院副院长，作为领域主席参与 OpenCV等开源项目的研发工作，长期致力于多模态大模型和计算机视觉系统的理论研究和实用化落地，在 CVPR、TPAMI 等顶级会议和期刊上发表100多篇文章，谷歌学术引用16000多次，曾获北京市优秀博士学位论文奖、北京市科技新星项目、国家级青年人才项目，2023年入选斯坦福“全球前2%顶尖科学家”和科睿唯安“全球高被引科学家”榜单。

极氪领域大模型在新能源行业创新与应用

内容简介：

主要介绍极氪汽车作为电车新势力，在营销服领域的自营延伸中所遇到的挑战。如何建设领域大模型，并结合多模态算法能力，对尤其是销售领域的赋能。极氪算法团队自研StarryGPT这一领域大模型，并植入销售各环节，联动销售外呼、电子工牌、智慧洞察、攻防演练，助力销售提效，赋能一线销售伙伴快速掌握汽车知识，提升销售能力与技巧，更深入全面地挖掘线索价值，以更高效地转化大定。同时，也赋能管理层，对实时变化的市场，有更真实和敏锐的洞察。

演讲提纲：
1、极氪作为电车新势力，在销售领域的自营延伸所遇到的挑战；
2、融合多模态算法能力的，极氪领域大模型StarryGPT建设；
3、StarryGPT联动销售外呼、智慧洞察、攻防演练，助理销售提效；

听众受益：
1、大模型相关理论，及如何构建领域大模型
2、汽车行业在电车化趋势下的思考
3、工业界对领域大模型未来发展的思考与相关行动。