AiDD研发数字峰会-上海站

出品人：严骏驰

上海交通大学教授、IET Felloww

上海交通大学计算机系教授，优青/CCF优博及优博导师/杰出会员，IET Fellow。科技部2030新一代人工智能重大项目负责人、基金委重大研究计划重点项目负责人。教育部资源建设深度学习首席专家。曾任IBM研究院首席研究员。研究方向为机器学习及应用。发表CCF-A类第一/通讯作者论文过150篇，引用超15000次。任ICML、NeurIPS、ICLR、CVPR、AAAI等顶级会议（高级）领域主席、Pattern Recognition、ACM TOPML等期刊（创刊）高级编委。

算法与模型训练

聚焦于机器学习算法及其模型的最新研究成功和优秀实践。本论坛将涵盖包括深度学习、强化学习、迁移学习和元学习等关键算法，以及模型训练、优化和调参的最佳实践，探讨模型的可解释性、泛化能力和鲁棒性，以及如何应对数据偏差和过拟合等挑战，并关注自监督学习、对抗训练和生成式模型等新兴领域及其交叉应用。

忆³ (M3MORY) 全新大语言基座模型

内容简介：

为了解决当前大模型架构存在的高训练与推理成本问题，我们借鉴了人脑对不同层次记忆的处理方法，构建了全新国产基座大模型忆³ (M3MORY)，该基座具有低推理能耗、媲美N倍大模型的平均水平、优秀的幻觉处理能力等特点。
演讲提纲：

1、团队简介:上海算法创新研究院-大模型中心：算法创新与应用落地双管齐下，业界精英与学术大牛共聚一堂
2、国产大模型的研发与应用挑战
3、全新国产大模型忆³ (M3MORY)的设计思路
4、忆³ (M3MORY)全新国产大模型基座的整体架构
5、忆³ (M3MORY)设计特点:低推理能耗、媲美N倍大模型的平均水平、优秀的幻觉处理能力
6、忆³ (M3MORY)训练过程:三段类人脑学习、训练与推理过程
7、忆³ (M3MORY)性能评估：基座中英文通用能力，幻觉消除能力，示例展示，成本评估
8、忆³ (M3MORY)开源计划

听众受益：

1、全新基座大模型的设计思路
2、大模型新的应用范式

熊飞宇
上海算法创新研究院

大模型中心负责人

华中科技大学本科，美国Drexel University博士。现任上海算法创新研究院大模型中心负责人，带领团队致力于建设低幻觉低成本的全新基座大模型，并与新华社，中国电信一起打造“新语”新闻大模型。之前在阿里巴巴集团先后担任业务中台数据智能负责人，淘宝天猫集团数据平台负责人。在阿里期间主要负责电商核心交易链路商品、用户、交易、营销等系统的智能化建设，支撑着大量、多元的集团业务，通过和浙江大学，清华大学，中科院等多所单位合作，以商品、用户等商业要素核心，完成基于多源、异构、多模态的大数据构建千亿级别数字商业知识图谱的算法应用，和国内首个知识交互的零售行业大模型的建设工作，覆盖包括淘宝、天猫等业务单元超过7万亿零售成交额，获得浙江省科技进步奖，杭州市521计划青年人才，杭州市C类人才（省级领军人才），阿里巴巴优秀学术合作奖等奖项，并在人工智能顶级会议和期刊上发表多篇论文。

多模态大语言模型中的上下文学习

杨旭

东南大学副教授

杨旭，东南大学计算机学院副教授，博导，新一代人工智能技术与应用教育部重点实验室副主任，江苏省双创博士。主要研究方向为多模态视觉语言任务，基于多模态大语言模型的上下文学习。在过去的2年内，以第一作者身份在人工智能顶级会议期刊发表论文多篇，包括 TPAMI，CVPR，ICCV，NeurIPS 等。

内容简介：

随着 ChatGPT 等先进大语言模型的崛起，具备处理多种类型输入能力的多模态大语言模型正日益受到关注。在这一领域内，基于少量样本的上下文学习方法已成为一种关键的学习范式。一方面，之前的研究已经证明，通过仅用少数样本进行学习，这种方法在多种任务中能够取得超越传统微调方法的成果，显著降低了将大模型迁移到各式各样的下游任务上的成本。另一方面，在实际生产和生活中的复杂问题上，仅依靠提示词工程无法准确描述任务定义，而上下文学习对于解决该问题显示出了更高的适用性和应用价值。在本次演讲中，我们将从多模态大语言模型的发展历程出发，结合演讲者的最新研究成果和该领域的发展动态，全面展开对多模态大语言模型中上下文学习的研究方向和实际应用价值的探讨。

演讲提纲：
1、多模态大语言模型的发展背景
我们得以在GPT版本的迭代中窥探多模态大模型的发展历程：GPT-2能够有效利用提示词生成富有逻辑且贴合主题的文本；经过海量数据的训练的GPT-3展现较为出色的上下文学习能力和，通过少量样本的辅助快速理解学习新任务；GPT-4更是将多模态技术推向新高度，能够处理并理解文本、图像等多种信息，在多模态领域的上下文学习技术更是充分模拟人类的类比学习能力，展现出巨大的应用潜力。
2、多模态上下文学习的研究现状
2.1 多模态领域的上下文学习，一方面涉及更多的模态信息，另一方面能模仿人类智能的类比学习能力，处理复杂的多模态领域任务。
2.2 目前对于多模态领域的研究还较少，并且部分多模态大语言模型并不具备较好的上下文学习能力。
2.3 我们将支持上下文学习的多模态大语言模型视为黑盒，利用启发式以及学习式的策略进行充分的研究。
3、基于启发式算法的上下文学习
3.1 在多模态领域，目前还缺少在 Visual Question Answering及 Image Captioning 两个多模态任务上探索VLM的上下文样本选取的工作，我们通过设计各种上下文样本选取策略，探索可以提升大模型在vqa任务上的上下文学习表现的上下文样本。
3.2 同时，目前对大模型的内部特性和运行机制并不清楚，而大模型对于上下文样本的选取非常敏感，我们通过构建不同的上下文样本，对大模型进行控制变量实验，通过控制上下本样本观察模型输出结果，从而由外向内的去观察大语言模型，以此对大模型内部特性和运行机理有更深的理解。
3.3 先前的视觉语言模型领域的一些研究中，特别是在上下文图像分类任务中的场景，我们注意到，尽管在一些情况中VLM表现出色，但其分类数量往往很少且类别容易区分，同时与对比学习模型（如CLIP）相比时，它们在分类准确性方面仍有不足。基于这一情况，我们提出了通过改进标签空间来增强VLMs性能的策略。通过引入标签分布增强（Label Distribution Enhancement）和视觉描述增强（Visual Descriptions Enhancement）策略，方法是在Prompt中为VLMs提供更丰富、更具上下文的信息，以提高其在复杂分类任务中的准确性和可解释性。
4、基于学习式算法的上下文学习
4.1 在自然语言处理领域中，除了基于启发式的方法以外，还有很多通过训练一个模型来检索质量较优的上下文样本。
4.2 多种研究证明了上下文样本的质量和排列顺序都会严重影响模型ICL能力。而之前的方法主要分为两步，首先是样本挑选，然后再进行序列重排序。这种二阶段的方法可能会导致最终上下文样本性能达不到最优。而我们注意到如果将上下文样本看成一个个文字，那么上下文样本序列的生成过程可以与语言模型生成文本类似。而语言模型建模有天然的顺序性。这样我们可以将上下文样本的挑选与排序融合成一个端到端的过程，从而达到更优的学习效果。
4.3 在多模态领域，多种实验表明面对多模态比较丰富的任务结构（图像标签生成，视觉问答任务等），需要构建复杂的启发式来达到最优的ICL性能。而我们的使用语言模型建模可以轻松扩展任意的任务结构，并达到不错的效果。
5、未来展望和总结
随着多模态大语言模型在多领域的不断应用和发展，我们预见到以下几个方向可能成为未来研究的热点：
5.1 跨模态融合技术的进步：未来的多模态模型将更加深入地理解和整合不同模态之间的关系，包括文本、图像、音频甚至视频等。这将需要新的模型架构和算法来更好地处理和融合不同的数据类型。
5.2 上下文学习的优化：当前模型在上下文学习方面虽有进步，但仍存在局限性。未来的研究可以进一步优化模型的上下文理解能力，使其在更加复杂和动态的环境中保持高效的学习和适应能力。
5.3 解释性和透明度的提升：虽然多模态模型的性能不断提升，但其决策过程的不透明性仍是一个问题。未来的研究需要致力于提高模型的解释性，使模型的决策过程对用户更加透明和可理解。
多模态大语言模型的发展为人工智能领域带来了深远的影响。从最初的文本处理到现在能够理解和生成多种模态的数据，模型的能力在不断扩展。我们已经见证了这些模型在各种任务上的卓越表现，包括视觉问答回答、图像标注、自然语言理解等。随着技术的不断迭代，我们有理由相信，未来的多模态模型将更加智能和高效，它们将能够更好地服务于人类，帮助我们解决更复杂的问题，并在医疗、教育、娱乐等多个领域内发挥重要作用。

听众受益：
1、针对多模态大语言模型的发展历史和现状有一定的了解
2、针对上下文学习在多模态大语言模型中的实际应用价值有一定的体会

面向多模态大模型的结构化指令微调--“让LLM吃得更好”

内容简介：

大语言模型已经在解决各种自然语言处理任务上方面表现出强大的能力。然而，数据通常呈现出多样化和多模态的特点，如文本、图像、视频、声音等。如何有效地利用这些多模态数据，进行通用的结构化表征学习，以此来消除不同模态之间的数据差异成为当前大模型方向所面临的重要挑战之一。报告将回顾目前已有的多模态大模型研究范式和高质量数据提取管线，重点介绍与本课题组相关的研究工作。针对目前多模态大模型难以理解图表、表格、几何图像等模态的难题，提出了统一的结构化表征形式，通过结合机理模型使得多模态大模型具备可验证、可回溯的特点，从而弥补模型在执行推理任务时所产生的幻觉问题，从而提升在图表、几何等复杂推理任务中的能力。
演讲提纲：

1、团队简介:
上海人工智能实验室-多模态大模型指令微调团队：主要负责探索基于高质量语料数据的指令微调、弱监督、半监督微调等任务
2、上一代大模型所面临的挑战---大模型从语言侧吃饱了，但是没有“吃好”
3、现有的多模态文档、科学材料的数据采集方案介绍
4、现有的多模态大模型指令微调工作介绍
4.1 现有指令微调工作介绍
4.2 分析现有工作对于复杂任务如数学推理、机器人控制等的优缺点
5、我们团队在2023年下半年到2024年的多模态指令微调的探索工作介绍
5.1 指令微调对于图表任务
5.2 指令微调对于结构化文档任务
5.3 指令微调对于复杂多模态、几何问题求解
6、总结目前研究工作的优缺点，提出未来关于多模态大模型求解科学问题的一些思考。

听众受益：

1、高质量语料获取的新范式、新思路
2、多模态指令微调的技术汇总、以及我们研究团队的技术贡献
3、多模态大模型在推理、认知、科学任务中的应用

张铂
上海人工智能实验室研究员

上海人工智能实验室研究员，上海市科委科技创新启明星A类人才，2022年获复旦大学工学博士学位。他的研究兴趣主要包含：1）场景通用表征学习、认知推理任务；2）高质量、结构化、多模态数据的预训练和指令微调方向。他曾在CVPR, NeurIPS, ACM-MM, T-PAMI, TIP, T-MM, IJCV等国际顶级会议和期刊发表14篇论文，其中第一作者/通讯作者论文11篇。他曾多次担任CVPR/ECCV/ICCV/ICLR/ICML/

TIP/TNNLS/TMM/TGRS等多个国际学术会议和期刊的审稿人。在校期间曾获博士生国家奖学金（国家级），“互联网+”大学生创新创业大赛国赛金奖（国家级）等荣誉。工作期间，带领团队获得Waymo Challenge国际挑战赛冠军，并主导研发3DTrans通用场景表征，多模态-结构化文档大模型等开源代码仓，累计Star量1.5k。

大语言模型推理优化实践

赵洋

中兴通讯资深研发专家

10余年GPU编程和性能优化实战经验，曾在国家超级计算天津中心、顶级量化私募九坤投资、百度就职并负责AI平台建设和性能优化。在LLM推理部署性能优化方向完成多个关键技术突破，公司业务GPU需求数量降低一个数量级。同时，热衷开源技术，积极拥抱开源社区，曾负责百度飞桨推理框架Paddle Lite GPU后端，现重点参与中兴通讯深度学习推理工具链Adlik开源社区建设；累计完成5项国家科技部等有关部委项目。

内容简介：

大语言模型 (LLM) 因其强大的理解和生成能力，正在深刻改变我们对人工智能的认知。然而LLM的推理应用成本过高，高昂的成本大大阻碍了技术落地。因此，大语言模型的推理性能优化成为业界研究的热点。
大语言模型推理面临计算资源的巨大需求和计算效率的挑战。优化推理性能不仅可以减少硬件成本，还可以提高模型的实时响应速度。它使模型能够更快速地执行自然语言理解、翻译、文本生成等任务，从而改善用户体验，加速科学研究，推动各行业应用的发展。
本报告从推理服务系统全局视角，介绍典型性能优化技术和各自特点，分享在辅助编码场景的应用案例和心得体会，探讨未来LLM推理优化技术的发展趋势和演进方向，最终为未来的人工智能应用打开更广阔的可能性。

演讲提纲：

1、推理成本分析
2、Transformer结构计算特点
3、典型性能优化技术（会提供性能优化全景图，重点介绍内存管理、算子优化、模型压缩等方面）
4、实践效果（分享我司的落地应用效果）
5、未来发展趋势分析

听众受益：

1、可以加深对LLM模型结构和计算特点的理解
2、对如何加速LLM推理速度有了系统性的认知，并了解到典型性能优化技术
3、有助于启发听众从事LLM性能优化相关工作，最终提升相关落地场景的推理部署效率

AiDD峰会

K+峰会

联系我们