面向多模态大模型的结构化指令微调--“让LLM吃得更好”
内容简介:
大语言模型已经在解决各种自然语言处理任务上方面表现出强大的能力。然而,数据通常呈现出多样化和多模态的特点,如文本、图像、视频、声音等。如何有效地利用这些多模态数据,进行通用的结构化表征学习,以此来消除不同模态之间的数据差异成为当前大模型方向所面临的重要挑战之一。报告将回顾目前已有的多模态大模型研究范式和高质量数据提取管线,重点介绍与本课题组相关的研究工作。针对目前多模态大模型难以理解图表、表格、几何图像等模态的难题,提出了统一的结构化表征形式,通过结合机理模型使得多模态大模型具备可验证、可回溯的特点,从而弥补模型在执行推理任务时所产生的幻觉问题,从而提升在图表、几何等复杂推理任务中的能力。
演讲提纲:
1、团队简介:
上海人工智能实验室-多模态大模型指令微调团队:主要负责探索基于高质量语料数据的指令微调、弱监督、半监督微调等任务
2、上一代大模型所面临的挑战---大模型从语言侧吃饱了,但是没有“吃好”
3、现有的多模态文档、科学材料的数据采集方案介绍
4、 现有的多模态大模型指令微调工作介绍
4.1 现有指令微调工作介绍
4.2 分析现有工作对于复杂任务如数学推理、机器人控制等的优缺点
5、我们团队在2023年下半年到2024年的多模态指令微调的探索工作介绍
5.1 指令微调对于图表任务
5.2 指令微调对于结构化文档任务
5.3 指令微调对于复杂多模态、几何问题求解
6、总结目前研究工作的优缺点,提出未来关于多模态大模型求解科学问题的一些思考。
听众受益:
1、高质量语料获取的新范式、新思路
2、多模态指令微调的技术汇总、以及我们研究团队的技术贡献
3、多模态大模型在推理、认知、科学任务中的应用
上海人工智能实验室研究员,上海市科委科技创新启明星A类人才,2022年获复旦大学工学博士学位。他的研究兴趣主要包含:1)场景通用表征学习、认知推理任务;2)高质量、结构化、多模态数据的预训练和指令微调方向。他曾在CVPR, NeurIPS, ACM-MM, T-PAMI, TIP, T-MM, IJCV等国际顶级会议和期刊发表14篇论文,其中第一作者/通讯作者论文11篇。他曾多次担任CVPR/ECCV/ICCV/ICLR/ICML/
TIP/TNNLS/TMM/TGRS等多个国际学术会议和期刊的审稿人。在校期间曾获博士生国家奖学金(国家级),“互联网+”大学生创新创业大赛国赛金奖(国家级)等荣誉。工作期间,带领团队获得Waymo Challenge国际挑战赛冠军,并主导研发3DTrans通用场景表征,多模态-结构化文档大模型等开源代码仓,累计Star量1.5k。