内容简介:
多模态技术可以将不同类型的数据(如文本、图像、语音等)进行整合,并利用大模型对数据进行理解和生成,在金融场景有广泛的应用。本报告将介绍马上消费金融的“天镜”大模型的关键技术与实践应用,利用金融数据自动标注与合成技术提升了大模型知识提取能力,提出基于代码思维链的问答新技术解决表格问答精度低的痛点,引入音视频理解大模型实现金融知识的多模态问答,通过推理和智能体技术为金融工作人员提供业务材料生成,帮助投资者做出更准确的决策。报告还将对多模态大模型在金融领域的应用进行展望。
演讲提纲:
1、多模态大模型的关键技术与应用
2、多模态金融文档理解技术和挑战
1)基于数据自动标注与合成的金融图表的识别和理解
2)针对金融表格问答的代码思维链技术
3、结合多模态金融文档理解和检索增强生成的知识助手
1)基于RAG的知识助手
2)融合音视频的多模态问答技术
3)金融报告素材生成技术
4、多模态大模型的金融应用前景
听众受益:
1、掌握多模态大模型的背景和核心技术
2、掌握大模型知识助手这一重要的金融应用场景
3、掌握金融文档分析的核心技术和前沿
马上消费金融AI研究院副院长,作为领域主席参与 OpenCV等开源项目的研发工作,长期致力于多模态大模型和计算机视觉系统的理论研究和实用化落地,在 CVPR、TPAMI 等顶级会议和期刊上发表100多篇文章,谷歌学术引用16000多次,曾获北京市优秀博士学位论文奖、北京市科技新星项目、国家级青年人才项目,2023年入选斯坦福“全球前2%顶尖科学家”和科睿唯安“全球高被引科学家”榜单。