出品人:刘焕勇
360人工智能研究院资深算法专家
360人工智能研究院知识图谱方向算法负责人,曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与自动化评估、领域知识/事件图谱的构建与落地应用,申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS多模态实体对齐等评测中获得多项冠亚军。先后参加CCF、DATAFUN、CSDN、全国计算机信息管理学术研讨会等多个知名论坛中发表演讲。                       

长文本 & 文档理解技术与实践

本论坛专注于长文本理解、文档处理落地场景及前沿技术。深入讨论多模态文档理解、RAG文档处理、长文本建模等研发要点及其在知识管理、文档结构化、长文本理解等实际应用场景中的实践案例,旨在推动长文本和文档理解技术的创新与应用。
文档解析技术加速大模型训练与应用
常  扬
上海合合信息科技AI产品研发总监
内容简介:
在大模型时代,高质量预训练数据的获取速度往往跟不上模型进化的步伐。那么,如何高效获取更多高质量的数据呢?答案在于书籍、教材、论文等高质量文档。然而,这些文档由于格式、版面各异,图文混合、编码多样、有线无线混杂及单双栏等特点,使得文档解析成为一大难题。为解决这一问题,我们提出了具备多文档元素识别、版面分析、高性能的文档解析技术,该技术综合了多种智能文档处理关键技术,能够将全格式的版面文档还原为准确的阅读顺序,支持表格、段落、公式、标题、目录等全文档元素的解析,从而加速大模型的训练与RAG应用。        
                                                                                                                                                                            
演讲提纲:
1、 当前大模型训练与应用中的挑战与瓶颈
2、具备多元素版面分析能力的高性能TextIn文档解析技术
1)TextIn文档解析技术算法框架
2)文档图像增强处理算法
3)文档版面物理分析和逻辑分析算法与最新研究方向
4)文档解析效果测评指标与工具
5)工程性能与应用场景
3、基于TextIn文档解析技术的大模型应用探索
1)OpenKIE 开放域多模态信息抽取
2)分析师知识问答
                                                                                                         
                                                                 
听众受益:
1、获得文档解析技术的技术细节
2、获得文档解析技术的应用场景
3、有助于其在长文本与文档理解领域继续研究和实践
 
合合信息智能创新事业部研发总监,复旦博士,复旦大学机器人智能实验室成员,国家级大学生赛事评审专家,多个技术社区AI专家博主,发表多篇SCI核心期刊学术论文,负责合合智能文档处理业务线的产品、技术、云服务平台研发工作。任职期间,先后主导了人工智能数据清洗平台,卡证识别、票据识别、行业文档定制等信息抽取产品,TextIn智能文字识别云服务平台,TextIn票据机器人、财报机器人、合同机器人等智能文档场景落地产品,为金融、制造、物流等行业提供智能文档处理产品与解决方案,在企业信息化转型领域具备丰富的技术落地经验和行业场景洞察力。
多模态文档大模型mPLUG-DocOwl
内容简介:
“文档理解”目前是多模态大语言模型实现落地的一个重要场景,但文档图片类别多样、文字丰富且排版复杂,难以实现图表、信息图、网页等结构复杂图片的通用理解,mPLUG-DocOwl针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,陆续发布了mPLUG-DocOwl、 UReader、mPLUG-PaperOwl、mPLUG-DocOwl 1.5,开源了一系列文档理解大模型和训练数据,其中DocOwl1.5在10个文档理解基准上拿下SOTA,5个数据集上提升超过10个点。项目链接:https://github.com/X-PLUG/mPLUG-DocOwl                                                                                                                                                                                                                                            
演讲提纲:
1、多模态文档大模型背景
2、多模态文档大模型mPLUG-DocOwl系列
3、多模态文档大模型实战
                                                                                                                                  
听众受益:
1、了解多模态文档大模型
2、了解mPLUG-DocOwl系列                                                                                                                                      
徐海洋
阿里巴巴通义实验室
高级算法专家
负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。
增强大语言模型长文本能力与应用范式
内容简介:
 随着人工智能技术的快速发展,大语言模型(LLM)在处理长文本数据方面展现出巨大潜力。本议题旨在探讨如何通过技术创新来增强大语言模型在长文本处理上的能力,并探索其在不同领域的应用范式。我们将分享最新的研究成果,包括数据并行化技术、模型优化策略以及长文本数据生产框架,同时讨论这些技术如何助力模型在政务、情报分析等专业领域的应用。        

演讲提纲:
1、长文本处理技术概览
2、技术创新:数据并行化技术
3、模型优化策略
4、长文本数据生产框架
5、应用范式探索与案例研究

听众受益:
1、技术洞察:了解当前大语言模型在长文本处理领域的最新技术进展。
2、应用知识:掌握如何将长文本技术应用于实际业务场景,提高工作效率与决策质量。
3、创新思维:激发对长文本技术潜在应用的思考,探索新的业务模式。
   
胡传锐
奇虎360、智能产品部算法负责人
奇虎360、智能产品部算法负责人        奇虎360行业大模型算法技术负责人。2019年校招加入奇虎360人工智能研究院,期间从0-1搭建了360的智能物联网设备的计算机视觉算法,目前是行业大模型算法负责人,主要负责360大模型的商业化落地与研究,在人工智能大模型领域,360税务行业标准大模型得到了业界的认可,荣获人民网数造新实体典型案例的荣誉,并入选“北京市通用人工智能大模型行业应用十大典型场景案例”,在多个人工智能领域的期刊和会议发表过论文。        
SUBLLM新架构:文本下采样机制革新大语言模型效率
王全东
小米AI实验室高级算法工程师
内容简介:
大随着自然语言处理技术的不断进步,长文本和文档理解的需求日益增长。然而,处理长文本通常需要大量的计算资源,导致效率低下和响应时间长。传统大模型结构在处理长文本时面临显著挑战,亟需高效解决方案。
本文将介绍一种创新的大模型架构——SUBLLM。该架构通过下采样策略显著提升了长文本处理的效率,且不会损害模型的能力。演讲将结合应用中的实际案例,详细展示SUBLLM的优越性能。
此外,演讲还将探讨SUBLLM在未来研发中的潜力,推动这项技术在更多实际场景中的应用和发展。希望本次演讲能为与会者带来新的思路和启示,促进大模型高效计算这一技术领域的进一步研究与合作。

演讲提纲:
1、引言
1)长文本处理的挑战与需求
2)现有技术的局限性
2、SUBLLM架构概述:
1)SUBLLM的设计理念:语音算法启发文本处理,文本也能像语音一样下采样,代码已开源。
2 )模型架构及其创新点
3 )文本下采样策略详解
3、性能评估与对比
1)实验设置及评估指标
2)与传统大模型的性能对比
3)计算资源与效率提升分析
4、实际应用案例
1)应用案例1:企业级文档自动摘要
2)应用案例2:学术论文分析与摘要
3)应用案例3:法律文档处理与要点提取
5、技术细节与优化策略
1)模型训练过程中的关键设计
2)优化器的改进、下采样的关键分析
3)关键模块的消融分析
6、未来发展与研究方向
1)SUBLLM在其他领域的潜在应用
2)后续研究的可能方向
3)技术推广与产业化前景

听众受益:
1、掌握最新技术:听众将了解当前长文本处理领域的最新技术进展,特别是SUBLLM架构的创新设计和实际效果。
2、实战经验分享:通过实际案例的详细分析,听众可以借鉴具体的实现代码和优化策略,提升自己项目的研发效率,乃至发表进一步研究的论文。
3、前沿研究洞察:听众将获得对未来长文本处理技术发展方向的深刻洞察,帮助他们在相关领域的研究和应用中走在前列,尤其是多模态大模型领域更加值得借鉴。
中国科学院声学研究所博士
美国佐治亚理工访问学者
小米AI实验室 大模型高级算法工程师
中科院认证高级工程师
研究方向:大语言模型、多模态、语音识别
发表国际学术论文10余篇
拥有专利多项、AI国际竞赛优胜者
见证小米大模型从0到1        
京ICP备2020039808号-4 京公网安备11011202100922号