出品人:陈炜于
阅文集团技术副总经理/AIGC负责人
腾讯云最具价值专家、复旦大学计算机学院专业硕士导师。有着近15年的人工智能、大数据研发管理经验。在AIGC、个性化推荐、搜索、大数据挖掘、自然语言处理等领域都有丰富的实践经验。目前主导人工智能技术在集团内部的研发和应用落地,带领团队研发了阅文妙笔大模型和多模态大模型,并在作家辅助创作、角色对话、增长素材和机器翻译等大模型应用场景上也取得了不错的成果。对内容业务有深刻理解,也主导推进智能风控、推荐系统、反盗版等公司重点项目落地。曾任百度人工智能事业部技术经理,负责过百度推荐、精准广告、图片搜索、大数据商业化等项目。

多模态AIGC产品创新

多模态AIGC指的是通过人工智能技术,同时处理和生成多种类型的数据和内容,如文本、图像、音频和视频的创新产品。它不仅涉及到复杂算法的开发,还囊括了用户体验、内容创新以及社会影响等方面。本论坛将分享讲者在多模态AIGC领域应用落地过程中的洞见、心得体会,展示各自的成功案例,以及讨论面临的挑战和解决方案。                                        
基于大模型的星罗剧情理解平台设计与案例剖析
尹逊宫
爱奇艺 算法经理 
内容简介:
在影视行业智能化升级的当下,利用先进技术实现对影视内容的深度理解与高效应用,是提升平台竞争力
与用户体验的关键。
之前由于AI 算法能力有限,难以对海量影视信息进行精准、实时的剖析与利用。如何借助近年新型的AIGC
技术打造一套智能化平台,实现对影视内容的播前分析、播后复盘,成为影视行业突破发展瓶颈的重要课题。
这也是推动技术与影视业务深度融合、实现创新发展的核心方向。
爱奇艺星罗剧情理解平台,作为这一领域的成功实践,依托大语言模型与自研多模态视频理解技术,达成
分钟级剧情理解。它不仅能自动生成剧情片段、看点,完成视频卡段的自动剪辑生产,还能进行深度剧情分析。
本介绍将以星罗平台为例,深入剖析其设计背景、设计思路以及实际应用案例,为影视行业从业者及相关技术
爱好者,开启全新的影视内容智能化处理与应用的创新视野

演讲提纲:
1.星罗平台诞生背景
1.1 行业趋势
1.2 爱奇艺挑战
1.3 LLM 发展现状
2.技术架构
2.1 整体架构
2.2 开源与闭源探索
3.成功案例剖析
3.1 剧情深度理解
3.2 营销点挖掘
3.3 广告素材生成
4.赋能业务影响
4.1 搜索、推荐
4.2 用户体验
4.3 效率提升
5.总结
5.1 回顾星罗的探索与实践
5.2 强调AI 驱动剧情理解的重要性
5.3 展望未来的发展方向        

听众收益:
1.AIGC 在影视行业应用的深度见解: 可以深入了解LLM 如何落地影视行业,以及LLM 对影视行业现状
的改变和机遇
2.掌握LLM 使用之道:如何选用模型,开源or 闭源or 自训;如何构建工作流

复旦本硕毕业,目前就职于爱奇艺,负责LLM 研发以及应用,主要利用新兴的文本和多模态大模型进行剧情理解以及广告投放素材生产。
多模态交互在泛教育领域的探索
周舒然
作业帮 资深算法专家 
内容简介:
自大模型问世以来,多模态的交互一直是一个热门的研究方向。在教育行业,有着深度的需求和广泛的落地场景,这次分享介绍过去一年作业帮在多模态语音交互上的技术和业务探索。        

演讲提纲:
1.多模态的技术演进
2.模态统一和基础能力探索
3.在泛教育领域的落地和应用
4.未来的计划和展望

听众收益:
1.了解多模态技术领域的发展,范式和框架
2.基于多模态技术的新一代Voice-agent如何落地

作业帮算法专家,毕业于华盛顿大学电子工程专业,有10年以上的人工智能和人机交互经验。在语音,视觉,传感器等领域都有丰富的研究和产品经验。目前在作业帮负责语音交互和多模态领域的探索和落地,专注于泛教育场景如何获得更真实高效的教学和语聊体验。过去任职于多个中美创业和科技公司,担任研究员和应用科学家,带领团队在多款IOT设备,车机,芯片和toC产品上落地感知算法和对话模型。
多模态大模型的类比与推理
杨 旭
东南大学计算机学院副教授/博导 
内容简介:
随着 ChatGPT 等先进大语言模型的崛起,多模态大语言模型正日益受到关注。基于少量样本的上下文学习方法已成为该领域的关键学习范式,其既能通过少量样本在多种任务中超越传统方法,更能有效解决现实中难以精确描述的复杂问题,展现出显著的应用价值。与此同时,DeepSeek-R1开辟了提升模型能力的新路径,如何将其应用于增强多模态模型的推理能力已成为重要课题。本次演讲将从多模态模型的发展历程出发,结合演讲者的最新研究成果与领域发展动态,全面展开对多模态模型中类比学习和推理能力提升的研究方向与应用价值的探讨。        

演讲提纲:
1.多模态大语言模型的发展背景
2.多模态上下文学习的研究现状
3.基于启发式算法的上下文学习
4.基于学习式算法的上下文学习
5.基于任务向量的上下文示例知识浓缩
6.多模态大模型的推理能力增强

听众收益:
1.针对多模态大语言模型的发展历史和现状有一定的了解;
2.针对上下文学习在多模态大语言模型中的实际应用价值有一定的体会;
3.知晓多模态大模型如何利用R1算法增强推理性能。

新一代人工智能技术与应用教育部重点实验室副主任,江苏省双创博士。主要研究方向为多模态视觉语言任务,基于多模态大语言模型的上下文学习。在过去的3年内,以第一作者身份在人工智能顶级会议期刊发表论文多篇,包括 TPAMI,CVPR,ICCV,NeurIPS 等。    
基于R1强化学习的VLM高泛化开放视觉理解探索与研究
赵天成
联汇科技 CEO兼首席科学家 
内容简介:
演讲围绕基于R1强化学习的视觉语言模型(VLM-R1)展开,探讨其在高泛化开放视觉理解中的技术突破与应用。重点介绍强化学习(RL)驱动的“思维链”与传统结构化方法的对比,前者可以通过自我修正和多步推理提升模型泛化能力。特别是VLM-R1通过自定义奖励函数(如准确性奖励、格式奖励)优化训练,在复杂视觉任务(医学图像分析、工业检测、具身导航)中显著超越传统SFT模型和专用CV模型。重点呈现VLM大模型在视觉任务中的巨大潜力。      

演讲提纲:
1.技术背景:从 OpenAI O1 模型到 VLM-R1
2.VLM-R1框架设计与训练技术
3.多项实验与性能对比:SFT与RL,与专用CV模型的对比等
4.应用场景与案例展示
5.核心结论

听众收益:
1.实现前沿技术洞察,了解强化学习(RL)在视觉语言模型(VLM)中的最新应用,尤其是如何通过奖励设计提升模型泛化能力。
2.实践应用指南,获取开源框架 VLM-R1 的使用方法,快速复现实验或适配实际项目。
3.获得从理论到实践的全链条知识,包括技术原理、工具使用、场景落地及研究启发,为学术探索、工程开发或商业决策提供直接价值。

博士毕业于卡耐基梅隆大学计算机科学专业,带领联汇研究院Om AI Lab团队成功把DeepSeek R1方式从纯文本领域成功迁移到了视觉语言领域,在视觉推理模型上取得重大突破,打开了对于多模态领域的想象空间,并多次获得国际顶会最佳论文,微软研究院best&brightest PhD,主持、参与多个国家、省、市重大项目研究。目前担任联汇科技CEO、首席科学见,同时任职浙大滨江研究院Om人工智能研究中心主任。
京ICP备2020039808号-4 京公网安备11011202100922号