出品人:周 峰
OPPO AI 中心语言模型轻量化及应用方向负责人
OPPO公司AI中心语言模型轻量化及应用方向负责人,先后在百度、微软、OPPO从事自然语言处理研究与应用十余年,目前在OPPO主要负责大语言模型轻量化算法研发及在手机端的AI应用。

端侧大模型与云端协同

本论坛聚焦端侧大模型与端云协同这一前沿主题。端侧大模型在隐私安全、离线可用性以及个性化服务体验等方面独具优势,为智能终端的发展开启新的机遇。端云协同则完美结合了云侧强大算力与端侧灵活性,实现优势互补,为用户提供更智能高效的服务体验。论坛将广邀行业专家与技术精英,深入探讨端侧大模型的技术突破与应用实践,共同探寻端云协同的最佳模式与发展路径。    
大小模型端云协同智能
张圣宇
浙江大学研究员
内容简介:
人工智能的快速发展与广泛应用已成为经济社会发展的强大引擎。在中心化云机器学习的基础之上,发挥端侧情境机器学习隐私保护、实时响应、动态适应的优势进行互补,形成“端云协同”机器学习的计算框架,已成为产学研的焦点。本报告将分享团队在大小模型协同技术方面的观点和研究进展,以及在资源受限、分布偏移下的端云协同学习和推理方法。        

演讲提纲:
1、大小模型端云协同智能的背景
1)WHY(云侧中心化机器学习的桎梏;实证分析;国家政策、行业趋势、图灵奖学者观点)
2)WHAT(组成部分、特点、优势;taxonomy)
2、大小模型协同基础算法(How:Basics)
1)基于调度的协同
2)基于反馈的协同
3)基于生成的协同
3、大小模型端云协同智能(How:Application)
1)云到端压缩迁移Cloud to Device (C2D)
2)云助端自主适应Cloud for Device (C4D)
3)端到云去偏汇聚Device to Cloud (D2C)
4)端和云协同推理Cloud and Device (C&D)
4、案例分析
5、总结

听众受益:   
1、了解引进大模型和业务原有小模型如何进行合作
联合应用平台既有的特定业务小模型与云侧大模型进行相互调度、反馈,形成循环增强的模型组合智能体系
2、了解模型压缩 + 目标场景适应如何联合优化:模型小型化、轻量化的同时需考虑部署场景的特异性,目标场景可能和原始模型训练数据存在分布迁移
3、了解端智能模型、云模型在差异化模型架构、数据分布、需求任务下的高效协同训练和推理(低通信开销、高响应速度、低算力资源等需求)   
浙江大学平台“百人计划”研究员,博士生导师。浙江大学启真优秀青年学者,研究方向包括大小模型端云协同计算,多媒体分析与推荐系统。近年来,在TPAMI、TKDE、KDD、CVPR等CCF A类期刊和会议上发表论文三十余篇。任NeurIPS、KDD、TKDE、TOIS等期刊会议的程序委员会委员或特邀审稿人。曾获2023年度计算机学会科技进步一等奖,中国人工智能学会CICAI最佳论文奖、2021年WAIC云帆奖-明日之星(全球15人)等奖励与荣誉。
线性复杂度的端云大模型协同部署与应用
周 芃
深圳陆兮科技联合创始人/首席技术官
内容简介:
在当前AI技术快速发展的背景下,大模型的端云协同部署成为了技术发展的一个重要趋势。我们的报告将探讨如何部署线性复杂度、低算力消耗的大模型,以及在端与云之间的协同部署与应用。本报告基于陆兮科技的创新非Transformer架构和大模型,展示如何在边缘计算环境中优化模型性能和资源利用率,实现数据处理的高效性和模型响应的实时性,最终推动智能决策和服务的前沿发展。        

演讲提纲:
1、背景
1)当前大模型的发展趋势与挑战
2)端云协同的重要性和行业影响
2、核心技术介绍
1)非Transformer架构的特点与优势
2)大模型在端侧的应用
3、端云协同模型的实现技术
1)端侧与云端的协同
2)关键技术如量化、压缩
3)模型安全
4、案例展示
1) 一些端侧设备的大模型示例及应用
5、挑战与未来展望
1)技术实现的主要障碍
2)行业应用的潜在变革
6、总结
1)端云协同部署大模型的重要性
2)未来技术发展的关键点

听众受益:
1、大模型背景:
1)听众将获得对当前大模型技术的全面理解,包括它们在处理复杂数据和执行高级认知任务中的关键作用。此外,将探讨大模型面临的挑战,如计算资源消耗和延时问题,以及这些问题如何驱动端云协同技术的发展。
2、面向端侧的大模型新架构:
2)介绍陆兮科技开发的非Transformer大模型架构,这种新架构如何在保持高效性能的同时降低能耗。听众将了解这一创新架构如何优化端侧设备的运算能力,使其能够在资源受限的环境下运行复杂模型。
3、端云结合的应用与行业发展:
3) 展示端云协同解决方案在多个行业中的实际应用,如智能制造、智慧城市和智能家居等。听众将学习如何利用端云协同架构来实现更快的数据处理、更灵活的资源分配和更高的系统效率,从而推动整个行业的技术进步和商业模式创新。

美国加州大学圣塔克鲁兹分校 电子与计算机工程博士
周芃博士是类脑计算与端侧智能专家,承忆阻器之父蔡绍棠和32bit微处理器发明者姜成模教授,在端侧计算、类脑算法、模型架构、处理器设计、存算一体研发等领域拥有多项科研成果,于2023年荣获IEEE年度最高学术奖项之一""达令顿""奖,是该奖项创办以来最年轻的获奖人。
于2023年创办国内首家自研类脑大模型企业"陆兮科技"。在周博士的带领下,陆兮科技基于具有完全自主知识产权的Neurark架构,研发了国内首款非Transformer架构大模型——类脑大模型,于24年八月通过国家网信办生成式人工智能服务备案,是首个通过该备案的自研底层算法、非T架构和采用脑启发技术路线的大模型,在离线端侧智能领域拥有广泛应用前景。
模型轻量化技术与端侧落地
宋晓辉
OPPO高级NLP算法工程师
内容简介: 
大语言模型已经成为自然语言处理领域的基本范式。本次报告主要探讨如何将强大的模型部署到端侧设备上,实现高效、实时和隐私友好的交互体验。报告将分享团队在大模型轻量化,量化感知训练和并行解码加速几个方面的研究和工程实践经验,并分享OPPO在端侧落地大语言模型的实际案例。        

演讲提纲: 
1、背景
1)模型端侧部署和云端部署之间的差异,端侧部署面临的各种挑战
2、模型轻量化技术介绍和经验分享
1)logits知识蒸馏
2)基于改进的L0正则模型结构化剪枝
3)模型稀疏化和性能恢复
3、量化感知训练
1)量化感知训练相关背景
2)端侧模型量化感知训练实战
4、并行解码加速
1)并行解码技术相关背景
2)轻量化技术在并行解码加速上的实践
5、端侧算法落地案例分享
1)OPPO 端侧1+N lora架构和端侧通话摘要算法落地经验
6、总结

听众受益:  
1、听众可以了解端侧模型和云侧模型在落地过程中的差异,端侧模型技术难点和行业现状。
2、听众将对工业界成功落地的模型轻量化技术有基本的认识,了解相关技术的收益程度,和业界探索方向。
3、了解终端厂商端侧业务落地的实践经验。

中国科学院信息工程研究所工学博士,现就职于OPPO AI中心,负责大模型轻量化技术体系建设和端侧文本算法业务。
京ICP备2020039808号-4 京公网安备11011202100922号