AiDD研发数字峰会-深圳站

出品人：周峰

OPPO AI 中心语言模型轻量化及应用方向负责人

OPPO公司AI中心语言模型轻量化及应用方向负责人，先后在百度、微软、OPPO从事自然语言处理研究与应用十余年，目前在OPPO主要负责大语言模型轻量化算法研发及在手机端的AI应用。

端侧大模型与云端协同

本论坛聚焦端侧大模型与端云协同这一前沿主题。端侧大模型在隐私安全、离线可用性以及个性化服务体验等方面独具优势，为智能终端的发展开启新的机遇。端云协同则完美结合了云侧强大算力与端侧灵活性，实现优势互补，为用户提供更智能高效的服务体验。论坛将广邀行业专家与技术精英，深入探讨端侧大模型的技术突破与应用实践，共同探寻端云协同的最佳模式与发展路径。

大小模型端云协同智能

张圣宇

浙江大学研究员

内容简介：

人工智能的快速发展与广泛应用已成为经济社会发展的强大引擎。在中心化云机器学习的基础之上，发挥端侧情境机器学习隐私保护、实时响应、动态适应的优势进行互补，形成“端云协同”机器学习的计算框架，已成为产学研的焦点。本报告将分享团队在大小模型协同技术方面的观点和研究进展，以及在资源受限、分布偏移下的端云协同学习和推理方法。

演讲提纲：
1、大小模型端云协同智能的背景
1）WHY（云侧中心化机器学习的桎梏；实证分析；国家政策、行业趋势、图灵奖学者观点）
2）WHAT（组成部分、特点、优势；taxonomy）
2、大小模型协同基础算法（How：Basics）
1）基于调度的协同
2）基于反馈的协同
3）基于生成的协同
3、大小模型端云协同智能（How：Application）
1）云到端压缩迁移Cloud to Device (C2D)
2）云助端自主适应Cloud for Device (C4D)
3）端到云去偏汇聚Device to Cloud (D2C)
4）端和云协同推理Cloud and Device (C&D)
4、案例分析
5、总结

听众受益：
1、了解引进大模型和业务原有小模型如何进行合作
联合应用平台既有的特定业务小模型与云侧大模型进行相互调度、反馈，形成循环增强的模型组合智能体系
2、了解模型压缩 + 目标场景适应如何联合优化：模型小型化、轻量化的同时需考虑部署场景的特异性，目标场景可能和原始模型训练数据存在分布迁移
3、了解端智能模型、云模型在差异化模型架构、数据分布、需求任务下的高效协同训练和推理（低通信开销、高响应速度、低算力资源等需求）

浙江大学平台“百人计划”研究员，博士生导师。浙江大学启真优秀青年学者，研究方向包括大小模型端云协同计算，多媒体分析与推荐系统。近年来，在TPAMI、TKDE、KDD、CVPR等CCF A类期刊和会议上发表论文三十余篇。任NeurIPS、KDD、TKDE、TOIS等期刊会议的程序委员会委员或特邀审稿人。曾获2023年度计算机学会科技进步一等奖，中国人工智能学会CICAI最佳论文奖、2021年WAIC云帆奖-明日之星（全球15人）等奖励与荣誉。

线性复杂度的端云大模型协同部署与应用

周芃

深圳陆兮科技联合创始人/首席技术官

内容简介：

在当前AI技术快速发展的背景下，大模型的端云协同部署成为了技术发展的一个重要趋势。我们的报告将探讨如何部署线性复杂度、低算力消耗的大模型，以及在端与云之间的协同部署与应用。本报告基于陆兮科技的创新非Transformer架构和大模型，展示如何在边缘计算环境中优化模型性能和资源利用率，实现数据处理的高效性和模型响应的实时性，最终推动智能决策和服务的前沿发展。

演讲提纲：
1、背景
1）当前大模型的发展趋势与挑战
2）端云协同的重要性和行业影响
2、核心技术介绍
1）非Transformer架构的特点与优势
2）大模型在端侧的应用
3、端云协同模型的实现技术
1）端侧与云端的协同
2）关键技术如量化、压缩
3）模型安全
4、案例展示
1）一些端侧设备的大模型示例及应用
5、挑战与未来展望
1）技术实现的主要障碍
2）行业应用的潜在变革
6、总结
1）端云协同部署大模型的重要性
2）未来技术发展的关键点

听众受益：
1、大模型背景：
1）听众将获得对当前大模型技术的全面理解，包括它们在处理复杂数据和执行高级认知任务中的关键作用。此外，将探讨大模型面临的挑战，如计算资源消耗和延时问题，以及这些问题如何驱动端云协同技术的发展。
2、面向端侧的大模型新架构：
2）介绍陆兮科技开发的非Transformer大模型架构，这种新架构如何在保持高效性能的同时降低能耗。听众将了解这一创新架构如何优化端侧设备的运算能力，使其能够在资源受限的环境下运行复杂模型。
3、端云结合的应用与行业发展：
3）展示端云协同解决方案在多个行业中的实际应用，如智能制造、智慧城市和智能家居等。听众将学习如何利用端云协同架构来实现更快的数据处理、更灵活的资源分配和更高的系统效率，从而推动整个行业的技术进步和商业模式创新。

美国加州大学圣塔克鲁兹分校电子与计算机工程博士
周芃博士是类脑计算与端侧智能专家，承忆阻器之父蔡绍棠和32bit微处理器发明者姜成模教授，在端侧计算、类脑算法、模型架构、处理器设计、存算一体研发等领域拥有多项科研成果，于2023年荣获IEEE年度最高学术奖项之一""达令顿""奖，是该奖项创办以来最年轻的获奖人。
于2023年创办国内首家自研类脑大模型企业"陆兮科技"。在周博士的带领下，陆兮科技基于具有完全自主知识产权的Neurark架构，研发了国内首款非Transformer架构大模型——类脑大模型，于24年八月通过国家网信办生成式人工智能服务备案，是首个通过该备案的自研底层算法、非T架构和采用脑启发技术路线的大模型，在离线端侧智能领域拥有广泛应用前景。

模型轻量化技术与端侧落地

宋晓辉

OPPO高级NLP算法工程师

内容简介：

大语言模型已经成为自然语言处理领域的基本范式。本次报告主要探讨如何将强大的模型部署到端侧设备上，实现高效、实时和隐私友好的交互体验。报告将分享团队在大模型轻量化，量化感知训练和并行解码加速几个方面的研究和工程实践经验，并分享OPPO在端侧落地大语言模型的实际案例。

演讲提纲：
1、背景
1）模型端侧部署和云端部署之间的差异，端侧部署面临的各种挑战
2、模型轻量化技术介绍和经验分享
1）logits知识蒸馏
2）基于改进的L0正则模型结构化剪枝
3）模型稀疏化和性能恢复
3、量化感知训练
1）量化感知训练相关背景
2）端侧模型量化感知训练实战
4、并行解码加速
1）并行解码技术相关背景
2）轻量化技术在并行解码加速上的实践
5、端侧算法落地案例分享
1）OPPO 端侧1+N lora架构和端侧通话摘要算法落地经验
6、总结