内容简介:
实现通用人工智能 (AGI) 需要高精度的模型, 更需要一套围绕模型的推理基础设施来充分释放模型已有能力以及补齐模型能力的不足, 从而让AGI更经济, 更实惠的落地千行百业. 在今天的分享中, 我会首先介绍我们在大规模Serving上的基础推理优化, 聚焦推理数据面和调度面的优化, 充分释放模型已有能力. 然后我会分享我们面向未来构建的复合推理优化, 增强和放大模型已有能力。
演讲提纲:
1、当前业界对AGI的定义和认知
2、实现AGI的普适化需要非常高效的推理能力,所以有必要构建大规模LLM推理平台
3、 LLM推理平台(LLM-RP)有三个核心部分
4、基础模型推理、释放模型能力
4.1 整体架构
4.1 推理数据面(kv cache缓存)优化
4.2 推理调度面(PD分离等技术)优化
5、在云上围绕基础推理展开的一系列优化,在RAG、Agent等场景下构建Compound AI System,提升高阶推理能力和质量
6、总结和展望
听众受益:
搭建大规模推理Infra需要关注的技术点
博士, 毕业于加州大学圣地亚哥分校, 现就职于华为云架构与技术创新部, 负责分布式存储系统硬件卸载加速, 分布式AI推理平台等关键项目. 在OSDI, ASPLOS, ATC等顶级学术上发表论文20多篇, 曾获得OSDI’18最佳论文, SYSTOR’19最佳论文, FPGA’24最佳论文候选等奖项。