内容简介:
TACO-LLM是腾讯云自研的大语言模型推理引擎。经过集团内外部包括微信、代码助手、智能客服、弹幕审核、文档摘要等多个业务场景的打磨,及研发团队极具创新性的独特加速技术的加持,TACO-LLM从并行解码、Prefill优化、量化、长序列等多个方向发力,已基本实现对LLM全应用场景的覆盖,相比社区SOTA性能普遍加速1.5x-3x不等,获得业务的高度认可。本专题将揭开TACO-LLM优秀性能背后的秘密,着重从高性能算子设计的角度来一窥TACO的自研技术。我们将介绍未经公开的Turbo Attention及量化场景下的低精度算子实践。
演讲提纲:
1、LLM应用的发展和挑战
2、LLM推理的技术原理和性能瓶颈
3、TACO-LLM的成本优势和性能表现
4、TACO-LLM技术解密:独家高性能算子Turbo Attention及混合精度量化算子的设计与调优
5、 微信、B站、希音等多种应用场景的TACO性能之旅
听众受益:
1、完整了解LLM应用部署的成本拆解和技术栈
2、了解LLM应用搭建的不同方式以及优劣势对比,例如MaaS、自建等
3、了解GPU、国产芯片、推理框架对LLM应用的性能影响
叶博士一直以来专攻AI Infrastructure并深耕异构计算领域。于法国原子能署获得博士学位后赴硅谷英伟达负责CUDA研发,同时也是TensorRT的创始开创者之一。其后设计并从零开发了PAI-Blade,并广泛赋能众多行业,横跨电商、CV、NLP、ASR等多个领域。
目前,叶帆在腾讯云带领异构计算研发团队打造了腾讯智算中的AI加速引擎TACO,包括TACO-Train, TACO-Infer,TACO-LLM等。团队的另一个杰作qGPU也凭借业内领先的GPU虚拟化技术帮助了众多集团内外客户拓展GPU算力,实现极致效益。