内容简介:
将深入探讨如何利用云原生技术应对大型语言模型(LLM)服务管理的挑战, 展示如何通过云原生架构优化负载管理、降低成本并提升用户体验。深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度, 进而探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理。
演讲提纲:
1、介绍LLM服务管理的特征: 服务管理与传统的微服务管理在某些方面具有相似性,但由于其独特的特性和需求,也带来了一些不同的挑战;
2、深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度;
3、探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理;
4、提出AI Mesh: 用于管理和扩展生成式 AI 工作负载的统一界面。
听众受益:
1、听众将学习如何通过云原生技术实现LLM服务的高效资源管理,包括智能的负载均衡和并发控制策略,从而在保证服务稳定性的同时,优化计算资源的使用和成本效益。
2、激发企业对LLM/GenAI工作负载的管理技术的兴趣与应用探索, 特别是自建LLM服务的场景下如何解决在使用中的性能和成本问题。
阿里云容器服务Kubernetes及Service Mesh技术研发负责人, 擅长Kubernetes/云原生/服务网格等领域。曾在IBM中国开发中心工作, 作为架构师和主要开发人员负责或参与了一系列在SOA中间件/云计算等领域的工作, 曾担任中国研发中心专利技术评审主席, 并拥有100多项相关领域的国际技术专利授权及申请。著有《Istio 服务网格解析与实战》畅销书。