出品人:罗广明
字节跳动服务框架团队架构师
字节跳动服务框架团队架构师,致力于微服务架构、服务治理以及云原生技术的研究与落地,具有多年基础架构工作经验;CloudWeGo 开源负责人,从0到1负责企业级开源项目治理、布道和技术品牌建设,具有丰富的开源经验。先后就职于爱立信、百度。              

AI +微服务的实践与创新

本分论坛将探讨 AI 与微服务融合的实践与创新,即AI驱动微服务的开发、部署到运维的全生命周期管理。讨论内容包括微服务应用的AI+开发流程、AI赋能微服务架构的设计或技术选型、部署策略优化、高效运维与服务治理等方案。分享行业内的最佳实践、成功经验和前沿技术,助力提升企业技术水平与竞争力,激发AI与微服务融合的创新思维与应用潜力。  
优化大型语言模型服务管理的策略与实践
王夕宁
阿里云容器服务技术研发负责人
内容简介:
将深入探讨如何利用云原生技术应对大型语言模型(LLM)服务管理的挑战, 展示如何通过云原生架构优化负载管理、降低成本并提升用户体验。深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度, 进而探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理。

演讲提纲:
1、介绍LLM服务管理的特征: 服务管理与传统的微服务管理在某些方面具有相似性,但由于其独特的特性和需求,也带来了一些不同的挑战;
2、深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度;
3、探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理;
4、提出AI Mesh: 用于管理和扩展生成式 AI 工作负载的统一界面。

听众受益:
1、听众将学习如何通过云原生技术实现LLM服务的高效资源管理,包括智能的负载均衡和并发控制策略,从而在保证服务稳定性的同时,优化计算资源的使用和成本效益。
2、激发企业对LLM/GenAI工作负载的管理技术的兴趣与应用探索, 特别是自建LLM服务的场景下如何解决在使用中的性能和成本问题。
                                                                                               
阿里云容器服务Kubernetes及Service Mesh技术研发负责人, 擅长Kubernetes/云原生/服务网格等领域。曾在IBM中国开发中心工作, 作为架构师和主要开发人员负责或参与了一系列在SOA中间件/云计算等领域的工作, 曾担任中国研发中心专利技术评审主席, 并拥有100多项相关领域的国际技术专利授权及申请。著有《Istio 服务网格解析与实战》畅销书。
Agent在微服务治理平台落地实践
刘瑞森
百度资深研发工程师
内容简介:
微服务治理平台是提升业务微服务使用、运维、治理效率的重要手段,频繁变更的使用人员、参差的知识背景成为制约平台发展与业务效能提升的重要因素。本次演讲将从微服务治理平台的实践问题出发,阐述如何将微服务治理平台与 LLM + AI Agent 结合,进一步提升微服务治理平台的价值。        

演讲提纲:
1、微服务治理平台的困境
2、LLM 与 AI Agent 的能力与启发
3、借助 AI Agent 重构微服务治理平台
4、总结与展望

听众受益:
1、了解百度微服务治理平台实践中的痛点与思考
2、了解 LLM 与 AI Agent 内容
3、了解LLM与AI Agent如何在微服务领域落地        
                                                                                             
百度资深研发工程师,先后服务并建设百度云、基础架构、大商业,有丰富的微服务治理经验。现任百度商业广告平台资深工程师,主导研发与开源百度商业广告业务端微服务框架 Starlight,负责内部微服务治理平台由传统到云原生再到智能化的演进。同时探索AI赋能广告营销实现新的智能投放。
LLM驱动的AIOps系统构建与实践
郭红科
阿里云高级开发工程师
内容简介:
阿里云ECS当前服务百万级的客户,保障基础设施的稳定性极为重要。ECS异常调度在AIOPS领域已经深耕多年,构建了一套相对完善的智能异常调度系统,实现服务器异常的自动识别、智能规避以及服务的快速恢复。
2023年大模型(LLM)时代的到来,AIOPS行业也迎来更多可能性。ECS异常调度结合AIOPS领域实践和大模型语言建模能力,在原有的智能运维的基础上,重构了部分交互模式以及自动化诊断、运维的链路,让智能运维更人性化、更智能。
本次分享重点围绕LLM驱动的阿里云ECS异常调度系统构建与实践,会在RAG、agent等主要落地场景进行深入探讨,包括知识库的构建、索引和召回,agent设计和基础工具对接,以及大模型能力如何对接现有AIOPS系统。除此之外本次也会分享在大模型落地过程中的一些思考和取舍,如何让大模型发挥真正的价值,为云上客户提供更加可靠的稳定性。

演讲提纲: 
1、ECS异常调度(AIOps)系统介绍
2、LLM时代AIOps的探索方向
3、LLM驱动的AIOps系统的落地实践
1)大模型原生工具构建
2)RAG实践和优化
3)运维Agent探索和实践
4、总结与展望
1)云原生场景下用户的使用习惯变化和智能运维思路
2)LLM落地实践的一些思考

听众受益:
1、了解到阿里云ECS如何通过构建一套先进的智能异常调度系统,实现对百万级客户服务器异常情况的实时自动识别和智能规避,以及如何快速恢复服务以降低业务中断风险。
2、了解大模型技术发展为AIOPS领域带来的革命性变化。学习阿里云ECS智能运维场景下LLM的落地细节,一起探讨其如何赋能运维人员解决复杂问题,提升运维效率。
3、从实际项目实施中获取宝贵的经验教训,了解阿里云在应对大规模运维挑战时的策略和解决方案,为听众提供一个思考和讨论的机会。

毕业于大连理工大学,一直从事智能运维领域相关工作,2021年加入阿里云,专注于AIOps在云计算场景下的探索和实践。大模型时代一个初级prompt工程师。
京ICP备2020039808号-4 京公网安备11011202100922号