AiDD研发数字峰会-北京站

出品人：罗广明

字节跳动服务框架团队架构师

字节跳动服务框架团队架构师，致力于微服务架构、服务治理以及云原生技术的研究与落地，具有多年基础架构工作经验；CloudWeGo 开源负责人，从0到1负责企业级开源项目治理、布道和技术品牌建设，具有丰富的开源经验。先后就职于爱立信、百度。

AI +微服务的实践与创新

本分论坛将探讨 AI 与微服务融合的实践与创新，即AI驱动微服务的开发、部署到运维的全生命周期管理。讨论内容包括微服务应用的AI+开发流程、AI赋能微服务架构的设计或技术选型、部署策略优化、高效运维与服务治理等方案。分享行业内的最佳实践、成功经验和前沿技术，助力提升企业技术水平与竞争力，激发AI与微服务融合的创新思维与应用潜力。

优化大型语言模型服务管理的策略与实践

王夕宁

阿里云容器服务技术研发负责人

内容简介：

将深入探讨如何利用云原生技术应对大型语言模型（LLM）服务管理的挑战, 展示如何通过云原生架构优化负载管理、降低成本并提升用户体验。深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度, 进而探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理。

演讲提纲：
1、介绍LLM服务管理的特征：服务管理与传统的微服务管理在某些方面具有相似性，但由于其独特的特性和需求，也带来了一些不同的挑战;
2、深度解析LLM工作负载管理的挑战以及如何应对, 包括负载均衡策略、请求优先级和队列管理等维度；
3、探讨如何在现有的技术基础之上扩展支持针对LLM/GenAI工作负载的管理；
4、提出AI Mesh: 用于管理和扩展生成式 AI 工作负载的统一界面。

听众受益：
1、听众将学习如何通过云原生技术实现LLM服务的高效资源管理，包括智能的负载均衡和并发控制策略，从而在保证服务稳定性的同时，优化计算资源的使用和成本效益。
2、激发企业对LLM/GenAI工作负载的管理技术的兴趣与应用探索, 特别是自建LLM服务的场景下如何解决在使用中的性能和成本问题。

阿里云容器服务Kubernetes及Service Mesh技术研发负责人, 擅长Kubernetes/云原生/服务网格等领域。曾在IBM中国开发中心工作, 作为架构师和主要开发人员负责或参与了一系列在SOA中间件/云计算等领域的工作, 曾担任中国研发中心专利技术评审主席, 并拥有100多项相关领域的国际技术专利授权及申请。著有《Istio 服务网格解析与实战》畅销书。

Agent在微服务治理平台落地实践

刘瑞森

百度资深研发工程师

内容简介：

微服务治理平台是提升业务微服务使用、运维、治理效率的重要手段，频繁变更的使用人员、参差的知识背景成为制约平台发展与业务效能提升的重要因素。本次演讲将从微服务治理平台的实践问题出发，阐述如何将微服务治理平台与 LLM + AI Agent 结合，进一步提升微服务治理平台的价值。

演讲提纲：
1、微服务治理平台的困境
2、LLM 与 AI Agent 的能力与启发
3、借助 AI Agent 重构微服务治理平台
4、总结与展望

听众受益：
1、了解百度微服务治理平台实践中的痛点与思考
2、了解 LLM 与 AI Agent 内容
3、了解LLM与AI Agent如何在微服务领域落地

百度资深研发工程师，先后服务并建设百度云、基础架构、大商业，有丰富的微服务治理经验。现任百度商业广告平台资深工程师，主导研发与开源百度商业广告业务端微服务框架 Starlight，负责内部微服务治理平台由传统到云原生再到智能化的演进。同时探索AI赋能广告营销实现新的智能投放。

LLM驱动的AIOps系统构建与实践

郭红科

阿里云高级开发工程师

内容简介：

阿里云ECS当前服务百万级的客户，保障基础设施的稳定性极为重要。ECS异常调度在AIOPS领域已经深耕多年，构建了一套相对完善的智能异常调度系统，实现服务器异常的自动识别、智能规避以及服务的快速恢复。
2023年大模型（LLM）时代的到来，AIOPS行业也迎来更多可能性。ECS异常调度结合AIOPS领域实践和大模型语言建模能力，在原有的智能运维的基础上，重构了部分交互模式以及自动化诊断、运维的链路，让智能运维更人性化、更智能。
本次分享重点围绕LLM驱动的阿里云ECS异常调度系统构建与实践，会在RAG、agent等主要落地场景进行深入探讨，包括知识库的构建、索引和召回，agent设计和基础工具对接，以及大模型能力如何对接现有AIOPS系统。除此之外本次也会分享在大模型落地过程中的一些思考和取舍，如何让大模型发挥真正的价值，为云上客户提供更加可靠的稳定性。

演讲提纲：
1、ECS异常调度（AIOps）系统介绍
2、LLM时代AIOps的探索方向
3、LLM驱动的AIOps系统的落地实践
1）大模型原生工具构建
2）RAG实践和优化
3）运维Agent探索和实践
4、总结与展望
1）云原生场景下用户的使用习惯变化和智能运维思路
2）LLM落地实践的一些思考

听众受益：
1、了解到阿里云ECS如何通过构建一套先进的智能异常调度系统，实现对百万级客户服务器异常情况的实时自动识别和智能规避，以及如何快速恢复服务以降低业务中断风险。
2、了解大模型技术发展为AIOPS领域带来的革命性变化。学习阿里云ECS智能运维场景下LLM的落地细节，一起探讨其如何赋能运维人员解决复杂问题，提升运维效率。
3、从实际项目实施中获取宝贵的经验教训，了解阿里云在应对大规模运维挑战时的策略和解决方案，为听众提供一个思考和讨论的机会。

毕业于大连理工大学，一直从事智能运维领域相关工作，2021年加入阿里云，专注于AIOps在云计算场景下的探索和实践。大模型时代一个初级prompt工程师。

AiDD峰会

K+峰会

联系我们