AiDD研发数字峰会-上海站

出品人：裴丹

清华大学计算机系长聘副教授

博士生导师

在美国UCLA获得了博士学位，之后加入美国AT&T研究院担任资深研究员、主任研究员。裴博士在智能运维领域发表了约200篇学术论文和30多项专利授权。他是CCF AIOps算法挑战赛的创办者。他目前是计算机网络领域旗舰期刊IEEE/ACM Transactions on Networking 的编委，并曾担任IEEE计算机网络领域旗舰会议ICNP 2022的技术程序委员会主席。

智能运维

智能运维是将人工智能的能力与运维相结合，即基于已有的运维数据（日志、监控数据、应用数据等）进行机器学习，不断地提炼并总结规则，解决自动化运维的问题，如自动完成数据收集、响应事件、及时告警和深度数据分析，让AI帮助我们、代替我们做出决策，通过AI来提升运维效率，使得发布软件更加地快捷和可靠，并让运维完全自动化成为可能。

阿里云服务器智能异常调度系统及LLM OPS构建与实践

内容简介：

阿里云弹性计算ECS当前服务百万级的客户，保障基础设施的稳定性极为重要。近年来，阿里云弹性计算团队构建了一套相对完善的智能异常调度系统，实现服务器异常的自动识别、智能规避以及服务的快速恢复。2023年随着大模型的时代的到来，特别是自然语言的交互以及智能的推理能力，给整个AIOPS行业带来了极大的变化；ECS异常调度结合大模型的实践，我们在原有的智能运维的基础上，重构了部分交互模式以及自动化诊断、运维的链路，让智能运维跟人性化、更智能；本次分享重点围绕服务器异常的智能诊断、服务治理以及像LLM OPS落地这三个领域中重点突破的技术点及实践经验，展开深入探讨。

演讲提纲：

1、阿里云智能异常调度系统介绍
2、大模型时代对AIOPS行业的革新影响
3、ECS智能运维体系结合大模型的创新实践
4、总结与展望

听众受益：

1、参会者将了解到阿里云ECS弹性计算如何通过构建一套先进的智能异常调度系统，实现对百万级客户服务器异常情况的实时自动识别和智能规避。以及如何快速恢复服务以降低业务中断风险。
2、了解大模型技术发展为AIOPS领域带来的革命性变化。了解LLM OPS在运维场景中的落地细节，体会其如何赋能运维人员解决复杂问题，并形成可复用的知识库。
3、从实际项目实施中获取宝贵的经验教训，了解阿里云在应对大规模运维挑战时的策略和解决方案，为听众提供一个思考和讨论的机会。

郭红科
阿里云高级开发工程师

毕业于大连理工大学，一直从事智能运维领域，2021年加入阿里云，专注于AIOps在云计算场景下的探索和实践。一个初级prompt工程师。

华为云PaaS服务AIOps落地实践

付求爱

华为云智能化运维算法专家

北京大学计算机系毕业，2020年加入华为，目前担任华为云智能化运维算法专家、华为云PaaS产品部智能化运维业务负责人，负责华为云PaaS研发质量看护和智能化运维关键能力构建、技术研究、整体规划、团队管理及交付落地。

内容简介：

随着企业数字化转型和业务互联网化，企业对应用的高可用、可靠性提出了更高的要求，以及近年来云原生、微服务、分布式技术的引入，业务规模和运维管理对象成倍增加，服务之间的依赖、调用关系愈发复杂。一方面我们享受着开发效率指数提升的红利，同时也在承受着故障定位成本居高不下的痛苦。特别是当业务出现问题的时候，如何快速发现问题和止血变得非常困难。华为云PaaS产品部基于高质量服务发布要求，打造华为云产品高质量一体化看护能力，围绕1分钟感知、5分钟定界的现网运维目标，构筑以AIOps技术驱动的问题发现和定界定位专项能力。

演讲提纲：

1、华为云PaaS业务&背景介绍
2、面临的挑战&运维痛点
3、 AIOps解决方案介绍
4、效果展示&总结

听众受益：

1、华为云相关业务以及面临的运维难题
2、华为云AIOps建设思路，部分方案可直接采用，也可启发听众

SRE-Copilot：大语言模型与aiops结合的探索

内容简介：

随着大语言模型和基于语言模型的Agent的火爆，我们探索了大语言模型与aiops领域的结合，并提出SRE-Copilot这套框架，在aiops2023挑战赛上取得了冠军。并在字节跳动内部一些高频场景做了落地的实践，包括故障诊断，异常检测，数据查询等。搭建一套基于多agent协同的智能运维框架。

演讲提纲：

1、SRE-Copilot整体架构
2、期望解决的运维痛点
3、框架实现的技术细节
4、在字节跳动的应用场景
5、一些探索中的经验教训

听众受益：

1.、了解大语言模型与智能运维结合的场景
2、了解SRE-Copilot架构和技术细节

张翔
字节跳动SRE-Copilot负责人

中科院计算所博士毕业，字节跳动基础架构SRE数据化方向负责人，聚焦成本、稳定性、效率、服务四条主线，为SRE提供数据化与智能化支持。加入字节后，主导了异常检测、智能变更、故障诊断、智能限流、运筹优化、大语言模型应用、资源交付数据化运营、运维数仓等多个数智化运维项目的上线与推广。

AIOps在线评测基准系统

聂晓辉

必示科技有限公司产品部总监

必示科技产品部总监，清华大学计算机系博士, 研究领域为智能运维 (AIOps)，在 JSAC、TON、KDD、ESEC/FSE 等 CCF A/B 类国际会议或期刊上发表多篇文章，研制的智能运维系统在建设银行、中国移动、百度等40 多家银行、证券、运营商、互联网等企业实施落地。

内容简介：

在线评测基准（AIOps Live Benchmark）是一个创新运维平台，它在真实的IT系统上使用混沌工程工具模拟现实运维场景，通过可观测工具获取实时数据，以在线评估AIOps应用的性能。该基准提供了评估指标和排行榜，旨在构建真实的运维平台，评测异常检测、告警分析、故障定位等AIOps应用的实际效果，并发布权威的数据集和评估基准。该系统将在OpenAIOps社区（open.aiops.cn）公开发布，通过这个平台，运维人员能快速了解常见的运维问题和解决方案，运维专家可以发布难题寻求社区帮助，科研人员和开发人员则能获得宝贵的真实运维数据，用于学术研究和产品测试。

演讲提纲：

1、在线评测基准背景介绍
1.1 强调实际运维环境的复杂性和挑战
1.2 现有AIOps工具众多，到底如何选择，如何评估效果
2、在线评测基准系统介绍
2.1 什么是在线评测基准（AIOps Live Benchmark）
2.2 具体如何使用在线评测基准
2.3 用户使用收益
3、关键系统模块介绍
3.1 IT系统实例：TrainTicket、Online Boutique、DeathStarBench

3.2 混沌工程工具：ChaosMeta、ChaosBlade
3.3 可观测工具：Prometheus、Skywalking、Zabbix
3.4 AIOps应用：异常检测、告警分析、根因定位
4、结论
4.1 强调在线评测基准在提升AIOps应用性能、促进知识共享和社区合作方面的作用
4.2 邀请更多的专业人士参与，共同推动AIOps技术的发展

听众受益：

1、获取资源和数据的渠道：听众将了解到如何访问和利用在线评测基准提供的权威数据集和评测结果，这些资源对于学术研究、产品测试及技术创新都具有极大的价值。
2、认识到在线评测基准的重要性：汇报强调了在线评测基准如何促进运维专家、科研人员和开发人员之间的交流合作，展示了共享资源、经验和解决方案的重要性，进而推动AIOps技术的发展和应用。

大模型时代的可观测性与AIOPS落地实践

内容简介：

随着生成式人工智能技术的快速演进，大模型正成为推动技术创新和业务变革的关键引擎。在这个大模型时代，运维与可观测性面临着崭新的挑战和丰富的机遇。本次分享将深入探讨如何在可观测性平台及AIOPS中成功应用大模型技术，重点讨论OPS LLM训练中涉及的技术、资源和管理方面的挑战。
分享将聚焦企业级落地，通过案例分析展示大模型技术在实际业务中的应用。我们将详细探讨在大规模语言模型训练中可能面临的各种挑战，并提供创新性解决方案。通过分享实际经验，旨在为技术人员提供实用的指导，帮助他们更好地理解与应对大模型时代运维与可观测性面临的复杂问题。

演讲提纲：

1、大模型时代下的运维与可观测性
1.1 运维与可观测性面临的新挑战
1.2 大模型为运维带来的机遇与变革
2、大模型技术在可观测性平台中的应用
2.1 可观测性平台的定义与重要性
2.2 大模型技术如何提升可观测性
2.3 实际案例分享：在可观测性平台中应用大模型的成功经验
3、AIOPS与OPSLLM训练中的挑战
3.1 OPS LLM训练中的技术挑战
3.2 资源与管理方面的问题及解决方案
4、企业级落地案例
4.1 实际业务场景中大模型技术的应用
4.2 成功落地的关键因素
4.3 经验教训与可借鉴之处

听众受益：

1、了解面对大模型时代运维与可观测性的挑战
2、了解大模型在可观测性平台与AIOPS中的应用
3、解决OPS LLM训练中的技术、资源和管理问题
4、企业级落地的实际经验
5、工具与平台推荐
6、未来趋势的洞察