内容简介:
阿里云弹性计算ECS当前服务百万级的客户,保障基础设施的稳定性极为重要。近年来,阿里云弹性计算团队构建了一套相对完善的智能异常调度系统,实现服务器异常的自动识别、智能规避以及服务的快速恢复。本次分享重点围绕服务器异常的智能诊断、服务治理两个领域中重点突破的技术点,展开深入探讨。
演讲提纲:
1. 系统背景:为什么要建设智能异常调度系统?
2. 系统架构:异常调度系统概览(重点阐述智能诊断与服务治理)
1). 核心组件简介:包含数据采集、智能诊断、智能运维、服务治理、故障恢复、客户侧事件、客户自诊断能力等。
2). 智能诊断介绍:建立一套智能化体系,做到线上特定异常特征抽取、日志模式智能解析、运维规则自动化修正以及对应的A/B test机制建立。
3). 服务治理介绍:如何建立一套评价机制来评价机器的服务质量,并以此为线上治理稳定性的准则。
3. 系统实践:基于数据采集-异常发现->自动化运维->事件推送->自诊断体系全流程运维能力,保障云上业务的稳定性。
听众受益:
1. 为什么说AIOPS是大规模运维的必然选择
2. 阿里云弹性计算是如何通过AIOPS的方式,运维百万级别的客户及实例,保障用户实例的高可用。
阿里云弹性计算平台异常调度AIOPS方向负责人。经历淘宝、阿里妈妈、对象存储、弹性计算平台多个子公司及部门,近8年的运维管控系统建设经验,主导建设存储运维管控系统赤骥,近年来专注弹性计算平台异常调度平台AIOPS方向,致力于通过AI的方式赋能提升弹性计算稳定性,提升运维效率及智能运维能力。