出品人:郑旭东 
阿里云资深技术专家
阿里云弹性计算、稳定性建设负责人

阿里云资深技术专家,阿里云弹性计算、稳定性建设的负责人,包括产品稳定性运营和运维,客户体感稳定性,异常调度系统等。                                                                                                                                

智能运维(AIOps)

智能运维是将人工智能的能力与运维相结合,即基于已有的运维数据(日志、监控数据、应用数据等)进行机器学习,不断地提炼并总结规则,解决自动化运维的问题,如自动完成数据收集、响应事件、及时告警和深度数据分析,让AI帮助我们、代替我们做出决策,通过AI来提升运维效率,使得发布软件更加地快捷和可靠,并让运维完全自动化成为可能。                                                                                                                                                                                      
大规模云计算下节点故障预测AIOps技术实践                       
马旭华
阿里云高级技术专家
负责弹性计算产品的异常智能预测体系建设,专注于数据+算法+工程结合解决弹性计算产品数据面稳定性问题,聚焦于IaaS节点故障预测技术,受损感知,异常检测等领域的AIOps算法工程化系统研发                                                        
内容简介:
弹性计算作为阿里云规模最大的IaaS产品,IaaS产品的特点决定了单个服务器的不可用(宕机/夯机)会直接导致节点上VM不可用,是大规模云计算场景下必须解决的数据面稳定性的关键难题,节点故障预测AIOps系统是解决此稳定性问题的关键技术。
本演讲将分享我们在超大规模云计算场景下故障预测算法工程体系的最佳实践,应用AI算法来解决超大规模IaaS运维的课题会面临的问题,以及给出我们解决这些问题的方案和思考,分别从数据构建面临的标签准确率,数据覆盖率,特征表达弱,实时链路构建难点问题,并给出解决方案;算法架构的挑战:基于泛时序多源异构的故障预测算法问题的定义与探索;算法工程化上线面临的模型退化,准召率评价失效,工程系统效率等面临的问题提供解决方案与思考。最后总结整个数据+算法+工程化的完整解决方案思路(两个数据面与控制面的闭环)。                                                                                                                                                                                                                                  
演讲提纲:
1、大规模云计算稳定性问题
2、大规模节点故障预测问题定义与挑战
3、大规模节点故障预测算法工程建设实践                                                                                                                          
                                                                      
听众受益:
超大规模云计算场景下AIOps(以节点故障预测为例)系统构建数据+算法在工业界应用面临的挑战(数据,算法,工程)以及问题的解决思路和方向                                                                                                                               
大模型驱动的自动化日志分析                       
贺品嘉
香港中文大学(深圳)助理教授
香港中文大学(深圳)助理教授,校长青年学者,国家海外高层次人才。博士毕业于香港中文大学,在苏黎世联邦理工学院任职博士后三年。研究方向为软件可靠性、软件测试、MLOps、智能运维等。近年来在ICSE, FSE, ASE, ISSTA, OSDI, CSUR, TDSC等顶级会议期刊发表学术论文30余篇。获得ISSRE最有影响力论文奖,IEEE开源软件服务奖。谷歌学术引用超3600次。主导的自动化日志分析开源项目LogPAI在GitHub上被star 4000余次,并被450多个学界业界组织下载10万余次。                                    
内容简介:
日志是运维领域中十分重要且广泛存在的一种数据模态。日志消息通常由包含高密度语义信息的自然语言组成。因此在大模型时代以前,研究人员无法对日志进行精细化地处理和分析,导致日志常常没有被高效利用。具体而言,日志仅仅是被抽象成日志模版的序列来使用,而这个过程会损失掉大量的语义信息,导致日志数据对自动化运维算法的帮助十分有限。基于这个原因,人们也普遍更青睐于高可用的、结构化的调用链和指标数据进行自动化运维。 该情况在大模型出现以后发生了改变:作为运维领域中唯一一个纯文本模态的数据,日志能直接受益于大语言模型强悍的语义理解能力,使得许多过去富有挑战的任务变得不再难以完成。例如,大语言模型的上下文学习能力使得高精度、自动化、端到端地为业务代码生成日志埋点成为了可能。此外,大模型参数高效微调技术也使得日志解析问题基本被攻克。其他基于大语言模型的日志下游任务解决方案也如雨后春笋般逐渐涌现出来。本次演讲将着力于讨论传统日志分析所面临的局限、当前大模型技术对日志分析领域的可能的赋能方式、以及大模型技术影响下日志分析领域的未来。                                                                                                                                                                                                                                                           
演讲提纲:
1、传统自动化日志分析的研究现状与面临的挑战
2、解决当前挑战的思路与方案:基于LLM的自动化日志分析,将各个日志分析的子任务构建成Text2Text的生成任务
3、实践效果与效果评估
4、总结与展望                                                                                                                                      
                                                                      
听众受益:
系统化地了解大语言模型对自动日志分析和智能运维领域的影响和贡献,以及在大语言模型影响下日志分析的可能的未来走向。                                                                                                                                                                       
遇见答案 - 云原生场景下可观测性AIOps落地实践                       
杨金全
基调听云研发VP
中国第一批商业化APM工具缔造者、实践者,目前专注在智能观测性平台的产品研发及商业化运营上,对APM及可观测性行业有较深入的理解及洞见。常年服务于金融、运营商及高科技等行业的头部客户,为其提供专业的技术方案和产品服务。                                                      
内容简介:
云原生技术正在成为企业数字转型的重要引擎,然而,随着应用程序数量和复杂性的不断增加,监控、分析和管理这些应用变得愈发复杂。在这一背景下,企业需要构建一套一体化智能可观测性平台来应对复杂多变的运维环境。本次分享围绕着可观测性建设的底层逻辑,建设路径及AIOps的落地实践,首次提出可观测性需要将3大支柱,扩充5大支柱,10大数据模型,以实现全面的可观测性和AIOps,从而确保业务的韧性。                                                                                                                                                                           
演讲提纲:
1、数字化转型对IT运维带来的调整
2、可观测性5大支柱及其价值
3、一体化智能可观测平台AIOps落地实践
4、AIOps与运维大模型碰撞的路径
  
                                                                  
听众受益:
1、运维数字化转型所需要的可观测性底层逻辑及建设路径
2、如何通过可观测性平台保障业务韧性
3、当前国内AIOps的落地现状及建设思路
4、金融、运营商行业AIOps建设项目的落地案例
                                                                                                                 
京ICP备2020039808号-4