基于异常关联图和图神经网络的云平台故障根本原因分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Root cause analysis of cloud platform faults based on anomaly correlation graph and graph neural network

【字体：大中小】 时间：2026年03月21日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　云平台复杂网络拓扑下的故障根因分析，提出ACG-LGraphBM模型，融合异常关联图（ACG）、图注意力网络（GAT）和轻梯度提升机（LGBM），通过时间延迟机制和权重阈值采样减少噪声干扰，结合相似性分析生成可解释报告，实验显示精度提升超10%。

周北京|陈炳彦|李妍|梁新宇|马宗民

中国南京航空航天大学计算机科学与技术学院

摘要

云环境日益复杂的结构使得处理故障变得更加困难。故障根本原因分析可以定位故障的根源，并促进故障排除过程。传统的故障根本原因分析通常依赖于工程师的经验判断，这既耗时又缺乏可扩展性。本文提出了一种新的模型，用于解决具有复杂网络拓扑和大量报警生成的云平台中的故障根本原因分析问题。我们的模型结合了异常关联图、图注意力网络和轻量级梯度提升机。首先从历史报警数据中学习因果关联，构建异常关联图。为了减少噪声干扰，我们提出了一种权重阈值采样机制，选择具有高因果关联的邻居节点作为中心节点的聚合目标。然后使用图注意力网络聚合邻域信息，以实现节点特征提取，从而有效表示节点之间的复杂依赖关系。最后，应用轻量级梯度提升机进行分类，以实现根本原因的定位。此外，通过相似性分析生成可解释的报告，为工程师修复故障提供参考。该模型无需大量训练样本即可定位根本原因。实验结果表明，与其它相关方法相比，我们提出的模型在根本原因分析方面具有更好的效果，精度提高了10%以上。

引言

随着云计算时代的到来和网络信息技术的快速发展，云平台的规模持续扩大。系统中的设备、应用程序和连接数量不断增加，传统的手动运维（O&M）已无法应对如此复杂的IT（信息技术）环境（Notaro等人，2021年）。为了满足大规模和高度复杂系统运维的需求，人工智能运维（AIOps）应运而生。AIOps是指依靠机器学习等人工智能（AI）技术来观察基础设施的运行状态，从大量运维数据中自动学习和总结规则，并做出决策的运维方法（Notaro等人，2021年）。AIOps有助于提高工程效率和系统可靠性（Shen等人，2020年）。

近年来，随着云平台监控能力的日益成熟和云环境中系统的复杂性增加，生成的数据量急剧增加。一个重要问题是如何建立适当的机制来确定故障的根本原因，以便处理大量数据或提供有价值的实时反馈。故障根本原因分析是AIOps的重要组成部分，其目标是通过跟踪推理来定位故障组件并找到故障的根本原因，基于报警日志和组件之间的拓扑连接关系。

报警日志是运维场景中的主要监控数据之一，以序列化形式传达系统或组件的异常信息。它们是故障根本原因分析（RCA）的重要数据基础（Jiang和Bai，2023年）。报警是在发生异常事件时发出的通知。异常事件是指云平台中出现的各种异常情况。一个异常事件对应一个报警实例，例如“端口80通信异常”、“请求延迟超过5分钟”等。在云环境中，报警的生成受到其背后的拓扑网络的影响（Cai等人，2022年）。拓扑网络中的节点代表云平台中的各种组件，而边代表组件之间的依赖关系。云平台中的单个故障通常会在多个连接的节点上触发大量不同类型的报警，导致报警泛滥（Alinezhad等人，2022年）。基本上，我们可以将生成的报警分为根本原因报警、派生报警和噪声报警。派生报警是指与父节点生成的报警具有强因果关联的报警。噪声报警是指与父节点生成的报警没有因果关联或因果关联较弱的报警。这里，“因果关联”指的是两个事件之间的关系，不仅存在统计关联，而且这种关联还具有因果关系的特征，即一个事件（原因）导致另一个事件（结果）的发生。根本原因报警是指导致故障的报警。RCA的目标是找到根本原因报警和根本原因节点。

RCA面临三个主要难点。首先，云平台中复杂的组件或服务交互给RCA带来了挑战（Soldani和Brogi，2022年）。其次，对于许多报警事件，噪声报警干扰会分散操作员的注意力，使其无法关注根本报警（Alinezhad等人，2022年）。第三，难以获得可用于故障排除的可解释RCA结果（B?hmer和Rinderle-Ma，2020年）。如何解决这些问题是目前RCA研究的主要焦点。已经有许多基于AI的RCA方法被提出，如无监督随机游走方法（Li等人，2022a；Ma等人，2020年；Zhang等人，2020年）、有监督的传统机器学习方法（Gaita等人，2022年；Dehbozorgi等人，2020年）和深度学习方法（He和Zhao，2020年；Yan等人，2022年）。现有方法通常由于多种限制而无法全面解决问题。

(1)

许多研究主要关注报警之间的相关性，忽略了报警之间的因果关系（Jiang和Bai，2023年）。对于关注因果关系的研究，往往忽略了报警之间的拓扑依赖性（Cai等人，2022年）。

(2)

它们无法很好地表示复杂网络中节点之间的拓扑关系（Li等人，2022b）。现有方法很少使用拓扑结构有效提取节点特征，通常忽略拓扑空间信息，导致无法捕捉节点之间的信息传递。

(3)

它们缺乏对噪声报警的判断能力。在大型系统中，经常发生报警泛滥，这些报警可能包含大量噪声数据（Alinezhad等人，2022年）。现有工作很少对噪声数据进行判断，这影响了根本原因的查找，导致结果不准确。

(4)

它们缺乏对定位结果的可解释性。很少有现有方法提供RCA的可解释性分析。许多现有模型是黑盒模型（Gaita等人，2022年；He和Zhao，2020年；Yan等人，2022年），工程师难以信任定位结果（Li等人，2022c）。

在本文中，我们提出了一种名为ACG-LGraphBM的故障根本原因分析模型，该模型结合了异常关联图（ACG）、图注意力网络（GAT）和轻量级梯度提升机（LGBM）。考虑到根本原因报警通常只占所有报警的一小部分，并且大多是重复出现的故障模式（Li等人，2022a），本文仅关注基于历史数据的监督学习方法。与通常忽略异常报警之间因果关系的传统数据驱动RCA方法不同，ACG-LGraphBM模型学习了异常报警事件序列的因果结构，构建了ACG，并计算了关联度，即异常报警事件之间关联的量化度量。特别是，我们提出了时间延迟机制来处理ACG构建过程中某些报警收集的可能延迟。为了利用拓扑空间信息并减少噪声干扰，我们提出了一种权重阈值采样机制来采样邻居节点。通过GAT聚合中心节点的邻域信息，并引入多头注意力机制来增强特征表示。由于传统机器学习方法在训练稳定分类模型方面的表现更好（Deng等人，2021年），我们选择LGBM分类器进行进一步的特征学习和分类。最终获得了根本原因节点排序列表和根本原因报警，其中包含了每个节点作为根本原因的概率。时间延迟机制和权重阈值采样机制的使用可以提高根本原因分析的准确性。此外，我们通过最近邻历史案例的相似性分析提出了一个可解释性模块，为工程师生成可解释的报告。实验结果表明，提出的ACG-LGraphBM在根本原因定位方面具有较好的准确性。本文的主要贡献总结如下。

(1)

提出了时间延迟拓扑霍克斯过程（TTHP）来学习因果结构并构建ACG，其中考虑了异常报警事件序列背后的拓扑依赖性。

(2)

应用基于注意力的图神经网络进行节点特征提取。我们提出了一种权重阈值采样机制，以采样具有高因果关联的邻居节点，从而减少噪声干扰。考虑到邻居节点对中心节点的不同影响，我们根据重要性对邻居节点的特征进行聚合。使用GAT进行特征提取可以更好地表征节点信息。

(3)

提出了ACG-LGraphBM模型，该模型无需大量训练样本即可实现准确的根本原因定位，并可以提供返回结果的可解释性分析。

本文的其余部分组织如下。第2节提供了与根本原因分析相关的工作概述。第3节介绍了相关知识的预备知识。第4节提出了新的根本原因分析模型。第5节展示了实验结果和分析。第6节总结了本文并展望了未来的工作。

预备知识

本节介绍了异常关联图和异常事件类型的两个基本定义。我们还介绍了用于根本原因分析的拓扑霍克斯过程和GAT的预备知识。

定义1

（异常关联图）。ACG是一个有向加权图，表示为G_V=(V, E_V)，其中V表示异常事件类型的集合，E_V表示有向加权边的集合。边v_i, v_j, weight_ij存在于E_V中，表示存在因果关联

基于ACG-LGraphBM的根本原因分析

RCA的目标是在发生故障时识别根本原因节点和根本原因报警（例如，根本原因节点：node₂₂；根本原因报警：应用程序停止运行）。它们的组合可以同时向工程师提供故障位置和事件信息，从而便于故障处理（Li等人，2022c）。当发生故障时，根本原因节点生成的不同报警数量变化很大，根本原因报警的发生时间远多于

实验结果和分析

本节验证了所提出方法的有效性。我们首先验证了异常关联图构建方法的功能，然后评估了ACG-LGraphBM模型的性能。我们还进行了消融实验，以验证所提模型中每个模块的有效性。

结论

基于异常关联图、GAT和LGBM，我们提出了一个ACG-LGraphBM模型，用于具有复杂网络拓扑和大量报警的云平台中的故障根本原因分析。该模型首先学习拓扑依赖的异常报警事件序列的因果结构，并构建异常关联图（ACG）。然后，引入权重阈值采样机制来减少噪声干扰。我们使用GAT算法提取节点特征，以便表征节点

CRediT作者贡献声明

周北京：数据整理、验证、可视化。陈炳彦：撰写——初稿。李妍：撰写——审阅与编辑。梁新宇：验证。马宗民：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作