FGAT：一种结合模糊图注意力网络（Fuzzy Graph Attention Network）的状态标注方法，用于工业协议逆向工程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：FGAT: A states labeling method with Fuzzy Graph Attention Network for industrial protocol reverse engineering

【字体：大中小】 时间：2026年02月13日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　工业互联网协议消息状态标注方法研究。本文提出FGAT模型，通过模糊逻辑与注意力机制结合的图神经网络，解决传统方法在工业协议处理中的局限性，有效捕捉消息间时序与语义关联，实验表明准确率达97.16%，优于现有方法。

周伟康|马光福|周楠|梁晓军|高存年|邓文峰|杨春华|桂伟华

哈尔滨工业大学，中国深圳市桃源街道，518071

摘要

信息技术（IT）网络与运营技术（OT）网络之间的深度融合引入了混合流量模式，增加了链路复杂性，从而加剧了协议配置、转换和安全保障方面的挑战。作为这些过程的基础前提，协议分析迫切需要从当前的手动操作转变为自动化、智能化的范式，以便能够对日益复杂的工业互联网流量进行高效准确的逆向分析。传统的逆向工程方法在工业协议的消息状态标注方面效果有限，因为这些协议的专有性质和序列透明性特征，同时也无法充分捕捉消息之间的隐含关系。为了解决这些问题，我们提出了基于注意力机制的模糊逻辑聚合图神经网络（FGAT）用于工业协议消息状态标注。我们的方法将协议消息数据转换为图结构，并通过结合模糊逻辑的注意力机制进行特征聚合，从而融入了消息之间的强关联归纳偏见。我们使用七种不同协议的工业流量数据对FGAT进行了实验，并通过比较FGAT（97.16%）与传统图神经聚合方法（85.61%/86.96%/87.08%）、最新的模糊图神经网络方法（81.70%/79.53%）、传统的无监督深度学习方法（89.98%/69.57%/95.16%/85.98%/86.89%）以及传统协议逆向技术的消息状态标注方法（47.50%/54.26%/71.49%）的分类准确性，证明了我们方法的优越性。

引言

在全球信息化时代，工业互联网正在从根本上重塑传统产业。通过将现代信息技术与现有的制造过程深度融合，工业互联网正在推动工业领域向更高的智能化、效率和环境可持续性发展。然而，这种转型也增加了工业网络应用的复杂性。两个典型的挑战说明了这种复杂性：协议转换和入侵检测。对于工业设备监控，实时数据收集必须适应来自不同设备供应商的多种协议。在工业网络安全方面，入侵检测系统必须分析包含多种协议类型的大量网络流量。

工业通信领域明显缺乏通用语言，因为许多专有协议在不同系统之间仍然不兼容。因此，在系统集成过程中不可避免地需要进行协议转换。通常，技术人员必须手动配置协议参数、执行数据映射并调整转换规则。或者，工程师根据通信规范开发专用的协议转换程序，以确保异构系统之间的数据传输和解释的准确性。这些方法本质上效率低下且泛化能力差。工业协议逆向工程技术提供了一种创新解决方案：无需依赖协议文档，它可以通过监控和分析网络输入/输出、系统行为以及协议实体的命令执行流程来提取语法结构、语义信息和同步机制。这项技术不仅能够解析和破译工业通信协议，还为设备互操作性提供自动化支持。通过逆向工程分析，开发人员还可以进一步识别潜在的安全漏洞，从而优化系统设计。

协议逆向工程技术主要可以分为两类：基于程序的方法和基于网络追踪的方法。前者研究网络通信实体的指令序列，而后者研究捕获的网络流量。我们仅关注基于网络追踪的方法，因为在大多数情况下，控制系统程序是不可用的。

协议逆向分析中的一个关键任务是协议消息状态标注。消息状态标注的核心研究目的是重建和理解协议的状态逻辑，提高协议逆向工程的准确性和自动化程度，并为后续的协议分析、安全测试和仿真奠定基础。Maxim等人[1]首次研究了状态机注释，并引入了用于状态标注的聚类技术。图1展示了一个简化的OPC UA客户端的状态机，描绘了从建立连接、处理请求到最终断开连接的完整状态转换序列。

与传统的IT文本格式协议相比，工业控制协议大多是二进制格式的序列。由于大多数工业协议由TCP协议封装，一些消息同时包含二进制和文本。文本格式协议的功能可以通过关键字（例如GET、POST）推断出来，而二进制字段则需要对其编码方案进行推测，这通常取决于供应商特定的白皮书，并且在不同协议之间存在显著差异。此外，文本格式协议的字段边界可以通过分隔符清晰确定，而二进制格式协议在字段和协议层之间的划分则较为模糊。因此，传统的逆向工程方法在应用于工业控制协议时效果有限。

我们认为，解决工业协议数据固有挑战的关键在于开发专门针对其独特特性的建模方法。从根本上说，工业协议通信可以表示为离散消息实体的时间相关网络，其中单个消息被抽象为节点，时间依赖边基于时间戳间隔阈值构建（例如会话连续性、命令-响应关系）。这种基于图的建模方法与图神经网络（GNN）的时空建模优势天然契合。利用消息传递机制，GNN不仅可以聚合相邻消息节点的语法特征，还可以沿时间边传播协议状态信息，从而在统一框架内捕捉消息内容和交互时机的共同演化。因此，采用GNN能够有效地对复杂的协议序列进行建模，并支持协议逆向工程中的高级任务，如协议消息状态标注。

然而，传统的GNN网络结构在建模工业协议序列时也存在挑战。在工业生产环境中，时钟抖动和网络延迟等因素会导致消息时间间隔的动态变化。时间差异较小的两个消息更有可能属于同一事务链，而时间上接近的消息更可能反映相同的状态上下文（例如连续的温度传感器读数变化很小）。传统的基于硬阈值的方法[2]、[3]难以量化时间相关性的强度差异。为了解决这个问题，我们建议在GNN中引入模糊隶属函数，建立从“完全相关”到“可能相关”和“不相关”的渐进式隶属关系。这使得GNN在消息传播过程中优先聚合时空相邻的消息特征，使特征表示更符合设备的实际操作规则。为了减轻动态工业环境中的噪声干扰（例如突然的警报）并区分时间上相邻的消息中的不同流（例如控制流和监控流），我们使用注意力得分来评估消息的语义一致性。这种注意力得分与时间得分结合形成复合权重系数，有效减少了由单一维度权重确定引起的误判。

总之，我们提出了一种基于模糊逻辑的图聚合方法——模糊图注意力网络（FGAT），专门用于标注工业协议状态。我们的方法有效地建模了工业协议消息之间的复杂关系，并能够高效地标注它们的各种状态。通过将工业协议消息数据映射到基于时间阈值的图结构中，我们更准确地捕捉了消息内容和交互时机的共同演化。在邻域信息聚合过程中，我们利用注意力机制和模糊隶属函数为相邻节点分配自适应权重，进一步增强了消息间相关性的表示。我们的主要贡献如下：

•
我们将工业协议通信分解为包含离散消息实体和时间依赖边的图结构。这种架构使得协议状态信息能够沿时间边传播，从而在统一框架内建模消息内容和交互时机的共同演化。此外，我们根据数据集的结构特征实现序列截断，这在优化计算复杂性的同时很大程度上保持了算法的准确性。
•
为了解决工业环境中常见的动态时间间隔变化，我们设计了一个高斯时间加权模糊隶属函数，在GNN邻域聚合过程中优先考虑时空相邻的消息。该机制通过集成Transformer衍生的注意力得分得到进一步增强，有效减轻了噪声干扰并区分了语义流。
•
通过对多种工业流协议数据集的全面测试，我们的方法已被验证能够在工业网络流量上进行有效的状态标注。与其他聚类模型和协议消息状态标注方法的比较实验表明了我们提出方法的优越性。

本文的其余部分组织如下。第2节回顾相关工作。第3节介绍初步内容。第4节详细描述FGAT方法。第5节讨论评估方法和实验结果。最后，第6节总结本文，讨论FGAT的局限性，并概述未来工作的方向。

图表示学习

实际上，许多数据集具有复杂的关系和依赖性，例如分子结构和社交关系。这些数据集通常具有复杂的拓扑结构，数据节点没有固定的顺序，经常以动态和多模态的形式出现。为了有效捕捉这些复杂的关系和依赖性，提出了图数据结构。图数据结构由节点和边组成，其中节点代表数据实体，边表示

提出的模型

在本节中，我们将详细讨论提出的FGAT。首先介绍用于建模协议数据包的数据预处理程序。然后讨论模型组件的详细架构，并阐述如何使用该模型进行工业协议消息状态标注。

实验

本实验是在我们自主研发的多协议工业通信平台（图8）上进行的，该平台集成了各种工业控制器（例如施耐德Modicon M200、西门子S7-1500和三菱iQ-R04CPU）以及边缘计算节点，以生成多种类型的流量。我们使用了ProfiShark这一便携式网络监控工具来捕获实时网络流量，而不会干扰时序行为。

结论

在这项工作中，我们提出了FGAT，这是一种基于注意力机制的模糊逻辑聚合图神经网络，用于解决工业网络协议逆向工程中消息状态标注的挑战。FGAT包括一个模糊逻辑模块和一个注意力模块。模糊逻辑模块计算节点消息之间的时间相关得分，注意力模块推导出内在的特征相关得分。这两个指标形成复合权重，通过这些权重图神经网络

CRediT作者贡献声明

周伟康：撰写——原始草稿、可视化、验证、软件、方法论、数据整理、概念化。马光福：撰写——审阅与编辑、资源获取、形式分析。周楠：撰写——审阅与编辑、项目管理、方法论、调查、资金获取、数据整理、概念化。梁晓军：资源获取、资金获取。高存年：撰写——审阅与编辑、验证。邓文峰：资源获取、调查。杨春华：

利益冲突声明

所有作者均未披露任何相关关系。

致谢

本工作部分得到了广东省科技计划（授权号：2024B0101010003）、国家自然科学基金（授权号：62203240）和鹏城实验室重大重点项目（授权号：PCL2025A13）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献片段

相关工作

图表示学习

提出的模型

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行