基于多源知识融合与大型语言模型推理的工业控制专用协议逆向工程
《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:Reverse Engineering for Industrial Control Proprietary Protocols Based on Multi-Source Knowledge Fusion and LLM Inference
【字体:
大
中
小
】
时间:2026年05月10日
来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
杨雅慧|耿阳阳|王沐峰|魏强中国河南省郑州市科学大道62号,信息工程大学网络空间安全学院,450000摘要工业控制系统(ICSs)是国家关键基础设施的核心,因此其安全性至关重要。然而,ICS设备中广泛采用的专有二进制通信协议缺乏公开规范,这给安全评估和漏洞发现带来了重大挑战。现有
杨雅慧|耿阳阳|王沐峰|魏强
中国河南省郑州市科学大道62号,信息工程大学网络空间安全学院,450000
摘要
工业控制系统(ICSs)是国家关键基础设施的核心,因此其安全性至关重要。然而,ICS设备中广泛采用的专有二进制通信协议缺乏公开规范,这给安全评估和漏洞发现带来了重大挑战。现有的协议逆向工程(PRE)方法通常存在语义理解有限和泛化能力较差的问题,主要是因为它们孤立地处理每个协议,未能利用工业控制协议(ICPs)中固有的结构和语义共性。为了解决这一问题,我们提出了ICCPPRAG框架,该框架将PRE问题转化为多源信息融合问题,并利用检索增强生成(RAG)技术。我们设计了一种结构感知的分割策略以保持协议字段的完整性,采用了两阶段检索机制来提高融合信息的相关性,并使用结构化提示模板引导大型语言模型(LLMs)进行精确的字段级推理。通过对六种实际存在的专有协议(Delta_P、Hollysys_P、Melsoft、UMAS-A、UMAS-B、Wago_P)的评估,我发现ICCPPRAG在字段分割方面的F1分数达到了0.67,在语义推理方面的F1分数达到了0.73,显著优于现有的最佳算法。此外,我们将推理结果集成到Boofuzz模糊测试框架中,成功生成了可被目标可编程逻辑控制器(PLCs)正确解析的测试用例,证明了这些融合知识的实用性。这项工作强调了多源知识融合在应对不透明工业通信协议带来的安全挑战方面的价值。
引言
工业控制系统(ICSs)广泛应用于电力生产、水资源管理和制造业等关键国家基础设施领域,它们的安全性直接关系到社会的稳定运行[1]、[2]。然而,许多ICS设备使用的是厂商专有的通信协议(如Delta_P、Hollysys_P和Melsoft)[3]。这些协议通常以紧凑的二进制格式传输数据,并且缺乏公开的规范文档,严重阻碍了安全评估和漏洞发现[4]。在这种背景下,协议逆向工程(PRE)已成为理解专有协议行为[6]、检测异常流量[7]和构建防御机制[8]的重要手段。
尽管出现了多种PRE方法,但现有技术仍然面临重大挑战。基于网络追踪的方法(如PI [9]、Netzob [10]和Discoverer [11])难以处理字段语义和复杂依赖关系。相比之下,基于程序分析的方法(如Polyglot [12]、AutoFormat [13]和Tupni [14])受到闭源环境的限制,自动化程度较低。尽管最近基于深度学习的方法(例如Wang等人[15]、Zhao等人[16]、FSIBP [17])能够识别一些字段边界,但它们通常缺乏外部知识指导,在跨协议泛化方面表现不佳——尤其是在样本稀少的实际专有协议场景中,它们的字段语义推理能力受到显著限制。更关键的是,现有方法将PRE视为一个孤立的解析或学习问题,普遍忽略了一个关键的前提:尽管实现方式不同,工业控制协议(ICPs)在消息层面上表现出深刻的结构同构性,通常包含长度、序列号和功能码等字段。这种共性为多源知识融合提供了天然的基础,但尚未得到充分挖掘。
在本文中,我们将工业控制专用协议逆向工程的挑战重新定义为多源信息融合和推理问题。我们认为,通过将一组已知且文档齐全的ICPs(例如Modbus、DNP3、S7comm)中的知识进行融合,可以创建一个丰富、结构化的知识库。然后,这个知识库可以通过跨协议类比推理来指导未知专用协议结构的推断。为了实现这一愿景,我们提出了ICCPPRAG,这是第一个基于检索增强生成(RAG [18])范式的工业控制专用协议逆向工程框架。ICCPPRAG的核心创新在于其以融合为中心的设计。首先,它通过融合来自不同已知ICPs的结构格式和语义注释来构建多协议知识库。其次,在分析未知专用协议时,它采用两阶段融合-检索机制来识别并整合该库中最相关的结构知识片段。第三,它利用融合增强生成过程,通过结构化提示引导大型语言模型(LLM [19])合成检索到的多源知识,并对目标协议数据进行逐步的类比推理。这种方法有效地创建了一个知识融合反馈循环,使系统能够逐步完善其理解能力。
我们系统地评估了ICCPPRAG在六种实际工业控制专用协议(Delta_P、Hollysys_P、Melsoft、UMAS-A、UMAS-B和Wago_P)中的有效性。实验表明,与Netzob [10]、FieldHunter [20]、BinaryInferno [21]和Netplier [22]等现有技术相比,ICCPPRAG在协议字段分割方面的正确性达到了0.75,完美度达到了0.60,F1分数达到了0.67。在语义推理方面,其平均F1分数达到了0.73,显著优于所有基线方法。此外,我们将推理结果集成到Boofuzz [23]模糊测试框架中,成功生成了可被可编程逻辑控制器(PLCs [24])正确解析的测试用例,从而验证了逆向工程结果的实际应用价值。
总之,本文的主要贡献可以总结如下:
1) 我们将ICP逆向工程重新概念化为一个多源知识融合问题,提出了一种新的融合增强生成框架(ICCPPRAG)用于跨协议知识传输。
2) 我们设计了一种结构感知的文本分割策略和两阶段融合-检索机制,用于构建和查询多协议知识库,有效克服了LLM的上下文限制并提高了信息的相关性。
3) 我们开发了针对协议融合分析的结构化提示模板,显著提高了LLM基于融合上下文知识的字段级推理的准确性。
4) 我们在多种实际专有协议上进行了广泛实验,证明了融合模型的优越性能,并通过与模糊测试框架的成功集成验证了其实际的安全应用。
本文的其余部分安排如下:第2节回顾相关工作。第3节介绍背景知识。第4节详细说明ICCPPRAG的系统设计。第5节展示实验设置和结果分析。第7节总结本文。
章节片段
相关工作
作为网络安全领域的一项关键技术,协议逆向工程(PRE)近年来受到了广泛关注。现有的PRE方法大致可以分为三类:基于网络追踪的方法、基于程序分析的方法,以及基于深度学习的最新数据驱动方法。本节从信息利用和整合的角度回顾了之前的PRE研究。
工业控制协议
ICPs在电力、制造和能源等行业的关键基础设施中得到广泛应用,负责在控制器(例如PLC)和主机计算机之间传输命令和状态反馈。与通用网络协议(例如HTTP、FTP)不同,大多数ICPs采用紧凑的二进制格式,并以明文形式传输。此外,许多协议是特定制造商专有的,缺乏公开的规范文档——例如Delta_P
系统设计
本节介绍了通过多源知识融合进行工业控制专用协议逆向工程的总体架构,同时讨论了架构中每个模块的具体设计方法。
评估
在本节中,我们详细评估了ICCPPRAG在推断工业控制专用协议结构方面的有效性。具体来说,我们解决了以下研究问题(RQs)。
RQ1: ICPRPAG在协议字段分割的准确性方面与其他最先进的协议逆向分析方法相比如何?
RQ2: ICPRPAG在字段语义推理的准确性方面表现如何?
RQ3: ICPRPAG的不同组件如何影响其
局限性和未来工作
我们的框架假设目标专用协议与已知的参考协议(例如Modbus、DNP3)在结构或语义上具有一些共性,从而实现了有效的类比转移。这一假设在许多工业环境中是成立的,因为厂商通常会自定义现有标准而不是从头开始设计协议。然而,当应用于架构截然不同的协议时,该方法可能会遇到挑战——例如,那些采用非线性协议的协议
结论
在本文中,我们通过将其重新定义为多源知识融合问题,解决了工业控制专用协议逆向工程这一关键且具有挑战性的任务。面对现有方法的局限性——特别是它们的孤立主义方法以及无法利用协议间的丰富共享结构知识的问题——我们提出了ICCPPRAG,这是一个基于RAG范式的新型框架,被解释为融合增强推理架构。
CRediT作者贡献声明
杨雅慧:撰写——初稿、软件、方法论、概念化。耿阳阳:撰写——审稿与编辑、方法论、资金获取、概念化。王沐峰:撰写——审稿与编辑、资金获取。魏强:撰写——审稿与编辑、资源协调。
利益冲突声明
作者声明他们没有已知的可能会影响本文报道工作的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号