面向5G网络入侵响应的多目标强化学习：原子/非原子并行与串行反制策略优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Networks》：Intrusion detection for low-altitude wireless networks: Diffusion-enhanced spatiotemporal graph network with dual self-attention

【字体：大中小】 时间：2026年03月21日 来源：Computer Networks 4.6

编辑推荐：

　　本文研究针对5G网络环境中，在实施入侵检测后如何高效选择反制措施（Countermeasures）的决策难题。该难题在于，采取反制措施虽可提升安全性，但同时会产生包括准备、部署时间在内的服务质量（QoS）成本。为此，研究人员创新性地建立了一个联合安全与时间的优化模型，不仅考虑反制措施的串行与并行部署，还区分了原子与非原子反制动作。通过证明该问题与带权集合覆盖问题（WSCP）的相似性，作者提出了两种基于学习的解决方案：多目标Q学习（MOQL）和深度Q学习（DQL）。通过大量基于5G安全项目数据集（来源：[36]）的仿真，研究验证了两种算法在权衡安全与QoS成本方面的有效性，为构建动态、自动化的入侵响应系统（IRS）提供了新的方法学支持。

在当今万物互联的5G时代，网络正以前所未有的深度融入社会生活与经济运行。从智能家居、无人驾驶汽车到工业4.0，各种服务与应用对网络的连通性和服务质量（QoS）提出了极高要求。然而，网络的开放性与服务的多样性也使其成为网络攻击的“靶场”。设备在网络间快速切换、与不同节点通信时，会暴露在访问控制、通信安全、数据机密性等一系列风险之下。为了守护这些宝贵的“网络资产”，网络安全管理系统通常遵循“识别-检测-响应”的流程。其中，入侵响应系统（IRS）作为最后的防线，需要在检测到攻击后，迅速、精准地启动“反制措施”（Countermeasures），例如部署安全补丁、过滤流量或重新配置节点。

但按下“警报”按钮后，一个关键而棘手的问题出现了：面对多种可用的反制措施，我们该如何选择？诚然，我们可以“火力全开”，对所有攻击都实施最强、最全面的反制，但这可能会让系统在漫长的准备和部署过程中“卡顿”，甚至中断正常服务，导致高昂的QoS成本。反之，如果只选择那些“短平快”的措施，又可能留下安全隐患，无法有效遏制攻击。这就像消防员面对一场复杂的火灾，是选择先疏散人群（可能耗时），还是先阻断火源（可能效果有限），必须做出权衡。因此，如何在确保安全的同时，最小化响应时间对服务质量的影响，成为5G网络入侵响应领域一个亟待解决的、具有内在冲突的多目标优化问题。

为了攻克这一难题，来自英国利兹大学的研究团队在《Computer Networks》上发表了一项开创性研究。他们没有将反制措施视为简单的、彼此独立的“开关”，而是更精细地建模了现实场景：有些措施必须一个接一个地执行（串行），有些则可以同时进行（并行）；有些是独立的单一动作（原子动作），有些则需要一系列步骤组合完成（非原子动作）。基于此，他们构建了一个全新的安全与时间联合优化模型。更关键的是，他们证明了该问题在数学本质上等同于经典的NP难问题——带权集合覆盖问题（WSCP），这意味着难以用传统方法快速求出最优解。

对此，研究团队没有依赖启发式或静态优化算法，而是大胆引入了人工智能前沿方法。他们提出了两种基于强化学习的创新解决方案：

1.
多目标Q学习（MOQL）方案：这是该领域的首次尝试，采用线性标量化的ε-贪婪方法，让系统能够同时学习优化安全收益和响应时间这两个相互竞争的目标。
2.
深度Q学习（DQL）方案：作为对比，研究者也设计了一个基于深度神经网络的方案，以处理更复杂的状态空间。

为了验证方案的有效性，他们没有使用模拟数据，而是采用了来自一个欧盟5G安全项目的真实攻击与反制措施场景数据集进行训练和测试。这使得研究成果更贴近实际工程应用。

在具体的研究路径上，论文首先在第2节“相关工作”中系统回顾了从启发式算法、图模型到机器学习在反制措施选择领域的应用，并指出现有研究在处理时序依赖、并行执行及安全-QoS联合优化方面的不足。随后，论文逐步展开其核心工作：

•
3. 系统模型：
- •
  3.1. 安全模型：定义了网络资产、攻击类型、反制措施等核心概念。引入风险因子（RF = 攻击严重性S(a) × 发生概率P(a)）来量化攻击威胁，并用应用反制措施c后RF的降低值ΔR_a(θ_c)来度量该措施的安全收益。通过构建攻击-节点-反制措施的三元关系矩阵，将“覆盖所有攻击”的问题形式化。
- •
  3.2. 时间模型：明确定义了反制措施的总时间T(θ_c)为准备时间T^pre与部署时间T^dep之和。并创新性地给出了在混合执行（部分串行、部分并行）模式下，一组选定反制措施的总耗时计算公式：T^Tot(Θ) = Σ_{（串行部分）}T(θ_c) + max_{（并行部分）}{T(θ_c)}。
•
4. 问题形式化与分析：
- •
  将最优反制措施选择明确表述为一个多目标优化问题（P1）：目标是最小化“总初始风险/已降低风险”的比值（即最大化安全收益）和归一化的总实施时间。约束条件是所有攻击必须被覆盖，且每个攻击只能由一个（原子或非原子的）反制措施处理。
- •
  通过数学推导，清晰论证了该问题与WSCP的相似性，从而揭示了其NP难的本质，为采用学习类算法提供了理论依据。
•
5. MOMDP与MOQL解决方案：
- •
  将反制措施选择过程建模为一个多目标马尔可夫决策过程（MOMDP），定义了状态（当前所有攻击及其RF）、动作（选择一组反制措施）和奖励函数（包含安全收益与时间成本两个分量）。
- •
  详细阐述了所提出的MOQL算法，其核心是学习一个能平衡多目标的状态-动作值函数。作为对比，也简要描述了DQL方案的基本框架。
•
6. 仿真结果：
- •
  通过大量仿真实验，评估了MOQL和DQL算法的性能。结果证实，两种学习算法都能有效学习到在安全与时间之间取得良好平衡的策略。
- •
  通过参数敏感性分析，探讨了不同网络规模、攻击数量、学习率等因素对算法性能的影响。
- •
  与一些基准方法（如纯安全最优、纯时间最优策略）进行比较，凸显了所提算法在权衡两者方面的优越性。
•
7. 结论：
- •
  研究团队总结了他们的核心贡献：首次为反制措施选择问题建立了同时考虑串行/并行、原子/非原子执行的统一安全-时间模型；将该问题形式化为一个联合优化问题并证明其与WSCP的相似性；首次提出了MOQL解决方案，并提供了DQL方案作为比较。
- •
  文章强调，所提出的框架可以作为一个智能模块集成到5G网络架构中，实现基于网络状态的自动化、实时化安全决策，为构建下一代自适应的网络安全防御体系提供了重要的理论与技术支撑。

总而言之，这项研究突破了传统入侵响应系统在决策优化方面的局限，通过引入多目标强化学习，为5G等复杂网络环境中安全与性能的“两难”抉择提供了动态、智能的解决思路。其采用的基于真实项目数据集的验证方式，也显著增强了方案的实际应用潜力，标志着自适应网络安全管理向更高水平的自主智能迈出了关键一步。

联系信箱：

粤ICP备09063491号

热点排行