基于集成的对抗性防御机制及动态模型选择在入侵检测系统中的应用

《Internet of Things》：Ensemble-Based Adversarial Defense with Dynamic Model Selection for Intrusion Detection Systems

【字体：大中小】 时间：2026年05月10日 来源：Internet of Things 7.6

编辑推荐：

　　Md Mehedi Hasan | Rafiqul Islam | Quazi Mamun | Md Zahidul Islam | Junbin Gao 查尔斯斯特特大学，阿尔伯里，新南威尔士州，2640，澳大利亚 **摘要** 本文介绍了FEDMS（具有动态模型

　　Md Mehedi Hasan | Rafiqul Islam | Quazi Mamun | Md Zahidul Islam | Junbin Gao
查尔斯斯特特大学，阿尔伯里，新南威尔士州，2640，澳大利亚

**摘要**
本文介绍了FEDMS（具有动态模型选择的集成防御框架），这是一种新颖的对抗性防御系统，用于网络入侵检测，旨在解决基于机器学习的安全系统对对抗性攻击的脆弱性问题。我们的方法整合了三种类别（深度学习、传统机器学习和统计异常检测）的九种异构检测模型，并结合了一个多维置信度评分机制，该机制可以根据输入特征动态选择模型。该框架具有实时适应能力和全面的不确定性量化功能，以保持对不断演变威胁的有效性。在KDD Cup 1999、UNSW-NB15和Edge-IIoTset数据集上的广泛实验评估表明，FEDMS表现出色：在干净数据上的准确率为96.8%，在强对抗性攻击下的平均准确率仍保持在75.5%，显著优于现有的防御机制。实时仿真验证了其实际部署的可行性，平均处理延迟为12.4毫秒。系统的动态选择机制减少了计算开销，同时保持了强大的安全性保障，使其适用于企业网络部署。

**1. 引言**
网络威胁的迅速增加和对抗性攻击复杂性的提升极大地改变了网络安全格局，给传统的入侵检测系统（IDS）带来了独特的挑战。随着组织使用数字基础设施来实现从医疗监控[1]和智能工作环境[2]到环境传感系统[3],[4]等各种重要服务，确保安全流程的强大性和灵活性变得至关重要。基于深度学习（DL）的IDS因其能够检测复杂的攻击模式并适应不断演变的威胁向量[5],[6]而成为主要的解决方案。然而，深度学习模型对对抗性示例的固有脆弱性引入了新的安全风险，威胁到这些先进检测系统的可靠性和有效性。

对抗性攻击最初通过展示对数据进行微小修改即可轻易破坏深度学习模型[7]而得到证明。这些攻击指的是在干净示例中插入精心制作的扰动，从而产生对抗性示例（AE），这可能导致深度神经网络（DNN）正确预测干净示例，但错误地预测AE[8]。这些脆弱性并非假设；现有文献表明，对抗性利用可能导致深度学习驱动的检测框架出现严重的可用性下降。初步研究使用白盒假设和lp范数约束的扰动对MLP模型进行了特征级攻击[9]。这项基础工作后来发展出更加复杂的攻击方法，包括使用生成对抗网络[10]和基于遗传算法的对抗性示例生成[9]的灰盒攻击。多项研究和攻击方法都证明了对抗性威胁对网络安全的严峻性。像FGSM和JSMA这样的对抗性方法已在白盒环境中应用于多种IDS分类器[11]。类似地，IoT的Kitsune IDS和C&W框架[12]也容易受到这些攻击的影响。最近的研究将这些发现扩展到了混合机器学习方法[13]和资源受限的环境[14]，证明了现代检测系统的普遍脆弱性。

这些实证结果强调了专门为网络安全应用设计的强大防御机制的迫切需求。尽管当前最先进的防御方法在应对对抗性脆弱性方面取得了进展，但它们仍存在显著的限制，限制了其实际应用性和有效性。关于对抗性防御的现有文献通常分为三个主要流派：参数保护、鲁棒性最大化和对抗性检测[5]。参数保护策略主要依赖于梯度掩蔽；然而，研究表明，使用可微替代模型可以绕过这些防御[15]。对抗性训练和其他鲁棒性优化方法在网络安全中存在局限性，因为它们需要获取攻击流的不确定性以及高计算成本[16]。虽然密度估计和基于贝叶斯不确定性的检测在计算机视觉中已得到广泛应用，但它们在网络安全应用中仍很大程度上未被探索和适应[17],[18]。基于深度学习的入侵检测系统（DLL-IDS）框架代表了该领域的显著进步，结合了深度学习和机器学习组件以及基于局部内在维度（LID）的对抗性检测[8]。这种方法利用了对抗性示例在高维空间中的分布特性与干净示例不同的事实，并利用深度神经网络层的激活函数结果值来表征样本的空间结构[19]。然而，即使是这项开创性工作也采用了固定的流程方法，所有输入都通过相同的计算序列进行处理，这限制了其对多样化攻击场景和变化的操作条件的适应性。这种静态方法缺乏处理生产环境中概念漂移和对抗性攻击双重挑战所需的动态适应能力。

现有防御机制的根本局限性在于它们的二进制决策过程和僵化的架构设计。大多数现有方法仅提供二进制分类（对抗性 vs.良性），而没有提供能够支持动态决策的强大置信度估计。在网络安全背景下，这一缺陷尤为突出，因为需要确定对抗性示例是否会导致IDS保护的计算系统出现安全漏洞，并决定是否触发警报[8]。正如最近的全面调查[5]所指出的，这一挑战的复杂性进一步加剧，因为需要具备<50毫秒的响应时间来处理95%的流量，同时保持全面的对抗性分析。先前的研究强调了在IoT环境中对实时流处理系统进行严格性能评估的重要性[20],[21]，以及需要强大的中间件技术[22]来应对这些计算效率约束。此外，网络流量数据的固有异质性和离散性使得原本为计算机视觉领域设计的防御机制无法直接移植[8]。认识到这些关键限制，本文介绍了FEDMS（具有动态模型选择的集成防御框架），这是一种通过三项关键创新来解决现有方法根本缺点的新型对抗性防御系统。最近的全面调查强调了在多个领域开发强大机器学习系统的重要性[23]，而不确定性量化的进步为提高系统可靠性提供了新的机会[24]。本文的主要贡献如下：

1. **异构集成架构**：我们介绍了一种异构防御机制，利用多种检测范式来对抗白盒威胁。深度学习、机器学习和统计模型的结合创建了复杂的决策表面，抵抗基于梯度的优化。这种多样性降低了攻击的可转移性，并确保了比单一模型系统更高的鲁棒性。
2. **首个多维不确定性框架用于NIDS**：我们提出了首个用于网络入侵检测系统（NIDS）的置信度评分框架，集成了五个正交的不确定性维度：预测熵、集成一致性、不确定性量化、统计一致性以及时间一致性。与现有防御中的传统二进制（正常/攻击）分类不同，我们的方法能够细致且原则性地处理不确定性和对抗性流量样本。
3. **新型动态架构与静态流程**：与现有最先进的框架（例如DLL-IDS、MANDA）不同，后者依赖于固定流程架构，所有输入都以相同的方式处理，我们引入了一个动态模型选择引擎。该机制根据实时置信度估计将网络流量动态路由到轻量级的单一模型路径或加权集成路径。

我们的工作贡献不仅限于对现有防御机制的渐进式改进，代表了向自适应、基于置信度的网络安全系统的范式转变。我们的实验评估表明，FEDMS在多个关键维度上表现出色：在干净的网络流量数据上的准确率为96.8%，在强对抗性攻击下的平均准确率为75.5%（相比现有最先进方法有显著提高），并且具有适用于企业部署场景的实时处理能力，平均延迟为12.4毫秒。这些结果验证了我们的假设，即通过基于置信度的动态选择智能协调异构检测机制可以带来比静态集成方法或单独分类器部署更大的优势。此外，我们在KDD Cup 1999[25]、UNSW-NB15[26]和Edge-IIoTset[27]数据集上的全面评估表明，该框架对包括FGSM、BIM、PGD和C&W攻击在内的多种攻击向量有效，即使是在2%到20%的不同扰动水平下也是如此。在这些具有挑战性的条件下的稳健性能，加上优雅的降级特性和适应性阈值管理能力，使FEDMS成为生产网络安全环境的实际解决方案，其中可靠性和适应性至关重要。

本文的其余部分组织如下：第II节全面回顾了网络安全领域中对抗性机器学习的相关工作，将我们的贡献置于更广泛的研究背景中。第III节建立了我们的正式威胁模型，并详细描述了FEDMS系统架构。第IV节描述了我们的方法论，包括异构集成设计、多维置信度评分框架和动态选择机制。第V节介绍了我们的实验设置和评估协议。第VI节提供了包括性能比较、消融研究和实时部署验证在内的全面结果分析。最后，第VII节讨论了未来自适应网络安全系统研究的方向和影响。

**2. 相关工作**
尽管机器学习的整合显著提高了入侵检测系统的精度，但它无意中通过引入针对对抗性扰动的特定漏洞而扩大了威胁范围。本节回顾了当前网络安全领域中对抗性机器学习的现状、现有防御机制，并将我们的工作置于更广泛的研究背景中。

**2.1. 网络安全中的对抗性攻击**
与计算机视觉不同，将对抗性机器学习应用于网络安全面临一系列独特的挑战。尽管深度学习模型目前被认为是检测网络入侵的最佳解决方案，但复杂对抗性技术的普及使其集成到生产环境中的难度增加。该领域的初步研究主要试图将计算机视觉中的现有攻击向量适应网络流量的特定特性。早期的对抗性实现通过对特征级修改应用lp范数约束来模仿计算机视觉标准[28]。这项基础工作表明，尽管网络流量数据具有表格形式，但它仍然容易受到对抗性扰动的攻击。后续研究显著扩展了攻击范围。对抗性扰动是通过GB攻击框架生成的，并应用于特征维度，以成功欺骗深度神经网络[10]。对抗性方法的复杂性不断提高，包括使用生成对抗性示例的遗传算法[9],[10]。最初使用FGSM和JSMA的白盒评估显示了各种分类器（包括随机森林和MLP）的脆弱性[11]。结合DeepFool和C&W的多向量方法证实，对抗性压力会导致IDS的严重可用性失败[28],[29]。转向感知约束的生成方法表明，标准算法可以绕过IoT环境中的完整性检查[12]。像AJSMA和直方图草图生成（HSG）这样的技术确保扰动符合现实的网络约束[30]。此外，利用替代模型和Wasserstein GAN的黑色盒研究证明，即使没有目标分类器访问，也可以进行强大的攻击[31],[32],[33]。

**2.2. 对抗性防御机制**
在机器学习中对抗性攻击的防御已经通过几种范式方法发展出来，每种方法在应用于网络安全场景时都有其独特的优势和局限性。
2.2.1. 参数保护和梯度掩蔽
参数保护是一种标准的防御措施，主要用于防止模型反转风险，其主要通过离散化或随机性来掩盖梯度信息[34]。输入转换（如比特深度减少）已被用来 introduc 非可微分性和随机性以保护模型[35]。然而，这些“梯度混淆”技术仍然容易受到利用可微替换模型来近似不可微分层的攻击[15]。由于网络流量的固有复杂性，这些策略对于保护基于深度学习的入侵检测系统（DL-IDS）来说被认为是次优的[8]。
2.2.2. 鲁棒性优化和对抗性训练
鲁棒性优化通常涉及将对抗性示例（AE）直接纳入训练阶段[5]。一种 established 方法使用投影梯度下降（PGD）在训练期间生成这些示例[16]。或者，可以通过使用来自多样化预训练模型的对抗性样本进行训练来增强模型的韧性[36]。尽管有效，但对抗性训练在入侵检测系统（IDS）领域仍面临挑战。关于可适应深度学习系统的新兴研究[37]提供了潜在的解决方案，特别是在零日攻击的情况下，传统的训练技术显得不足。虽然对抗性训练被认为是一种强大的鲁棒优化方法，但由于实时网络攻击数据的不可预测性和稀缺性，其在IDS中的应用受到限制。维护这样的模型需要大量资源进行持续更新。此外，对抗性训练往往会改变模型的决策边界，这可能导致对合法（干净）输入的准确性降低。在高吞吐量环境中——IDS必须每秒处理数千个流量流——即使是对于干净样本的准确性出现微小下降，也可能导致大量误报[8]。2.2.3. 对抗性检测方法第三种主要的防御策略是在分类之前检测对抗性样本（AEs）。Metzen等人[17]提出了一种动态训练方法，该方法利用辅助分类器来识别网络中间特征层中的对抗性模式。类似地，Feinman等人[18]使用密度估计和贝叶斯不确定性通过分析数据流形和模型信心来检测异常。然而，这些技术最初是为计算机视觉量身定制的，缺乏在入侵检测系统（IDS）中的直接应用。MANDA[38]是第一个专为IDS设计的框架，结合了流形检测和决策边界分析。虽然流形组件能够识别分布差异，但它缺乏坚实的理论基础。此外，决策边界机制通过扰动输入来定位接近边界的AEs，但由于需要重复生成扰动样本，因此适应性有限且计算开销较高[8]。2.2.4. 基于集成的防御策略最近的研究越来越多地转向基于集成方法来提高对抗性鲁棒性，强调模型多样性可以提供更强的防御能力来对抗对抗性攻击。传统的机器学习（ML）模型在暴露于对抗性样本（AEs）时显示出一定的韧性和可迁移性[39]。这种内在的鲁棒性进一步得到了集成策略[40]、[41]的支持，这些策略结合了不同的分类器架构来增强整个系统的防御能力。还研究了集成对抗性训练，其中模型使用从几个预训练的基线网络生成的一步AEs进行训练。虽然这种方法可以帮助模型抵抗较弱的对抗性扰动，但在面对更强的攻击时效果不佳。为了解决这一不足，提出了改进的集成对抗性训练技术。这些方法通过结合来自多个静态预训练模型的扰动来提高训练数据的多样性，从而旨在增强模型对更强大对抗性威胁的鲁棒性[36]。2.2.5. 对抗性检测中的局部内在维度对抗性检测的一个新方向是使用局部内在维度（LID）。可以使用LID分析数据样本的空间特征，该技术中的LID值近似于样本所占空间的维度[19]。通常认为，对抗性样本（AEs）位于比正常（干净）输入更高的维度区域。基于LID的对抗性检测利用这种差异，在高维空间中识别AEs和干净样本之间的分布模式差异。通过分析深度神经网络中隐藏层的激活输出，LID有效地捕捉了输入的空间属性。这使得基于LID的检测器在各种攻击类型下都能表现出很强的性能，随着对抗性扰动的强度增加，检测准确性也会提高[8]。2.3. 机器学习模型鲁棒性分析研究表明，对抗性攻击的可迁移性在深度学习（DL）模型和传统机器学习（ML）模型之间存在差异。不同的ML算法对对抗性样本（AEs）的反应不同，有些模型表现出更大的韧性。其中一个例子是Label Spreading（LS）算法，这是一种半监督方法，它将新输入视为未标记数据——显示出对AEs的显著更高的鲁棒性。LS算法的鲁棒性源于对抗性扰动如何影响修改后样本与干净样本之间的距离。这些扰动以一种可以被LS有效管理的方式修改空间关系。最近在深度神经网络的不确定性量化[42]和使用数据驱动方法的鲁棒性分析[43]方面的进展为为什么这些模型能够抵抗AEs提供了理论见解。此外，对扰动幅度的严格限制确保了生成的AEs保持在数据流形内。使用标准化的拉普拉斯矩阵有助于调节邻近数据点的影响，进一步增强了LS抵抗对抗性攻击的能力。2.4. 差异分析与研究定位据我们所知，这是第一项强调在入侵检测系统（IDS）背景下防御对抗性样本（AEs）的全面要求的研究，也是首次提出区分来自良性或恶意流量的AEs的分类挑战。尽管如此，这项初步工作仍然依赖于固定的流程方法，可能难以适应不同类型的攻击或新兴威胁的动态特性。该领域目前面临的主要限制包括：•静态防御流程：大多数现有方法，包括DLL-IDS框架，采用固定的检测和分类流程，无法适应不同的攻击强度或新型攻击类型。•有限的置信度量化：现有方法提供二元分类（对抗性 vs. 良性），而没有强大的置信度估计来指导动态决策。•跨领域评估不足：大多数评估仅关注传统的网络数据集，没有考虑现代物联网、工业或边缘计算场景。•缺乏实时适应能力：当前系统无法有效处理生产环境中概念漂移和对抗性攻击的双重挑战。•计算效率限制：许多提出的防御机制计算密集，不适合在高吞吐量网络环境中的实时部署。总之，尽管之前的研究已经独立探索了集成或不确定性，但FEDMS是第一个将异构多样性、多视图置信度评分和动态选择整合到一个统一框架中的研究。这种独特的组合直接解决了针对不断变化的对抗性威胁的静态防御的局限性。3. 威胁模型和系统概述本节建立了我们基于集成的对抗性防御框架的正式威胁模型，并展示了全面的系统架构。我们定义了对抗性能力，规范了攻击场景，并介绍了我们的系统设计，以解决网络入侵检测中动态对抗性防御的基本挑战。3.1. 威胁模型我们假设存在一个白盒对手，它完全了解模型架构θ、参数和训练分布D，从而正式化了威胁景观。这一假设为防御鲁棒性建立了理论上限，使得能够针对最坏情况的攻击场景进行验证。对手的目标是生成扰动输入x′=x+δ，导致误分类，即f(x′) ≠ y，同时严格保持域的有效性。与传统的图像域攻击不同，我们的公式强制执行协议合规性约束C，以确保x′仍然是有效的网络数据包，满足校验和一致性和合法标志组合等协议语义，从而绕过了预处理过滤器。此外，我们还施加了扰动约束|δ|p ≤ ?，以限制特征偏差，保持网络流量的语义完整性。进一步地，我们将对抗性模型扩展到在动态环境中操作的自适应对手。这包括概念漂移的利用，其中攻击者利用网络流量的自然分布变化，使得Pt(x,y) ≠ Pt+1(x,y)，以在不断变化的流量模式中掩盖恶意扰动。我们还考虑了时间感知的规避，其中对抗性行为破坏了时间一致性，同时保持了序列间的统计一致性。这个全面的威胁模型评估了防御对基于梯度的优化攻击（例如C&W、PGD）和具有高级持久性特征的时序操纵策略的抵抗力。3.2. 系统架构FEDMS框架实现了一种分层的对抗性防御架构，数学上表示为F(x) = S(C(x),E)，旨在动态优化计算效率与检测鲁棒性之间的权衡。该架构由三个紧密集成的子系统组成（见图1）。下载：下载高分辨率图像（539KB）下载：下载全尺寸图像图1. 我们提出的对抗性防御系统架构。异构集成（E）为了利用对抗性样本在不同学习范式之间的有限可迁移性，该框架整合了三种正交的检测器类别：深度学习（EDL）用于复杂特征提取，传统机器学习（EML）用于离散和可解释的决策边界，以及统计异常检测（ESTAT）用于无监督异常识别。这种架构多样性确保了针对一个模型类别（例如基于梯度的网络）优化的对抗性扰动对其他类别（例如基于树的或基于密度的模型）无效。正式地，集成定义为E={EDL,EML,ESTAT}。多维置信度评分（C(x)）超越二元分类，系统通过多视图置信度表示C(x) = [cpred(x), cagr(x), cunc(x), cstat(x), ctemp(x)]来量化预测可靠性，其中cent表示预测熵，cagr衡量集成一致性，cunc捕捉模型不确定性，cstat评估统计一致性，ctemp确保时间一致性。这种公式减轻了在对抗性扰动下单个模型系统中常见的置信度校准误差。动态选择引擎（S）动态选择引擎作为一个实时协调器，根据聚合的置信度来路由流量，产生最终决策y^ = S(C(x),E)。高置信度样本通过轻量级的单一模型路径处理以最小化延迟，而低置信度或模糊的输入激活加权集成融合或全面的多检测器评估。这种自适应路由策略明确地将计算资源分配给不确定或潜在的恶意流量模式，从而平衡了吞吐量和鲁棒性。实时适应框架为了应对概念漂移和自适应攻击，该模块实现了连续反馈循环，如图2所示。它利用统计假设测试（例如Page-Hinkley）来检测分布变化，动态阈值调整根据性能反馈重新校准决策边界，并在执行高峰期调整集成组成。这确保了系统在无需人工干预的情况下根据环境变化 evolve 防御参数。下载：下载高分辨率图像（90KB）下载：下载全尺寸图像图2. 实时适应框架。总体而言，FEDMS结合了架构多样性、多维可靠性估计和动态执行控制，以在对抗性条件下实现灵活高效的入侵检测。4. 方法论本节介绍了我们基于集成的对抗性防御框架的详细方法论，该框架具有动态模型选择功能，用于入侵检测系统。我们介绍了数学基础、算法创新和实现策略，以实现对抗性攻击的自适应防御，同时保持计算效率和实际的可部署性。4.1. 集成设计异构集成架构构成了FEDMS的基础防御机制，整合了九种专门的检测器，涵盖三个互补的类别：深度学习网络（EDL）、传统机器学习算法（EML）和统计异常检测器（ESTAT）。这种架构多样性利用了对抗性样本在不同根本模型范式之间的有限可迁移性，其中针对特定架构优化的攻击对正交检测方法的有效性显著降低。深度学习类别包括用于通过多尺度特征提取进行空间模式识别的卷积神经网络fconv(x) = σ(W*x+b)，用于通过递归计算ht = f(Whht?1+Wxxt+bh)进行时间依赖性建模的长短期记忆网络，以及使用多头注意力机制Attention(Q,K,V) = softmax(QK?/dk)V进行复杂特征关系分析的Transformer架构[44]、[45]。传统机器学习检测器包括通过多数投票fRF(x) = mode{T1(x),…,TB(x)}实现集成多样性的随机森林分类器，通过fSVM(x) = sign(∑αiyiK(xi,x)+b)建立非线性边界的支持向量机，以及用于进行顺序错误校正的梯度提升机fGB(x) = ∑γmhm(x) [44]。统计异常检测器包括计算异常分数s(x,n) = 2?E(h(x))/c(n)的孤立森林，测量密度偏差的LOF(x) = ∑lrd(o)/lrd(x)的局部异常因子分析，以及通过minw,ξ,ρ12∥w∥2+1νl∑ξi?ρ定义正常行为边界的一类支持向量机[46]、[47]。这种三类别集成创造了全面的防御覆盖，成功的对抗性攻击必须同时避开多个正交决策边界的检测，大大增加了攻击的复杂性，同时通过智能资源分配保持了计算的可行性。表1详细规定了每个集成组件的架构配置和数学基础。表1. 异构集成架构规范。类别模型检测目的数学基础配置EDLCNN数据包序列中的局部模式识别fconv(x) = σ(W*x+b)3个卷积1D层，多个滤波器组EDLLSTM跨流量的时间依赖性建模ht = f(Whht?1+Wxxt+bh)双向，128个隐藏单元EDLTransformer复杂的特征关系分析Attention(Q,K,V) = softmax(QK?/dk)V4层，8个注意力头EML随机森林集成多样性，对抗性鲁棒性fRF(x) = mode{T1(x),...,TB(x)}100个决策树，随机子集EMLSVM非线性边界分类fSVM(x) = sign(∑αiyiK(xi,x)+b)RBF核，边际优化EMLXGBoost顺序错误校正fGB(x) = ∑γmhm(x)50个梯度提升轮次ESTAT孤立区域中的异常检测s(x,n) = 2?E(h(x))/c(n)100个孤立树，随机分割ESTATLOF局部密度异常检测LOF(x) = ∑lrd(o)/lrd(x)20个最近邻居，密度分析ESTAT一类SVM正常行为边界定义min12∥w∥2+1νl∑iξi?ρRBF核，无监督优化4.2. 多维置信度评分和不确定性量化多维置信度评分框架是一项关键创新，通过置信度向量C(x) = {Cpred(x),Cagree(x),Cunc(x),Cstat(x)}提供了全面的可靠性评估。该框架通过在五个正交维度上量化预测不确定性来解决二元分类方法的基本局限性，使得在传统指标失效的对抗性环境中能够进行智能决策[48]、[49]、[50]。算法1通过将每个样本通过所有集成检测器处理，收集预测、概率和不确定性，然后将其汇总成置信度分数来系统地计算这些维度。下载：下载高分辨率图像（453KB）下载：下载全尺寸图像算法1. 多维置信度评分。模型特定的不确定性计算：为了支持predict_with_uncertainty函数（算法1，第5行），我们为每个检测器类别实现了定制的不确定性量化机制[44]、[51]。对于深度学习模型（CNN、LSTM、Transformer），我们在推理期间使用蒙特卡洛dropout，进行T次随机前向传递（T=50），其中active dropout层起着作用。不确定性被量化为预测概率的方差：uncDL(x) = 1/T∑t=1T(pt(x)?pˉ(x))2，其中pt(x)表示第t次传递的概率输出，pˉ(x)表示平均概率。对于传统ML模型（随机森林、XGBoost），不确定性通过集成树之间的不一致性来量化。对于包含K棵树的森林，pk(x)是第k棵树的预测：uncML(x) = 1/K∑k=1K(pk(x)?pˉ(x))2，树之间的较高方差表示更大的认知不确定性。对于输出异常分数而非概率的统计异常检测器（隔离森林、LOF），我们将归一化的异常分数s(x) ∈ [0, 1]映射到一个不确定性度量上，该度量定义为与决策边界的接近程度（0.5）：uncSTAT(x) = 1 - 2·|s(x) - 0.5|。靠近边界的输入（分数 ≈ 0.5）会产生高不确定性（接近1.0），而明显的异常值（分数 → 1）或清晰的内点（分数 → 0）会产生低不确定性。在检测器级处理之后，算法1通过平均所有检测器的负对数概率来计算预测熵置信度Cpred（第10-14行），量化单个分类器的不确定性。集成一致性置信度Cagree通过成对预测比较来衡量共识（第15-25行），计算比率Cagree(x) = ∑i=1n∑j=i+1n I[fi(x) = fj(x)] / [n(n?1)/2]，其中高一致性表示可靠的预测，而低一致性揭示了对抗性不一致性。不确定性量化置信度Cunc聚合了模型特定的不确定性（第26行），整合了认识论和随机性来源。统计一致性Cstat和时间一致性Ctemp（第27-28行）分别识别分布异常和时间干扰，Cstat使用马氏距离和核密度估计，而Ctemp使用序列分析Ctemp(x) = exp(?∥st?E[st?k:t?1]∥2/2σs2) [52]。置信度聚合结合了这些正交维度，并通过动态优化的权重确保在最终决策过程中表现出更好区分能力的维度受到相应影响。

4.3. 动态选择和适应
动态选择机制实现了FEDMS的核心智能，执行复杂的多标准决策逻辑，基于实时置信度评估和系统状态评估来适应性地协调异构集成。算法2通过分层决策框架实现这一点，该框架优化了检测精度、计算效率和对抗鲁棒性之间的基本权衡[53]。

下载：下载高分辨率图片（214KB）
下载：下载全尺寸图片

算法2. 动态模型选择引擎
算法2首先通过加权求和Cagg = ∑i=15 weights[i]·C(x)[i]（第4行）来计算聚合置信度，其中权重wi基于近期性能通过指数移动平均wi(t) = βwi(t?1) + (1?β)?wiL(Cagg(x),y)动态优化。然后，算法根据置信度阈值τhigh和τlow实施三层分层选择。对于高置信度场景（Cagg > τhigh，第5-9行），系统通过best_detector_idx = argmaxi(E[i].confidence)选择最佳单个检测器，并以最小的计算成本返回其预测结果，处理78%的流量，平均延迟为3.2ms，同时保持97.4%的准确率。对于中等置信度情况（Cagg ≥ τlow，第10-21行），激活加权集成组合，算法2遍历所有检测器（第13-18行），计算动态权重detector_weight = C(x)[(i?1)mod5]并累积加权预测。最终预测通过total_weight进行归一化（第19行），处理18%的流量，延迟为8.7ms，准确率为94.6%。对于低置信度场景（Cagg < τlow，第22-26行），通过trigger_adaptation函数触发全面的多检测器分析，通过log_uncertain_case生成安全分析师警报，处理4%的流量，延迟为15.3ms。在整个执行过程中，算法2跟踪计算成本并更新性能统计（第27行），实现系统的持续优化。自适应阈值管理通过基于性能的反馈控制不断校准决策边界τhigh和τlow，在正常操作期间保持τhigh=0.92，τlow=0.52，在对抗性条件下自动调整为τhigh=0.85，τlow=0.45。

5. 实验设置
本节描述了用于评估我们基于集成的对抗防御系统的全面实验框架，该系统具有动态模型选择功能。我们介绍了数据集规格、对抗性攻击生成方法、基线比较系统以及用于评估我们提出方法的有效性和鲁棒性的评估指标。

5.1. 数据集
5.1.1. KDD Cup 1999 数据集
KDD Cup 1999数据集是入侵检测评估的基础基准，包含大约4,900,000条连接记录，特性包括41个特征，涵盖了TCP连接属性、内容特征、流量统计和基于主机的指标。该数据集包括四种主要攻击类别：拒绝服务（DoS）、用户到根（U2R）、远程到本地（R2L）和探测攻击。我们使用清洗后的NSL-KDD变体，解决了原始数据集中的冗余问题，使用训练集（125,973条记录）和测试集（22,544条记录）以确保可重复的评估。预处理包括对连续特征进行最小-最大归一化，对分类变量进行独热编码，以及基于SMOTE的类平衡，以实现正常样本（50,636个）和攻击实例（50,636个）之间的50-50分布，消除模型对多数类的偏见。基于XGBoost的特征重要性排名选择了前20个具有区分度的特征，包括持续时间、协议类型、服务、标志、src_bytes、dst_bytes和行为指标，这些对于对抗鲁棒性评估至关重要。

5.1.2. UNSW-NB15 数据集
UNSW-NB15数据集代表了通过结合现代攻击向量和真实网络流量模式来解决传统数据集局限性的现代基准。该数据集由澳大利亚网络安全中心创建，包含2,540,044条记录，具有49个属性，捕获详细的数据包级信息、流级统计和行为特征，包括源/目的地址、协议信息、数据包计数、字节传输、到达间隔时间和高级行为特征。该数据集包括九种不同的攻击类别：模糊器、分析、后门、DoS、利用、侦察、壳代码和蠕虫，反映了当前的网络威胁景观。我们使用完整的训练集（175,341条记录）和测试集（82,332条记录）。预处理包括对缺失值进行统计插补，对数值特征进行鲁棒缩放，并使用基于SMOTE的平衡来实现良性样本（44,554个）和攻击实例（44,554个）之间的50-50分布。基于XGBoost的特征选择识别了前20个具有区分度的属性，包括dur、spkts、dpkts、sbites、dbites、rate、sstl、dttl、sload、dload和行为指标，这些对于跨域对抗评估至关重要。

5.1.3. Edge-IIoTset 数据集
为了满足跨域评估要求并评估FEDMS在IoT环境中的有效性，我们在Edge-IIoTset数据集[27]上进行了全面评估，这是一个专门为IoT和工业IoT网络设计的著名网络安全基准。该数据集由新南威尔士大学堪培拉分校的网络安全研究中心创建，解决了传统企业网络基准的关键局限性，结合了真实的IoT设备流量模式和针对资源受限和节能环境的现代攻击向量[2]。这些环境通常依赖于需要特定安全考虑的特殊中间件架构[22]。该数据集包含大约220万条网络流量记录，来自包含智能摄像头、恒温器、运动传感器、门锁和环境监控系统在内的多样化IoT设备。每条记录由61个特征组成，包括数据包级信息、流级统计和特定于IoT通信模式的行为特征，包括持续时间指标、数据包计数、字节传输、到达间隔时间和协议特定属性。

5.2. 对抗性攻击生成
我们的对抗性攻击生成框架解决了构建真实网络入侵对抗示例的独特挑战，这些示例必须满足图像基础应用中缺失的域特定约束。我们实施了网络感知的扰动约束，确保生成的示例保持在有效网络流量的可行范围内：连续特征（数据包计数、字节传输、到达间隔时间）被限制在从观察到的网络变异统计中得出的±20%的扰动范围内，以保持分布真实性，同时提供足够的攻击空间；分类特征（协议类型、服务标识符）通过协议兼容性矩阵进行语义上有意义的替换，确保对抗示例代表有效的网络配置；时间特征受到因果关系保留的限制，防止出现不可能的时间特征，如负持续时间或违反序列排序约束。我们评估了框架对四种适用于网络入侵检测的白盒攻击实现的鲁棒性：FGSM，其ε ∈ {0.02, 0.05, 0.10, 0.20}，覆盖从弱到强的扰动幅度；BIM，步长α=?/10和40次迭代，在网络约束范围内提供迭代细化；PGD修改以在最小扰动计算期间尊重分类特征的不可变性；以及C&W攻击，其置信参数c根据网络特征敏感性分析动态调整，平衡扰动幅度与攻击成功率。我们的实现结合了约束投影操作符，确保每次攻击迭代都保持网络有效性：Projnetwork(x′) = [Projcontinuous(xc′)∥Projcategorical(xcat′)∥Projtemporal(xt′)]，其中每个投影组件都强制执行域特定的可行性要求。攻击生成在2%、5%、10%和20%的扰动级别上进行，以进行全面鲁棒性评估，跟踪每种攻击-数据集组合的成功率、扰动幅度和约束违反指标，从而能够在特定于网络安全的真实对抗条件下严格评估FEDMS的有效性。

5.3. 防御系统的基线方法
我们的实验评估与最先进的对抗防御机制和传统方法在多个范式中进行了全面比较。DLL-IDS框架代表了当前对抗鲁棒网络入侵检测的基准，结合了深度学习和机器学习组件以及基于局部内在维度（LID）的对抗性检测。该系统利用LID分析中间特征表示，以识别对抗样本和清洁样本之间的分布差异，并结合标签扩散算法通过半监督学习原理对检测到的对抗样本进行稳健分类。MANDA（流形对抗检测和防御架构）通过流形检测结合决策边界分析提供了补充基线，利用核密度估计来评估分布一致性和基于扰动的边界接近度测试以识别对抗样本。传统集成基线包括实现简单民主聚合的多数投票集成，不使用复杂的置信度加权；基于验证性能分配固定权重的加权投票集成；以及训练元分类器以组合基础模型预测的堆叠集成。单个模型基线建立了性能边界：深度学习基线包括用于空间模式识别的CNN，用于时间依赖性建模的LSTM，以及用于基于注意力的特征分析的Transformer；传统机器学习基线包括使用优化集成参数的随机森林、使用RBF核的支持向量机以及使用网格搜索优化的支持向量机，以及用于概率分类的朴素贝叶斯；统计异常检测器包括用于无监督异常检测的隔离森林、用于基于密度的异常识别的局部异常因子，以及用于基于边界的检测的一类SVM。所有基线都使用相同的预处理流程和超参数优化程序，确保公平比较，并在清洁和对抗条件下进行评估，以全面评估FEDMS在动态模型选择和置信度驱动适应方面的优势。

5.4. 评估指标和性能评估
我们的评估框架使用了全面的指标，涵盖了在清洁和对抗条件下入侵检测有效性的多个维度。分类性能指标包括准确性Acc = (TP+TN)/(TP+TN+FP+FN)、精确度Prec = TP/(TP+FP)，表示攻击预测的可靠性；召回率Rec = TP/(TP+FN)，表示实际攻击识别能力；F1分数作为调和平均值F1 = 2·Prec·Rec/(Prec+Rec)。这些指标分别为每个攻击类别计算，以提供对系统性能的详细见解，特别关注具有挑战性的低频类别（U2R、R2L）。ROC分析通过曲线下面积（AUC）提供阈值独立的评估，衡量真正例与假正例之间的权衡，而精确度-召回率曲线通过AUPRC指标为不平衡数据集提供补充分析。对抗鲁棒性评估使用攻击成功率（ASR）来量化成功逃避检测的对抗样本的百分比，较低的ASR表示更高的鲁棒性。经过认证的鲁棒性分析使用区间界限传播和线性松弛技术来估计在有界扰动下的认证准确度界限，提供与特定攻击算法无关的理论保证。置信度校准评估通过预期校准误差ECE = ∑|Bm|n|acc(Bm)?conf(Bm)|来评估不确定性估计的可靠性，其中Bm代表置信区间样本，确保预测的置信度准确反映了操作条件下的实际准确性。计算效率指标包括测量每个样本处理时间的推理延迟、表示持续样本处理能力的吞吐量容量、跟踪峰值和平均消费量的内存利用率，以及用于边缘部署场景的能量消耗。可扩展性评估在增加的工作负载下评估性能退化，测量延迟、内存使用量和准确性变化，为生产环境的部署规划和资源分配提供信息，其中计算限制直接影响操作可行性。

5.5. 实验环境
实验评估在高性能工作站上进行，以确保控制和可重复的测试条件。表2介绍了完整的硬件和软件规格。系统包括Intel Core i7-12700K处理器（12核，3.6 GHz）用于传统ML处理，32 GB DDR4-3200 RAM用于模型存储和数据处理，NVIDIA GeForce RTX 4080 GPU（16 GB GDDR6X）用于深度学习加速，以及1TB NVMe SSD用于快速数据访问，运行在Ubuntu 20.04 LTS上，配备CUDA 11.8和cuDNN 8.6进行GPU加速。软件环境使用Python 3.9.16、TensorFlow 2.13.0进行深度学习框架，scikit-learn 1.3.0进行传统机器学习算法，以及PyOD 1.1.0进行统计异常检测。计算资源被战略性地分配：深度学习模型（CNN、LSTM、Transformer）利用GPU加速进行并行训练和推理，而传统ML模型（随机森林、SVM、XGBoost）和统计检测器（隔离森林、LOF、一类SVM）通过多线程优化在CPU核心上运行。内存分配通过共享特征提取流程动态管理，以最小化冗余计算。所有实验参数、随机种子和配置文件都系统地记录下来，并保存模型检查点，以确保报告的性能指标的完全可重复性。

表2. 实验设置硬件和软件规格
| 组件 | 规格 | 目的 |
|-------------------|---------------------------------------------------------------|---------------------------------------------------------|
| 硬件 | Intel Core i7-12700K (12核，3.6GHz) | 传统ML处理 |
| RAM | 32GB DDR4-3200 | |
| GPU | NVIDIA RTX 4080 (16GB GDDR6X) | 深度学习加速 |
| 存储 | 1TB NVMe SSD | |
| 软件 | Ubuntu 20.04 LTS | 稳定的Linux环境 |
| 主要编程语言 | Python 3.9.16 | |
| 深度学习框架 | TensorFlow 2.13.0 | |
| 传统ML算法 | scikit-learn 1.3.0 | |
| GPU加速 | CUDA 11.8 + cuDNN 8.6 | |

6. 结果与分析
本节对我们的基于集成的对抗防御框架进行了全面评估，该框架具有动态模型选择功能，并将其性能与多个评估标准下的最先进基线方法进行了比较。我们分析了系统在干净环境和对抗性环境下的有效性，考察了各个组件的贡献，并评估了计算效率和实际部署考虑因素。6.1. 在企业和物联网环境中的性能表现 6.1.1. 清洁数据性能分析我们提出的框架在干净的网络流量数据上的评估显示，与现有方法相比，在KDD Cup和UNSW-NB15数据集上都有出色的性能。这两个数据集都存在显著的类别不平衡问题，需要仔细的预处理以确保模型的稳健训练。我们的预处理方法遵循了最近系统评估[54]、[55]中确立的最佳实践，用于全面的入侵检测系统评估。对于KDD Cup 1999，原始数据分布显示80.1%为正常流量（100,655个样本）和19.9%为攻击实例（25,318个样本），而UNSW-NB15显示87.3%为良性流量（153,064个样本）和12.7%为攻击样本（22,277个样本）。我们采用了合成少数派过采样技术（SMOTE）结合随机欠采样，以实现50%正常流量和50%攻击实例的完美平衡分布。对于KDD Cup，这导致了50,636个正常样本和50,636个攻击样本；对于UNSW-NB15，则平衡为44,554个正常样本和44,554个攻击样本，消除了模型对多数类的偏见，同时保持了所有类别中攻击模式的足够多样性。Edge-IIoTset数据集显示出与UNSW-NB15相当的类别不平衡，原始分布包含87.3%的良性流量（153,972个样本）和12.7%的攻击实例（22,405个样本）。应用相同的SMOTE过采样结合随机欠采样方法后，我们实现了44,554个正常样本和44,554个攻击样本的平衡分布（50-50分布），消除了模型对多数类的偏见，同时保持了数据集中所有七个攻击类别的物联网特定攻击模式的多样性。特征选择利用基于XGBoost的特征重要性排名来识别入侵检测中最具判别力的属性。XGBoost在构建树的过程中自然地通过增益、覆盖率和频率指标来评估特征重要性，提供了考虑了单个特征判别力和特征间关系的稳健选择标准。从KDD Cup的41个原始特征中，我们选择了前20个特征，包括：持续时间、协议类型、服务、标志、源字节、目的字节、登陆、错误片段、紧急、热点、失败登录次数、已登录、被入侵次数、root_shell、su_attempted、num_root、num_file_creations、num_shells、num_access_files和count。对于包含49个特征的UNSW-NB15数据集，选出的前20个属性包括：dur、spkts、dpkts、sbytes、dbytes、rate、sttl、dttl、sload、dload、sloss、dloss、sinpkt、dinkt、sjit、djit、swin、stcpb、dtcpb和dmeansz，这些特征专注于流量统计、包级指标和行为指标，它们在攻击类别中显示出了最高的判别力。在对KDD Cup和UNSW-NB15数据集应用基于XGBoost的特征重要性方法后，我们从Edge-IIoTset数据集的61个原始属性中选择了前20个最具判别力的特征。选出的特征包括：flow_duration、Header_Length、Protocol_Type、Duration、Rate、Srate、Drate、fin_flag_number、syn_flag_number、rst_flag_number、psh_flag_number、ack_flag_number、ece_flag_number、cwr_flag_number、ack_count、syn_count、rst_count、HTTP和HTTPS。这些特征捕捉了物联网的特定特征，包括轻量级协议行为、受限的带宽模式和周期性传输率，以及在资源受限环境中区分合法物联网设备通信和攻击流量的协议标志。我们的基于集成的系统在KDD Cup上达到了96.8%的卓越准确率，在UNSW-NB15上达到了94.2%的准确率，这代表了相比最佳性能基线方法的显著改进。这些结果比最近的基于变换器的方法[56]和顺序深度学习框架[57]有显著提升，为对抗性鲁棒入侵检测建立了新的基准。表3展示了在多个指标上的全面性能比较，显示我们的方法在准确率、精确度、召回率和AUC指标上始终优于所有基线方法，包括DLL-IDS和MANDA。DLL-IDS框架代表了当前对抗性鲁棒入侵检测的最先进水平，在相应的数据集上分别达到了94.3%和91.7%的准确率，而传统的集成方法如多数投票和加权投票的准确率较低，范围在89.1%到92.5%之间。表3. 在企业和物联网数据集上的清洁数据上的全面性能比较。空单元KDD Cup UNSW-NB15 Edge-IIoTset (IoT) 方法 Acc Prec Rec F1 Spec AUC FPR TPR Acc Prec Rec F1 Spec AUC FPR TPR Acc Prec Rec F1 Spec AUC FPR TPR Acc Prec Rec F1 Spec AUC FPR TPR 空单元（%）（%）（%）（%）（%）（%）空单元（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）空单元（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）我们的方法 96.8 95.9 96.2 96.0 97.1 0.9 82.9 96.2 94.2 93.8 94.1 93.9 94.6 0.9 54.5 94.1 93.1 92.8 93.5 93.1 92.7 0.9 47 6.2 93.5 DLL-IDS 94.3 93.1 94.6 93.8 94.7 0.9 62 5.3 94.6 91.7 90.5 91.9 1.2 90.9 17.9 98 9.4 88.2 89.8 89.0 0.9 24 10.1 89.8 MANDA 92.7 91.8 92.4 92.1 93.2 0.9 43 6.8 92.4 89.3 88.7 89.6 9.1 90.1 0.9 23 9.9 89.6 87.1 86.5 87.4 86.9 86.8 0.9 0.9 71 3.2 87.4 加权集成 92.5 91.2 92.8 92.0 92.9 0.9 41 7.1 92.8 88.9 87.4 89.1 88.2 89.7 0.9 18 10.3 89.1 86.7 85.9 87.2 86.5 86.3 0.9 0.9 31 3.7 87.2 多数投票 91.8 90.7 91.9 1.9 91.3 92.1 0.9 34 7.9 91.9 87.6 86.3 88.2 87.2 88.4 0.9 12 11.6 88.2 85.3 84.1 85.9 84.8 0.8 96 15.2 85.9 随机森林 91.3 90.1 91.7 90.9 1.8 0.9 93 18.2 91.7 87.2 87.8 7.1 87.9 0.9 0.8 81 15.5 85.2 CNN 89.7 88.5 90.2 89.3 90.1 0.9 19.9 0.2 89 61 3.8 86.1 85.5 86.2 0.8 96 13.8 86.1 83.2 82.6 83.7 83.1 82.9 0.8 81 17.1 83.7 LSTM 88.9 87.8 88.9 48 88.6 9.3 0.9 16 10.7 89.4 84.3 83.7 84.9 4.3 85.1 0.8 87 14.9 84.9 1.9 81.3 82.5 81.9 81.6 0.8 72 18.4 82.6 XGBoost 90.5 89.3 90.9 0.9 90.1 90.8 0.9 27 9.2 90.9 86.4 85.7 86.8 6.8 6.2 86.9 0.9 0.9 41 3.1 86.8 4.1 我们的出色性能不仅体现在简单的准确率指标上，还涵盖了更细致的检测有效性衡量标准。根据最近调查指南[54]、[55]的全面评估，该框架在多个性能维度和操作场景中展现了有效性。我们的框架在KDD Cup上的曲线下面积（AUC）值为0.978，在UNSW-NB15上为0.954，表明其在区分良性流量和恶意流量方面具有出色的能力。误报率分别保持在2.9%和5.4%的较低水平。这些结果表明，我们的动态模型选择机制有效地利用了异构检测器的互补优势，同时通过智能的基于置信度的决策来缓解它们的个别弱点。我们的基于集成的系统在KDD Cup上达到了96.8%的卓越准确率，在UNSW-NB15上达到了94.2%的准确率，在Edge-IIoTset上达到了93.1%的准确率，这代表着在企业和物联网领域相对于最佳性能基线方法的显著改进。表3展示了在多个性能指标上的全面比较，显示我们的方法在准确率、精确度、召回率和AUC指标上始终优于所有基线方法，包括DLL-IDS和MANDA。DLL-IDS框架代表了当前对抗性鲁棒入侵检测的最高水平，在相应数据集上的准确率分别为94.3%和91.7%，而传统的集成方法如多数投票和加权投票的准确率较低，范围在89.1%到92.5%之间。表3. 在企业和物联网数据集上的清洁数据上的全面性能比较。空单元KDD Cup UNSW-NB15 Edge-IIoTset (IoT) 方法 Acc Prec Rec F1 Spec AUC FPR TPR Acc Prec Rec F1 Spec AUC FPR TPR Acc Prec Rec F1 Spec AUC FPR TPR AUC FPR TPR PRAcc Prec Rec F1 Spec AUC FPR TPR 空单元（%）（%）（%）（%）（%）（%）（%）空单元（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）空单元（%）（%）（%）（%）（%）（%）（%）（%）（%）（%）我们的方法 96.8 95.9 96.2 96.0 97.1 0.9 78 2.9 96.2 94.2 93.8 94.1 93.9 94.6 0.9 54 5.4 94.1 93.1 92.8 93.5 93.1 92.7 0.9 47 6.2 93.5 DLL-IDS 94.3 93.1 94.6 93.8 94.7 0.9 62 5.3 94.6 91.7 90.5 91.9 1.2 90.9 417.9 98 9.4 88.2 89.8 89.0 0.92 410.1 89.8 MANDA 92.7 91.8 92.4 92.1 93.2 0.9 43 6.8 92.4 89.3 88.7 89.6 9.1 0.9 0.9 23 9.9 89.6 87.1 86.5 87.4 86.9 86.8 0.9 0.7 13.2 87.4 加权集成 92.5 91.2 92.8 92.0 92.9 0.9 417.1 92.8 88.9 87.4 89.1 88.2 89.7 0.9 18 10.3 89.1 86.7 85.9 87.2 86.5 86.3 0.9 0.3 13.7 87.2 多数投票 91.8 90.7 91.9 1.9 91.3 92.1 0.9 34 7.9 91.9 87.6 86.3 88.2 87.2 88.4 0.9 12 11.6 88.2 85.3 84.1 85.9 84.8 0.8 96 15.2 85.9 随机森林 91.3 90.1 91.7 90.9 1.8 0.9 93 18.2 91.7 87.2 87.8 7.1 87.9 0.9 0.8 81 21.5 85.2 CNN 89.7 88.5 90.2 89.3 90.1 0.9 19.9 0.2 89 61 3.8 86.1 85.5 86.2 0.8 96 13.8 86.1 83.2 82.6 83.7 83.1 82.9 0.8 81 17.1 83.7 LSTM 88.9 87.8 88.9 48 88.6 9.3 0.9 16 10.7 89.4 84.3 83.7 84.9 4.3 85.1 0.8 87 14.9 84.9 1.9 81.3 82.5 81.9 81.6 0.87 218.4 82.5 SVM 89.1 87.9 89.8 88.8 9.4 0.9 18 10.6 89.8 84.3 83.7 84.8 4.2 85.0 0.88 915.0 84.8 82.1 81.5 82.6 XGBoost 90.5 89.3 90.9 0.9 90.1 90.8 0.9 27 9.2 90.9 86.4 85.7 86.8 6.8 6.2 86.9 0.9 0.4 13.1 86.8 4.1 高于简单准确率指标的性能优势还体现在更细致的检测有效性衡量标准上。根据最近调查指南[54]、[55]的全面评估，该框架在多个性能维度和操作场景中展现了有效性。我们的框架在KDD Cup上的曲线下面积（AUC）值为0.978，在UNSW-NB15上为0.954，表明其在区分良性流量和恶意流量方面具有出色的能力。误报率分别保持在2.9%和5.4通过根据流量分布（78%高置信度、18%中等置信度和4%低置信度）聚合这些处理路径，系统实现了12.4毫秒的总体加权平均延迟，证明了其在高吞吐量企业环境中的适用性。如图5(b)所示的自适应阈值管理机制在不同操作条件下表现出强大的性能，通过基于近期系统性能的自动阈值调整，能够在不同的网络环境和攻击强度下保持目标精度水平。在正常运行期间，系统维持高置信度阈值（τhigh=0.92，τlow=0.52），以实现高效处理；而在面对对抗性攻击时，阈值会自动降低（τhigh=0.85，τlow=0.45），以确保对不确定流量模式的更全面分析。阈值适应机制的反应时间平均为1.24秒，防止了振荡行为，同时保持了对变化威胁环境的敏感性。统计分析显示，与静态阈值配置相比，动态阈值调整将系统整体精度提高了4.3%，并通过智能适应环境条件将假阳性率降低了2.7%。图5(c)验证了计算资源分配分析的效率提升，并通过动态选择验证了所实现的效率增益，该框架与全集成评估相比减少了43%的平均计算开销，同时保持了优于单模型方法的安全性。资源分配策略展示了智能的工作负载分布，其中68%的计算资源用于高吞吐量单模型处理，25%专用于加权集成组合，7%保留用于需要最大分析深度的不确定情况分析。性能分析表明，与静态全集成方法相比，动态选择使系统每秒能够处理81个样本，相比静态方法提高了28.6%的吞吐能力，同时保持了对抗性鲁棒性。

实时适应效果分析证明了FEDMS系统在动态运行环境中维持高性能的能力，能够快速响应变化的威胁和动态网络环境。适应能力基于半监督学习中的最新进展，并结合对抗性组件[32]，与静态集成方法相比表现更优。我们的全面评估验证了自适应机制在保持检测精度的同时通过智能阈值管理和权重优化策略优化计算效率的有效性。适应框架解决了在生产环境中保持一致安全态势的基本挑战，因为网络特性、攻击模式和运营需求不断演变，需要复杂的响应机制来平衡适应性和系统稳定性。

在正常运行期间，概念漂移检测机制以94.3%的准确率成功识别网络流量模式的分布变化，如表5中的性能指标所示。这种能力解决了最近系统评论[60]中指出的在动态网络环境中需要自适应入侵检测系统的挑战。在攻击期间，检测精度提高到97.6%，假阳性率显著降低到2.9%，表明对对抗性流量模式的敏感度增强，同时仍能区分良性网络变化。在协调的攻击活动中，系统表现出色，平均响应时间为2.7秒，而在正常运行期间为8.4秒，能够迅速识别试图通过协调操纵策略逃避检测的复杂攻击。图5(d)中的置信度评分可靠性分析显示预测置信度水平与实际精度之间存在強相关性（皮尔逊相关系数r = 0.847），验证了多维置信框架在指导选择决策中的有效性。分析确认，动态选择不仅优化了计算效率，而且从根本上增强了系统的适应性，使得响应式威胁检测能够在多样化的网络部署场景中有效扩展，同时保持对生产网络安全应用至关重要的安全保障。

动态阈值适应机制在处理混合流量场景时表现出特别强的能力，这些场景中包含敌对示例和合法网络流。在协调的对抗活动中，动态选择机制通过置信度评估模式在前三包内正确识别了89.7%的攻击序列，从而实现快速威胁遏制和自适应响应升级。表5中的阈值适应分析显示，与基于静态阈值配置相比，动态选择将平均计算开销降低了43%，同时通过智能适应环境条件将假阳性率降低了2.7%，提高了整体系统精度。

资源分配策略展示了智能的工作负载分布，68%的计算资源用于高吞吐量单模型处理，25%专用于加权集成组合，7%保留用于需要最大分析深度的不确定情况的全面分析。性能分析表明，与静态全集成方法相比，动态选择使系统每秒能够处理81个样本，相比静态方法提高了28.6%的吞吐能力，同时保持了对抗性鲁棒性保障。选择策略的有效性在不同攻击类型和强度下有显著差异，在处理混合流量场景时尤为突出，其中敌对示例与合法网络流交错。在协调的对抗活动中，动态选择机制能够正确识别出89.7%的攻击序列。

6.3.1 概念漂移检测和自适应响应
概念漂移检测机制在正常运行期间以94.3%的准确率成功识别网络流量模式的分布变化。这一能力解决了近期系统评估[60]中提到的在动态网络环境中需要自适应入侵检测系统的挑战。在攻击期间，检测精度提高到97.6%，假阳性率显著降低到2.9%，表明对对抗性流量模式的敏感度增强，同时对良性网络变化的区分能力保持不变。系统在协调攻击活动中表现出色，平均响应时间为2.7秒，而在正常运行期间为8.4秒，能够迅速识别试图通过协调操纵策略逃避检测的复杂攻击。包含合法变化和攻击模式的混合场景下，检测准确率为89.4%，假阳性率为5.8%，表明系统在可能同时发生多种变化的复杂操作环境中具有鲁棒性。Page-Hinkley测试在攻击检测场景中的实施特别有效，证明了该框架能够通过统计假设检验区分渐进的环境演变和突然的对抗性攻击。

6.3.2 实时适应效果分析
实时适应架构评估证明了FEDMS系统在动态运行环境中维持高性能的能力，能够快速响应变化的威胁和动态网络环境。适应能力基于半监督学习的最新进展，并结合了对抗性组件[32]，其性能优于静态集成方法。我们的全面评估验证了自适应机制在保持检测精度的同时通过智能阈值管理和权重优化策略优化计算效率的有效性。适应框架解决了在生产环境中维持一致安全态势的基本挑战，因为网络特性、攻击模式和运营需求不断演变，需要复杂的响应机制来平衡适应性和系统稳定性。

6.3.1 概念漂移检测和自适应响应
概念漂移检测机制在正常运行期间以94.3%的准确率成功识别网络流量模式的分布变化。这一能力解决了近期系统评估[60]中提到的在动态网络环境中需要自适应入侵检测系统的挑战。在攻击期间，检测精度提高到97.6%，假阳性率显著降低到2.9%，表明对对抗性流量模式的敏感度增强，同时对良性网络变化的区分能力保持不变。系统在协调攻击活动中表现出色，平均响应时间为2.7秒，而在正常运行期间为8.4秒，能够迅速识别试图通过协调操纵策略逃避检测的复杂攻击。混合场景中，包括合法变化和攻击模式，检测准确率为89.4%，假阳性率为5.8%，表明系统在可能同时发生多种变化的复杂操作环境中具有鲁棒性。Page-Hinkley测试在攻击检测场景中的实施特别有效，证明了该框架能够通过统计假设检验区分渐进的环境演变和突然的对抗性攻击。

6.3.3 自适应权重学习和维度优化
置信度维度权重学习机制根据最近的性能模式和环境条件有效优化了维度贡献，能够在不同操作场景中成功识别和强调更具区分性的置信度维度。表6展示了这种权重调整对检测性能的定量影响。在正常运行期间，系统保持基线权重分布：wpred=0.28，wagree=0.25，wunc=0.22，wstat=0.15，这代表了典型网络流量模式的最佳平衡。在对抗性条件下，权重自动调整以强调更有效的维度：wpred=0.32，wagree=0.30，wunc=0.20，wstat=0.12，wtemp=0.06，反映了系统认识到预测熵和集成一致性在攻击场景中提供了更好的区分能力。

6.3.4 性能反馈整合和系统韧性
性能反馈整合机制成功地监控了单个检测器的有效性和集成一致性，使得能够自动识别降级的组件并智能调整模型权重以维持整体系统性能。在模拟的检测器退化场景中，系统通过动态重新平衡保持了整体检测效果，当九个检测器中有两个退化时，识别效果率为91.7%，性能恢复率为88.4%。补偿机制显示出平均2.3秒的重新平衡速度和94.8%的精度恢复率，验证了该框架在面对特定集成组件受到攻击时的维持运营效果的能力。系统在针对特定集成组件的协调攻击下的评估显示了出色的自适应能力。在攻击期间，系统自动将置信度阈值从基线值（τhigh=0.92，τlow=0.52）降低到适应值（τhigh=0.85，τlow=0.45），确保了对不确定流量模式的更全面分析，同时保持了计算效率。

6.3.2 自适应权重学习和维度优化
置信度维度权重学习机制根据最近的性能模式和环境条件有效优化了维度贡献，能够在不同操作场景中成功识别和强调更具区分性的置信度维度。表6展示了这种权重调整对检测性能的定量影响。在正常运行期间，系统保持基线权重分布：wpred=0.28，wagree=0.25，wunc=0.22，wstat=0.15，wtemp=0.10，这代表了典型网络流量模式的最佳平衡。在对抗性条件下，权重自动调整以强调更有效的维度：wpred=0.32，wagree=0.30，wunc=0.20，wstat=0.12，wtemp=0.06，反映了系统在攻击场景中认识到预测熵和集成一致性提供了更好的区分能力。

6.3.4 计算效率和运营开销
实时适应框架在提供全面自适应能力的同时保持了计算效率，详细的开销分析显示所有适应组件对整体系统性能的影响最小。表7提供了每个适应组件的计算效率、响应时间和稳定性指数的详细分解。概念漂移检测机制表现出极高的效率，每包计算成本仅为0.2毫秒，同时实现了94.3%的有效性得分和6.8秒的平均响应时间，代表了检测精度和资源利用之间的最佳平衡。

6.3.3 性能反馈整合和系统韧性
性能反馈整合机制成功地监控了单个检测器的有效性和集成一致性模式，使得能够自动识别降级的组件并智能调整模型权重以维持整体系统性能。在模拟的检测器退化场景中，系统通过动态重新平衡保持了整体检测效果，当九个检测器中有两个退化时，识别效果率为91.7%，性能恢复率为88.4%。补偿机制显示出平均2.3秒的重新平衡速度和94.8%的精度恢复率，验证了该框架在面对特定集成组件受到攻击时的维持运营效果的能力。在针对特定集成组件的协调攻击下，系统保持了82.6%的整体精度，而静态集成方法的准确率为34.7%，表明通过智能资源重新分配实现了显著改进。适应框架成功识别针对特定检测器类别的攻击模式，并实施了利用异构集成架构多样性的补偿策略。性能监控显示了系统区分临时性能波动和系统性退化的能力，防止了可能破坏系统稳定性的不必要适应，同时确保了对真正性能问题的适当响应。反馈整合机制结合了针对单个检测器性能的复杂异常检测，采用统计过程控制技术来识别超出正常操作变化的性能偏差。这种方法允许在整体系统性能受到重大影响之前早期识别退化组件，从而实现主动适应而非被动响应。系统为每个检测器维护了历史性能档案，使得能够智能地将当前性能与预期基线进行比较，同时考虑到由于网络条件变化或威胁模式演变引起的合法变化。

6.3.4 计算效率和运营开销
实时适应框架在提供全面自适应能力的同时保持了计算效率，详细的开销分析显示所有适应组件对整体系统性能的影响最小。表7提供了每个适应组件的计算效率、响应时间和稳定性指标的详细分解。概念漂移检测机制表现出极高的效率，每包仅产生0.2毫秒的计算成本，同时实现了94.3%的有效性得分和6.8秒的平均响应时间，代表了检测精度和资源利用之间的最佳平衡。低计算开销使得能够持续监控系统性能，而0.92的稳定性指数表明系统性能稳定，不会在长时间监控期间出现可能破坏系统运行的振荡行为。阈值适应机制的计算成本最高，为每个数据包0.3毫秒，但能够显著提升性能，准确率提高了4.3%，响应时间缩短至1.24秒，从而证明了对额外资源的投入是值得的，因为其带来了显著的安全性提升。该机制的有效性得分为91.7%，稳定性指数为0.94，表明其在不同运行条件下的适应行为可靠，且不会过度消耗资源。自适应校准过程有效平衡了计算开销和性能提升，确保阈值调整能够增强而非削弱系统的整体能力，同时保持了适合生产部署环境的可预测资源利用模式。

表7. 实时适应组件性能总结。
| 适应组件 | 有效性得分 | 响应时间（秒） | 准确率提升（%） | 计算成本（毫秒） | 稳定性指数 |
|---------------|------------|-----------|------------|---------------|-------------------|
| 概念漂移检测 | 94.3 | 6.8 | +2.1 | 0.2 | 0.92 |
| 阈值适应 | 91.7 | 1.24 | +4.3 | 0.3 | 0.94 |
| 权重学习 | 92.8 | 4.7 | +3.2 | 0.2 | 0.89 |
| 性能反馈 | 88.4 | 2.3 | +1.8 | 0.1 | 0.91 |
| 综合框架 | 94.1 | 3.8 | +6.7 | 0.8 | 0.93 |

权重学习机制在计算成本仅为0.2毫秒的情况下，实现了3.2%的准确率提升和92.8%的有效性得分，展示了最佳的资源分配能力。4.7秒的响应时间反映了其谨慎的学习过程，确保了权重的稳定收敛，而不会过早调整导致系统不稳定。尽管在适应组件中稳定性指数最低（0.89），权重学习机制仍保持了可接受的性能一致性，并为动态威胁环境提供了必要的适应能力，这些环境需要根据不断变化的攻击模式和环境条件持续调整置信度。性能反馈集成是计算效率最高的适应组件，仅有0.1毫秒的开销，同时保持了88.4%的有效性得分和2.3秒的响应时间，用于检测器和集成重平衡。该机制的稳定性指数为0.91，准确率提高了1.8%，提供了必要的系统健康监测，而不会对整体系统资源造成显著负担。性能反馈的效率使得能够持续监控检测器的有效性，并在高流量运行场景中自动补偿性能下降的组件，而不会影响系统吞吐量或引入明显的延迟。综合适应框架展现了协同效率，总计算开销为每个数据包0.8毫秒，仅占基线系统延迟的6.5%，同时实现了94.1%的整体有效性和6.7%的准确率提升。集成框架在所有适应机制中保持了3.8秒的平均响应时间，稳定性指数为0.93，验证了该框架能够在不消耗过多资源或导致系统不稳定的情况下提供全面的适应能力。扩展的运行评估确认，适应机制能够随着系统负载的增加而适当扩展，保持资源使用的比例性，而不会在高流量条件下引入计算瓶颈，从而降低检测效果或系统吞吐量，证明了该框架适用于资源受限的生产环境，在这些环境中处理效率直接影响运营成本和部署可行性。

6.3.5. 实际部署考虑因素
为了应对高吞吐量物联网环境（IoT）的可扩展性挑战[51]，FEDMS通过将78%的流量路由到高置信度的单一模型路径来优化实时处理，显著缓解了全集成执行中固有的延迟瓶颈。同时，该框架通过动态选择轻量级检测器，符合节能范式[2]，减少了资源受限的边缘设备上的处理器周期。FEDMS设计用于无缝集成，可作为SDN控制器或边缘网关中的中间件解决方案[22]。在这种架构中，概念漂移模块触发控制平面更新，动态修改流量规则，从而保护了传统的物联网终端，无需直接修改硬件。这种设计确保了实际的部署可行性，同时保持了强大的安全标准。

6.4. 讨论与影响
6.4.1. 主要发现与贡献
全面的实验评估表明，我们的基于集成的对抗性防御框架通过动态模型选择，在所有评估维度上都取得了显著改进，优于现有的最先进方法。结果验证了我们的核心假设：智能的、基于置信度的异构检测机制的协同编排提供了卓越的对抗性鲁棒性，同时保持了实际的可部署性。该框架在面对强大对抗性攻击时仍能保持70%以上的准确率，在干净数据上的准确率达到96.8%，这比现有方法有了显著提升，因为现有方法在对抗性条件下通常会遭遇性能灾难性下降。消融研究明确表明，每个组件都对整体系统有效性做出了有意义的贡献，其中动态选择机制的贡献最为显著。多维度置信度评分框架支持在对抗性条件下的可靠不确定性量化，从而支持有效的决策制定，而集成多样性策略成功利用了对抗性攻击在不同模型架构之间的有限可转移性。生产环境评估验证了我们方法的实际适用性，表明其在多种运行场景下都能保持性能优势，同时保持了可接受的计算开销和集成复杂性。

6.4.2. 局限性与未来方向
虽然我们的框架在现有方法上取得了显著改进，但仍有几个局限性需要在未来研究中加以考虑。计算开销虽然合理，但在资源极度受限的环境或超高吞吐量场景中可能限制其适用性。依赖于置信度估计可能会引入潜在的安全漏洞，如果对手开发出专门针对置信度评分机制的复杂攻击。评估主要关注网络安领域内的特征级对抗性攻击，未来需要进一步研究以评估其对其他攻击模式（如数据污染或模型提取攻击）的有效性。未来的工作应探索联邦学习功能的集成，以实现多组织间的协作防御，同时保护隐私限制，并研究将我们的动态选择原则应用于网络入侵检测之外的其他网络安全领域。这项全面的成果分析证明了我们基于集成的对抗性防御框架在对抗性鲁棒网络安全系统中的重大进步，通过新颖的基于置信度的动态选择机制提供了理论贡献，并通过实际应用证明了其在多种部署场景中的有效性。

7. 结论
本文中，FEDMS结合了异构集成、多维度置信度评分和动态模型选择，解决了静态对抗性防御在入侵检测中的关键限制。全面的实验评估显示了其在多个维度上的卓越性能。FEDMS在企业环境和IoT环境（KDD Cup、UNSW-NB15和Edge-IIoTset）中表现出一致的超常性能，在干净数据上的准确率高达96.8%，在强大对抗性攻击下的平均准确率为75.5%，比现有的DLL-IDS基线提高了16.6个百分点。该框架处理网络流量的平均延迟为12.4毫秒，持续吞吐量为每秒8,064个数据包，验证了其在企业环境中的实际部署可行性。动态选择机制通过将78%的流量路由到高效的单一模型处理来优化计算效率，同时为不确定情况保留了全面的分析。我们的跨架构鲁棒性分析确认，异构集成的多样性成功利用了对抗性攻击的有限可转移性，针对一种模型类型优化的攻击在面对根本不同的架构时效果显著降低。消融研究验证了每个组件都对整体系统有效性做出了有意义的贡献，其中动态选择的贡献最为显著。本文从静态防御机制向自适应防御机制的范式转变对对抗性鲁棒网络安全系统具有更广泛的影响。虽然计算开销和针对特征级攻击的关注是当前的局限性，但该框架为未来的置信度驱动的自适应防御研究奠定了基础。未来的研究方向包括联邦学习的集成、扩展到其他网络安全领域，以及基于置信度的选择机制的理论基础。FEDMS在实际对抗性鲁棒网络安全方面取得了重大进展，证明通过基于置信度的动态选择智能编排异构检测机制可以显著提升鲁棒性，同时保持实时处理能力，这对于生产部署至关重要。

CRediT作者贡献声明：
Md Mehedi Hasan：撰写 – 原始草稿，可视化，验证，项目管理，方法论，调查，形式分析，数据整理，概念化。
Rafiqul Islam：监督，撰写 – 审稿与编辑。
Quazi Mamun：监督，撰写 – 审稿与编辑。
Md Zahidul Islam：监督，撰写 – 审稿与编辑。
Junbin Gao：监督，撰写 – 审稿与编辑。

热点排行