答案就在其中：通过深度神经网络（DNNs）的固有特征来检测木马程序

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：The Answer Lies Within: Detecting Trojans from DNNs’ Inherent Characteristics

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　深度神经网络（DNN）易受木马攻击，传统检测方法依赖良性样本和耗时优化。本文提出DTIC方法，通过构建模型结构和参数的统一表示空间实现样本无关检测，并设计随机扰动和彩票假设增强策略，在IARPA TrojAI基准上验证其高效性和泛化能力。

刘旭超|曹琦|张凯科|苏杜|沈华为

中国科学院计算技术研究所，北京市海淀区中关村，100190，中国

摘要

深度神经网络（DNNs）容易受到特洛伊木马攻击，攻击者会植入特洛伊木马，使得DNN在遇到特定触发条件时行为异常。检测DNN中的特洛伊木马对于降低潜在的安全风险至关重要。传统方法通常采用触发条件反演技术，利用良性样本通过迭代优化来重构潜在的触发条件。然而，这些方法的实用性受到对良性样本的依赖以及极其耗时的优化的限制。在本文中，我们研究了一个更为普遍但更具挑战性的场景——无良性样本的场景，其中检测完全依赖于DNN本身。我们提出了一种新颖的方法，通过DNN的固有特征（DTIC）来检测特洛伊木马，该方法利用了被感染模型之间的可区分特征。DTIC通过从模型结构和参数两个角度出发的统一表示空间来描述各种DNN的特征，从而实现了对不同DNN的适应性。它只需要一次直接推理就能判断是否存在特洛伊木马，确保了高效性。我们进一步通过基于随机扰动的增强技术和彩票假设来提升特洛伊木马检测的性能。在广泛采用的基准测试IARPA TrajAI上进行的广泛实验证明了DTIC的优越有效性、高效性和泛化能力。

引言

随着深度神经网络（DNNs）的快速发展，它们已被广泛应用于各个领域，包括图像分类（Dosovitskiy等人，2021年）、面部识别（Deng等人，2019年）、物体检测（Redmon等人，2016年）等。同时，由于训练DNN所需的数据和计算资源需求显著增加，越来越多的用户选择使用公开可用的数据集或下载开源模型进行模型训练，这可能引入安全风险。攻击者可以通过污染训练数据（Gu等人，2017年；Jiang等人，2023年；Liu等人，2019年）或在开放平台上直接提供被感染的DNN（Bober-Irizar等人，2023年）来植入特洛伊木马。当输入中出现特定触发条件时，这些模型可能会做出错误预测，从而导致严重后果。例如，在自动驾驶中的交通标志识别中，恶意地误识别停车标志可能会危及用户的安全。

检测DNN模型中是否存在特洛伊木马对于避免潜在风险至关重要（Sun和Kolter，2023年；Wang等人，2024a）。现有的主流方法通常依赖于触发条件反演策略，利用一组良性样本通过迭代优化来生成潜在的触发条件（Cheng等人，2024年；Wang等人，2019年）。然后分析这些反演后的触发条件的统计特征以确定模型中是否存在特洛伊木马（Liu等人，2022年；Shen等人，2021年；Sun和Kolter，2023年）。这些方法的性能在很大程度上依赖于良性样本。随着良性样本数量的减少，这些方法的性能也会下降，如图1左侧所示。此外，触发条件反演中的迭代优化极其耗时，如图1右侧所示，限制了它们的实际应用。

在本文中，我们研究了一个更为普遍但更具挑战性的场景——无良性样本的场景，其中检测器只能访问被检测的DNN模型，而没有任何干净的图像样本。受到干净模型和被感染模型之间差异的启发（例如，参数被修改（Gu等人，2017年）或架构被修改（Bober-Irizar等人，2023年），我们致力于探索DNN的固有特征在特洛伊木马检测中的潜力。

然而，不同的架构和庞大的参数给基于DNN设计通用检测器带来了很大困难。为了解决这个问题，我们提出了DTIC，一种通过DNN的固有特征来检测特洛伊木马的新方法，该方法在统一的表示空间中表示各种DNN。DTIC从图的角度描述DNN，将操作视为节点，计算流程视为边。通过两阶段的参数聚合和结构感知的注意力机制，DTIC获得了统一的表示，使得能够训练出适应不同DNN的检测器。如图2所示，DTIC只需要一次直接推理就能判断是否存在特洛伊木马，确保了高效性。我们还设计了两种模型级别的增强策略，即随机扰动和彩票假设，以进一步提升特洛伊木马检测的性能。

我们的主要贡献可以总结如下：

•

我们研究了一个具有挑战性的特洛伊木马检测场景，即无良性样本的场景，仅关注被检测的DNN。

•

我们提出了一种从DNN的固有特征检测特洛伊木马的新方法，以及两种模型级别的增强策略。

•

在IARPA TrajAI（Karra等人，2020年）上进行的实验证明了DTIC的优越有效性和高效性。此外，DTIC在不同DNN模型和未见过的攻击中表现良好，具有很好的泛化能力。

检测器的能力

鉴于特洛伊木马攻击的不断演变以及获取良性样本的难度不断增加，我们面对了一个具有挑战性的特洛伊木马检测场景，其中检测器只能访问被检测的模型，且没有可用的良性样本。

任务定义

给定一个被检测的DNN模型

M

，我们的目标是开发一个检测器f(?·?)，该检测器以模型

M

作为输入，并输出一个概率

\hat{y}

，表示模型包含特洛伊木马的可能性。为了确保一致性，我们进行了标准化

方法

为了检测具有不同架构和庞大参数的模型，我们设计了一种DNN表示方法用于特洛伊木马检测，该方法同时捕获模型结构和参数以确定其是否包含特洛伊木马。

我们方法的框架如图3所示，包括多视图表示、通过结构和参数聚合的模型表示以及特洛伊木马检测。此外，我们还提出了两种模型级别的数据增强策略以进一步提升检测能力

实验

我们进行了广泛的实验来回答以下研究问题（RQs）：

•

RQ1： DTIC在不需要任何良性样本的情况下检测特洛伊木马的有效性如何？

•

RQ2： DTIC在不同模型结构和未见过的特洛伊木马攻击中的泛化能力如何？

•

RQ3： DTIC执行特洛伊木马检测的时间效率如何？

•

RQ4： DTIC的每个组成部分带来了什么作用？

•

RQ5： DTIC学习了哪些信息？

结论

在这项研究中，我们研究了一个更为普遍但更具挑战性的特洛伊木马检测场景，即没有任何良性样本的情况。通过利用干净模型和被感染模型之间的内在差异，我们提出了DTIC，一种从DNN的固有特征检测特洛伊木马的新方法。DTIC通过从模型结构和参数两者出发的统一表示来描述DNN。此外，通过基于随机扰动和彩票假设设计的两种模型级别增强策略

手稿准备过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT来润色文字和纠正语法错误。使用该工具/服务后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

CRediT作者贡献声明

刘旭超：撰写——初稿、软件、方法论、研究。曹琦：撰写——审阅与编辑。张凯科：撰写——审阅与编辑。苏杜：撰写——审阅与编辑。沈华为：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作