面向物联网环境的多尺度多上下文MobileNetv3恶意软件检测模型研究

《Array》：An automated multi-scale and multi-contextual MobileNetv3 for malware detection based on IoT

【字体：大中小】 时间：2026年01月21日 来源：Array 4.5

编辑推荐：

　　本研究针对传统恶意软件检测方法在检测精度和计算成本上面临的挑战，提出了一种新颖的MSMC-MobileNet模型。该模型基于MobileNetv3架构，集成了SE（Squeeze-and-Excitation）、ASPP（Atrous Spatial Pyramid Pooling）和FPP（Feature Pyramid Pooling）模块，以增强从字节流图像中提取多尺度和多上下文特征的能力。通过在公开的Malimg和MaleVis数据集上的评估，该模型在检测精度和计算效率方面均优于现有先进方法，为资源受限的物联网设备实现实时恶意软件检测提供了高效解决方案。

在当今高度互联的数字世界中，恶意软件（Malware）对计算机系统、网络和设备构成了持续且不断演变的威胁。从病毒、蠕虫到勒索软件和间谍软件，恶意软件的复杂性和隐蔽性日益增加，使得传统的检测方法，如基于签名的检测，难以应对尤其是零日（zero-day）和 polymorphic 等新型恶意软件变种。此外，深度学习模型虽然展现出强大的潜力，但其通常计算资源密集，难以在需要实时响应的物联网（IoT）等资源受限环境中部署。这构成了当前网络安全领域的一个核心挑战：如何在保证高检测精度的同时，将计算成本控制在可接受范围内。

为了应对这一挑战，研究人员将目光投向了一种创新的检测思路：将恶意软件的二进制内容可视化为图像（即字节流图像），并利用计算机视觉技术来分析这些图像中的模式。这种方法有望规避传统方法易受混淆技术干扰的弱点。然而，字节流图像分析本身也面临数据集需求大、 benign 与恶意模式难以区分以及高维图像数据处理带来的计算开销等问题。

在此背景下，由Sidra Javed、Guowei Wu、Hamza Javed、Osama A. Kashan、Haseeb Hassan和Anwar Ghani共同完成的一项研究，提出了一种名为MSMC-MobileNet（Multi-Scale and Multi-Contextual MobileNet）的新型恶意软件检测和分类模型。这项研究旨在解决准确性和计算成本之间的平衡难题，其成果已发表在《Array》期刊上。

研究人员为开展此项研究，主要应用了几项关键技术方法。首先，利用轻量级卷积神经网络架构MobileNetv3作为基础特征提取器。其次，引入了SE（Squeeze-and-Excitation）模块，通过注意力机制对通道特征进行重新校准，聚焦于关键信息。第三，整合了ASPP（Atrous Spatial Pyramid Pooling）和FPP（Feature Pyramid Pooling）模块，用于捕获多尺度和多上下文的特征信息，以更好地识别不同大小和结构的恶意软件模式。此外，还对ASPP和FPP模块进行了通道剪枝（Channel-wise Pruning）以降低计算复杂度。实验在公开的Malimg和MaleVis数据集上进行，并采用了预处理、数据增强和Dropout正则化等策略来提升模型鲁棒性。

研究结果

模型架构与特征提取增强

研究的核心是提出的MSMC-MobileNet模型架构。该模型对标准的MobileNetv3进行了改进，通过顺序集成SE、ASPP和FPP模块来增强其特征提取能力。SE模块（其标准架构如图2所示）通过“压缩-激励-重校准”操作，使模型能够关注通道维度上更重要的特征，抑制不重要的特征。ASPP模块（其标准架构如图3所示）利用不同膨胀率的空洞卷积并行处理特征图，从而捕获多尺度的上下文信息，这对于识别大小不一的恶意软件模式至关重要。FPP模块（其标准架构如图4所示）则通过在不同空间尺度上进行池化操作，聚合分层特征，提供对输入数据的全面表示。模型通过分析字节流图像中的模式（例如，加密文件部分对应的异常字节序列、代码注入导致的不规则字节变化、蠕虫自我复制产生的重复结构等）来链接特定的恶意行为，从而区分恶意软件与良性软件。

在基准数据集上的性能评估

研究在Malimg和MaleVis这两个公开的恶意软件图像数据集上对模型进行了全面评估。评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数（F1 Score）和AUC（Area Under the ROC Curve）。结果表明，在结合使用了预处理、数据增强和Dropout正则化后，MSMC-MobileNet模型取得了最佳性能。

在Malimg数据集上，模型达到了92.37%的准确率、96.54%的精确率、95.84%的召回率、95.47%的F1分数和98.59%的AUC。

在MaleVis数据集上，模型表现更优，准确率为95.08%，精确率为98.33%，召回率为97.9%，F1分数为98.15%，AUC为96.98%。

当将两个数据集合并形成一个更大的数据集时，模型性能进一步提升，达到了98.79%的准确率、99.84%的精确率、99.73%的召回率、99.89%的F1分数和1.00（即100%）的AUC。五折交叉验证的结果也证实了模型的稳定性和鲁棒性，平均准确率达到95.34%，平均F1分数为97.95%，平均AUC为99.07%。

消融实验验证模块贡献

为了验证各个模块的有效性，研究人员进行了系统的消融实验。实验从基线模型MobileNetv3开始，逐步添加SE模块、ASPP模块，最终形成完整的MSMC-MobileNet模型（包含SE、ASPP和FPP）。实验结果显示，每增加一个模块，模型在各项指标上均有显著提升。例如，在合并数据集上，基线MobileNetv3的准确率为87.95%，加入SE模块后提升至90.65%，再加入ASPP模块后达到95.42%，最终完整的MSMC-MobileNet模型取得了98.79%的准确率。这清晰地证明了SE、ASPP和FPP模块在提升模型特征提取能力和分类性能方面的关键作用。混淆矩阵也直观展示了模型在不同恶意软件家族上的分类效果。

与现有先进方法的比较

研究人员还将MSMC-MobileNet模型与多种现有的深度学习恶意软件检测方法进行了比较，包括SERLA、Jadeite、以及多种基于CNN（Convolutional Neural Network）的模型。比较结果表明，MSMC-MobileNet在准确率、精确率、召回率和F1分数等关键指标上均优于这些对比方法。特别是在合并数据集上达到的接近完美的指标，凸显了其卓越的检测性能。

研究结论与意义

本研究成功开发并验证了MSMC-MobileNet模型，一种高效、准确的恶意软件检测和分类解决方案。该模型通过巧妙地集成SE、ASPP和FPP等先进模块，显著增强了对恶意软件字节流图像中多尺度和多上下文特征的提取能力。大量实验证明，该模型不仅在检测性能上超越了现有先进方法，而且由于其基于轻量级的MobileNetv3架构并采用了通道剪枝等优化技术，保持了较低的计算成本。

这项研究的重要意义在于：首先，它为应对日益复杂和演变的恶意软件威胁提供了一种强有力的技术手段，特别是在检测零日和Polymorphic恶意软件方面展现出潜力。其次，模型的高效性使其非常适合部署在计算资源有限的物联网设备和其他边缘计算场景中，为实现实时、在线的恶意软件检测提供了可能。最后，研究所采用的多尺度、多上下文特征提取思路以及模型优化技术，对广义上的图像分类和网络安全研究也具有重要的借鉴价值。未来的工作可以集中于扩展数据集以进一步提升模型的泛化能力，并探索更先进的优化技术以适应更广泛的部署环境。

热点排行

新闻专题