VulDeNoise:通过异常值检测减少标签噪声,从而提高漏洞检测的准确性

《ACM Transactions on Software Engineering and Methodology》:VulDeNoise: Outlier Detection to Reduce Label Noises for Effective Vulnerability Detection

【字体: 时间:2026年02月08日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  提出VulDeNoise数据去噪框架,基于多视图学习理论,通过跨视图损失向量构建和异常检测算法识别漏洞数据集中的噪声标签,实验表明在Big-Vul和FFmpeg+QEMU数据集上可使GNN检测模型F1分数提升5-10%,效果优于现有方法并达到70%以上去噪准确率。

  
要查看此由 AI 生成的摘要,您必须具有高级访问权限。

摘要

摘要

尽管自动漏洞检测方法,尤其是使用图神经网络(GNN)的方法,已经显示出显著的前景,但其有效性往往受到常见漏洞数据集中大量标签噪声的限制。为了解决这个问题,我们提出了 VulDeNoise,一个创新的去噪数据集框架。我们的方法基于多视图学习理论,假设正确标记的样本在不同代码图表示中表现出一致的训练动态,而错误标记的样本由于内在的语义冲突而表现出显著差异。VulDeNoise 通过在三个代码表示图上分别训练目标检测器来实现这一点,为每个样本从其跨视图训练损失序列中构建损失向量,然后使用异常检测算法的集成来找到噪声实例。我们在四个著名的基于 GNN 的检测器(DevignDeepWukongReVEALIVDetect)上使用了 Big-VulFFmpeg+QEMU 数据集进行了广泛的实验。结果表明,使用 VulDeNoiseBig-Vul 数据集进行去噪后,这四个检测器的 F1 分数平均提高了 5-10%。在 FFmpeg+QEMU 数据集上的控制实验中,标签噪声以不同的比例合成添加,VulDeNoise 的去噪 F1 分数达到了 70%,证明了其在识别噪声标签方面的高效性。此外,VulDeNoise 的性能显著优于现有的去噪方法,如 Confident LearningDifferential Training,甚至超过了基于 大型语言模型(LLM)的审计方法。消融研究证实了我们设计的稳健性,表明三种代码表示的协同作用和精心选择的训练时长对于获得最佳性能至关重要。VulDeNoise 提供了一种有效的自动化解决方案,用于提高漏洞数据集的质量,为更可靠的基于深度学习的漏洞检测模型铺平了道路。

AI 摘要

要查看此由 AI 生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号