基于判别性TF-IDF信念规则库的垃圾邮件检测模型：一种面向小样本条件的高解释性解决方案

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：A spam detection model based on the discriminative TF-IDF belief rule base

【字体：大中小】 时间：2026年03月05日 来源：Scientific Reports 3.9

编辑推荐：

　　为应对新型垃圾邮件内容快速演变、早期标记数据稀缺导致现有模型泛化差、决策不透明的挑战，本研究提出了基于判别性词频-逆文档频率（TF-IDF）的信念规则库（DTI-BRB）检测模型。该方法将文本转化为低维判别性特征，有效避免了传统BRB模型的组合爆炸问题。在两个小样本案例中，该模型仅用200个样本就分别取得了91.5%和95.5%的准确率，展现出优异的预测性能和可解释性，为早期威胁检测与响应提供了新工具。

在数字通信时代，垃圾邮件如同网络空间的“牛皮癣”，其形态正以前所未有的速度“进化”。新型的钓鱼邮件、诈骗信息常常在爆发初期缺乏足够的标记数据，这让依赖海量数据进行训练的现代机器学习模型“巧妇难为无米之炊”。传统模型不仅在这种小样本（small-sample）条件下表现不佳，其决策过程更如同一个“黑箱”，研究者难以追溯误判原因，这使得它们在需要快速响应和明确归因的早期威胁预警场景中捉襟见肘。

信念规则库（Belief Rule Base, BRB）作为一种专家系统，天生具备在小样本条件下的有效学习能力，其基于规则的推理机制也带来了宝贵的决策可解释性。然而，传统BRB在处理文本这类高维特征时，极易陷入“组合爆炸”的困境——特征组合的数量呈指数级增长，导致模型构建和计算变得几乎不可能。为了解决小样本条件下的泛化性、可解释性与高维特征处理之间的矛盾，研究人员在《Scientific Reports》上发表了这项研究，提出了一种名为基于判别性TF-IDF的信念规则库（DTI-BRB）垃圾邮件检测新模型。

为了开展这项研究，研究人员主要运用了以下几个关键技术方法：首先，核心是提出了一种判别性词频-逆文档频率（Discriminative TF-IDF）方法，该方法能够评估词汇对区分正常邮件（ham）与垃圾邮件（spam）的判别能力，从而将原始高维文本数据转化为低维的判别性特征向量，从根本上避免了组合爆炸。其次，研究基于信念规则库（BRB）的专家系统框架构建检测模型，该框架能够将低维特征输入转化为具有不确定性的信念结构，并通过证据推理（Evidential Reasoning）机制进行综合决策。研究通过两个小样本案例（每个案例仅使用200个邮件样本）对所提模型的有效性进行了验证。

研究结果

案例研究验证有效性：通过两个独立的小样本案例研究，验证了DTI-BRB模型的性能。在仅使用200个训练样本的条件下，该模型在两个案例中分别达到了91.5%和95.5%的分类准确率，证明了其在数据稀缺情况下的卓越预测能力。

模型展示优秀预测性能：实验结果表明，与基线模型相比，DTI-BRB在有限的数据下实现了更高的准确率。具体而言，91.5%和95.5%的准确率显著优于某些依赖大规模数据的传统方法在小样本设定下的表现，突显了其高效利用有限信息的能力。

方法提供决策可解释性：由于模型基于信念规则库，其决策过程是透明的。每一封邮件的分类结果都可以追溯到是哪些判别性词汇特征触发了哪条规则，并以何种置信度（belief degree）支持该结果，这为分析误判原因和模型审计提供了清晰的路径。

研究成功解决组合爆炸：通过判别性TF-IDF方法进行特征降维，成功地将文本分类问题从高维稀疏空间映射到低维判别性空间。这使得后续的BRB建模得以进行，因为低维特征使得规则前提条件的组合数量控制在可计算范围内，从而解决了传统BRB模型应用于文本时的根本性障碍。

研究结论与讨论

本研究成功开发并测试了一种适用于小样本垃圾邮件检测的新型可解释模型——DTI-BRB。其核心贡献在于创新性地将判别性TF-IDF特征提取方法与信念规则库专家系统相结合。判别性TF-IDF方法有效克服了高维文本数据直接输入BRB所导致的组合爆炸难题，而BRB框架则赋予了模型在小样本条件下稳健学习以及决策过程透明可解释的双重优势。

该研究的重要意义体现在多个层面。在理论上，它提供了一种解决专家系统在处理高维数据时固有难题（组合爆炸）的有效思路，即通过设计具有强判别力的特征提取器进行降维，为可解释人工智能（Explainable AI, XAI）在复杂数据上的应用开辟了新途径。在实践上，该模型特别适用于网络安全、金融风控等标记数据获取成本高或早期样本稀少的领域，能够实现对新型威胁的快速、可解释的初始检测与响应。模型展示出的高准确率与可解释性，使其不仅能做出可靠预测，还能让安全分析师理解预测背后的“逻辑”，从而增强人类对人工智能系统的信任，并支持更高效的错误诊断与系统迭代。这项工作表明，将数据驱动的特征学习与知识驱动的推理系统相结合，是构建下一代既强大又可信的智能检测工具的一个 promising direction。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号