一种新型的轻量级GBM模型,用于检测阿拉伯语垃圾信息,并结合了XAI技术以提高模型的可解释性

《Computers and Electrical Engineering》:A novel lightGBM model for arabic spam detection integrated with XAI for enhanced explainability

【字体: 时间:2026年03月01日 来源:Computers and Electrical Engineering 4.9

编辑推荐:

  本研究提出结合LightGBM与可解释人工智能(XAI)的阿拉伯垃圾邮件检测框架,通过SHAP和LIME量化模型可解释性,在压缩至20维的TF-IDF特征空间下实现93.01%准确率、94%精确率及93%召回率,验证了特征压缩与可解释性并重的有效性。

  
Mohamed Aly Bouke | Omar Imhemed Alramli | Alsadg Ahmed Albadwi Abdalhafid | Azizol Abdullah
马来西亚普特拉大学计算机科学与信息技术学院通信技术与网络系,Serdang 43400,马来西亚

摘要

阿拉伯语垃圾邮件检测面临技术挑战,这些挑战源于语言的多样性、特征稀疏性以及可解释分类系统的有限可用性。许多机器学习模型缺乏内在的可解释性,从而降低了决策的透明度。本研究提出了一种垃圾邮件检测流程,该流程将LightGBM与集成解释层相结合。通过嵌入SHAP和LIME来直接将可解释性纳入评估过程,以量化解释行为。该系统通过在压缩的特征空间中操作来针对阿拉伯文本数据的特征。从最初的100维TF-IDF表示中,选择了20个统计上最稳定的特征用于实验设计。在这种配置下,模型实现了93.01%的准确率、94%的精确度和93%的召回率,以及93%的F1分数,保持了精确度和召回率的平衡。与表现出非对称精确度-召回率行为的基线分类器相比,所提出的模型在阿拉伯文本上产生了稳定的分类性能。解释层使用一致性度量来评估,该度量衡量LightGBM特征重要性与归因分数之间的排名一致性。所得的一致性值(SHAP = 0.726,LIME = 0.3806)表明,SHAP解释与模型内部特征排名具有更高的排名一致性,而LIME捕捉到了更多的局部变化。研究结果表明,在特征减少的情况下,预测性能仍然可以得到保持,并且解释行为可以定量评估。

引言

垃圾邮件通常被理解为在互联网上传播的未经请求或无关的信息,它已经演变成一个普遍的问题,超出了单纯的烦恼范畴。最初仅限于电子邮件,垃圾邮件已经扩散到各种数字平台,包括社交媒体和消息应用程序。垃圾邮件的普遍性影响了用户体验,并构成了严重的网络安全威胁。恶意垃圾邮件可能携带恶意软件、网络钓鱼链接和其他有害元素,使得这个问题既令人烦恼又具有安全性风险[[1], [2], [3]]。
在这种背景下,当考虑阿拉伯语时,垃圾邮件检测的挑战变得更加严峻。阿拉伯语是一种复杂而丰富的语言,具有复杂的语法规则、众多的方言以及从右向左书写的文字系统。这些复杂性为垃圾邮件检测任务增加了多层难度。此外,阿拉伯语资源相对稀缺,特别是用于机器学习(ML)应用的标记数据集,这使得开发有效的垃圾邮件过滤器变得更加具有挑战性[[4], [5], [6], [7]]。在解决方案领域,人工智能显著改变了垃圾邮件缓解策略,其中ML算法发挥了关键作用。这些ML模型分析大量数据集中的模式,从而能够基于这些模式进行预测或决策[8,9]。
然而,针对阿拉伯语垃圾邮件的ML应用仍处于成熟阶段,需要专门的研究来适应和优化这些算法以应对阿拉伯语的复杂性[[10], [11], [12]]。到目前为止,重要的是要注意,ML模型的有效分类能力往往是以牺牲可解释性为代价的。这些模型,特别是像神经网络这样的复杂模型,经常因其“黑箱”性质而受到批评,其决策背后的逻辑仍然不清楚。在具有安全影响的情境中(如垃圾邮件检测),缺乏可解释性可能是一个关键缺点。了解为什么某条消息被归类为垃圾邮件对于开发更强大的安全协议可能非常有用[[13], [14], [15]]。
为了解决这个问题,可解释人工智能(XAI)作为一种关键方法出现,旨在提高ML模型的透明度、可理解性,最重要的是问责性。诸如Shapley加性解释(SHAP)和局部可解释模型不可知解释(LIME)等技术被用来解构ML模型的决策过程[16]。这些技术通过揭示对决策影响最大的特征,增强了人们对模型的信任,并为迭代改进提供了途径[[17], [18], [19]]。
因此,本文的主要目标是解决开发有效且可解释的阿拉伯语垃圾邮件检测ML模型的双重挑战。本文提出了一种新型模型,将Light梯度提升机(LightGBM)的预测能力与XAI技术提供的透明度相结合。这种集成方法旨在为阿拉伯语垃圾邮件检测设定新的标准,平衡准确性和可解释性。
本文的其余部分组织如下:第2节介绍研究目标。第3节回顾了垃圾邮件检测和可解释AI的相关工作。第4节描述了所提出的模型及其设计。第5节详细介绍了方法论,包括预处理、特征提取和评估程序。第6节报告了实验结果和比较分析。第7节总结了本文。

研究目标

基于前一节中概述的挑战,阿拉伯语垃圾邮件检测需要评估框架,这些框架同时考虑分类性能和可解释性[[5], [6], [7]]。许多现有研究强调预测准确性,而没有系统地测量解释行为。本研究采用联合评估视角,将可解释性视为模型评估的一个组成部分。为了应对这些挑战,本研究的目标是:
  • 开发
  • 文献综述

    阿拉伯语数字通信的迅速扩展加剧了垃圾邮件检测和阿拉伯语文本分类的研究。与资源丰富的语言不同,阿拉伯语自然语言处理必须解决形态学丰富性、方言多样性和正字法变异性问题,这些问题增加了特征稀疏性并使统计建模变得复杂。因此,阿拉伯语垃圾邮件检测研究与预处理、特征表示和数据集构建的进步密切相关。

    提出的模型

    本节描述了所提出的阿拉伯语垃圾邮件检测模型,如算法1所示。该模型结合了LightGBM [35,36]分类器和使用SHAP和LIME的集成可解释性。目标是构建一个在同一框架内评估预测性能和解释行为的分类流程。
    LightGBM的主要目标是最小化函数损失L。给定个数据点((x1,y1),(x2,y2),…, (xn,yn)),其中xi是特征,yi是标签,

    方法论

    该方法论遵循一个结构化的流程,旨在在两个并行目标下评估阿拉伯语垃圾邮件检测:预测性能和可解释性。整个研究框架如图1所示,包括数据准备、特征工程、模型构建、可解释性集成和评估。

    结果与比较

    模型有效性是通过系统基准测试来评估的,而不仅仅基于架构描述。所提出的LightGBM–XAI框架与LR、RF、SVM、KNN和MNB进行了多指标评估,以评估预测性能和可解释性。
    准确率被报告为一个总体性能指标,但由于类别不平衡,单独考虑准确率是不够的。因此,还包括了精确度和召回率以揭示非对称错误

    结论

    本研究引入了一个基于LightGBM的阿拉伯语垃圾邮件检测框架,该框架明确优先考虑稳定性、可解释性和特征效率,而不是原始维度。实验结果表明,在故意压缩的特征空间内可以实现有竞争力的分类性能。仅使用最初100维TF-IDF表示中的20个排名特征,所提出的模型实现了93.01%的准确率、94%的精确度和93%的召回率

    资金声明

    不适用。

    利益声明

    作者之间没有利益冲突。

    数据可用性声明

    本研究使用的数据集是公开可访问的,免费提供,来自Mendeley数据仓库,网址如下:https://data.mendeley.com/datasets/86x733xkb8/1。该数据已在本文的参考部分适当引用,以确保透明度并便于未来的学术研究。有兴趣复制或扩展本研究的研究人员可以无限制地访问这些数据。

    附加信息

    本文没有其他附加信息。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号