一种利用集成方法和可解释人工智能的智能钓鱼邮件检测系统
《Knowledge-Based Systems》:An Intelligent Phishing Email Detection System Using Ensemble Methods and Explainable AI
【字体:
大
中
小
】
时间:2026年01月25日
来源:Knowledge-Based Systems 7.6
编辑推荐:
phishing邮件检测系统研究提出基于集成学习与可解释AI的优化方案,通过特征工程与LIME误差分析,在Enron等三个数据集上实现训练时间降95%、推理降78%,验证集F1达0.9924,测试集准确率99.75%且AUC提升至0.9934,显著优于Transformer模型。
Riyaz Ahmed | Sumesh E P
机构:VIT-AP大学
地址:AP秘书处旁,Vijayawada附近,Guntur市,邮编522241,安得拉邦,印度
摘要
网络钓鱼邮件检测是网络安全的关键方面。网络钓鱼攻击变得越来越复杂和频繁。这突显了需要强大且可解释的检测系统来保护组织和个人。虽然现有的研究主要集中在提高准确率和F1分数等性能指标上,但还需要能够确保计算效率和模型可解释性的系统,以便在资源有限的环境中应用,实现更快的威胁检测并减少误报。本研究提出了一种基于机器学习的新型网络钓鱼邮件检测系统,该系统采用了集成方法,强调计算效率和模型可解释性。研究使用了公共数据集,包括Enron邮件数据集、SpamAssassin公共语料库和Nazario网络钓鱼语料库。邮件样本经过预处理、特征工程、特征选择和分类。此外,还进行了可解释人工智能(AI)分析,使用了局部可解释模型不可知解释(LIME)和预测误差分析。该系统在不牺牲性能的情况下,将训练时间减少了95%,推理时间减少了78%。可解释AI驱动的误差分析减少了过拟合,将验证召回率(网络钓鱼)从0.9914提高到0.9924。在未见过的数据上,网络钓鱼召回率从0.9848提高到0.9867,AUC从0.9924提高到0.9934,误报率降低了12.5%。该模型在训练和验证阶段的准确率为99.86%,F1分数为99.75%,在未见过的数据上的准确率为99.75%,显示出强大的泛化能力,并优于现有的集成方法和基于Transformer的方法。这些发现证明了所提出系统在检测网络钓鱼攻击方面的有效性,同时确保了模型的可解释性和计算效率,可以为网络钓鱼邮件预警系统提供基础。
引言
网络钓鱼是一种网络攻击形式,通过伪造邮件诱骗接收者泄露敏感信息,对最终用户和组织构成严重威胁。2024年全球数据泄露的平均成本报告为490万美元,比上一年增长了10% [1]。仅在2024年第四季度,全球就观察到了超过989,123起网络钓鱼攻击,说明了这一威胁的规模和持续性 [2]。除了财务影响外,同期商业电子邮件劫持(BEC)攻击中的平均勒索金额达到了128,980美元,几乎是2024年第三季度平均水平的两倍 [2]。
自2021年以来,由于黑帽AI的兴起,网络钓鱼攻击增加了49% [3]。此外,2024年下半年网络钓鱼邮件的数量激增了202% [4]。这些令人担忧的统计数据,加上网络钓鱼策略的快速演变及其复杂性和财务影响的增加,强调了需要先进的网络钓鱼检测机制。
随着特征工程、机器学习和深度学习技术的进步,网络钓鱼邮件检测也得到了发展。研究利用了自然语言处理方法(如词形还原和降维)来优化特征提取并提高检测性能 [5]、[6]。其他方法将集成学习与混合特征相结合,通过堆叠和软投票等技术实现了高准确率 [7]、[8]。此外,基于Transformer的模型和词嵌入在增强检测系统方面也表现出有效性 [9]、[10]、[11]。此外,还解决了数据不平衡等问题,强调了多样化的特征集和强大的算法 [12]、[13]。
尽管取得了这些进展,但计算效率、推理时间和模型可解释性等实际考虑因素仍然至关重要。解决这些问题对于构建符合实际需求的可扩展和可靠的网络钓鱼检测系统至关重要。
本研究致力于通过解决性能、效率和可解释性方面的主要挑战来改进网络钓鱼邮件检测。贡献包括:
•对软投票和硬投票集成模型进行全面的评估,以确定其在网络钓鱼检测中的有效性。
•对训练和推理时间进行综合分析,以提高计算效率同时保持性能。
•缩短推理时间,确保网络钓鱼邮件能够被及时识别和标记,从而减少攻击者的机会窗口。
•整合可解释人工智能(AI)技术以理解模型行为。
•使用可解释AI进行详细的误差分析,重点关注误分类的邮件以提高检测能力。
•利用可解释AI误差分析的见解,通过减少过拟合和误报来提高系统性能,从而提高未见过数据上的AUC和网络钓鱼召回率。
•证明其性能优于基于Transformer的网络钓鱼检测基线。
这些贡献共同旨在解决网络钓鱼检测中的挑战,提供了一种结合了准确性、效率和可解释性的平衡方法。本文的其余部分结构如下:第2节回顾相关研究;第3节详细讨论提出的方法;第4节介绍实验环境;第5节详细分析结果并与现有工作进行比较;第6节讨论研究的局限性;第7节总结关键发现并为未来工作提供方向。
现有方法
现有方法
在[5]中,作者提出了一种基于机器学习的网络钓鱼邮件检测方法,强调使用自然语言处理进行特征工程。他们的方法使用文档-术语矩阵(DTM)和潜在狄利克雷分配(LDA)进行特征提取,结合XGBoost获得了99.95%的F1分数,证明这是最有效的模型。他们使用词形还原和词性标注等预处理技术分析了邮件正文。
系统框架
所提出的系统框架如图1所示。包含网络钓鱼邮件和合法邮件的邮件数据集首先经过解析过程,将邮件头部和正文分开进行分析。头部包含发送者信息、域名验证和IP地址等标识符,有助于区分合法邮件和网络钓鱼尝试。正文提供了网络钓鱼的迹象,如引发恐慌的表达、大量的HTML使用和欺骗性URL。
数据集来源
Enron邮件数据集[35]包含合法邮件,对于研究真实的企业通信环境非常宝贵,其中包含发送者、接收者和时间戳等元数据,提供了额外的上下文信息。从这个公共数据集(2015年5月7日版本)中随机选取了25,171封邮件用于训练和评估。
本研究使用的数据集旨在确保多样性和代表性,为评估提供全面的基础
实验结果
在本节中,我们将根据第4节讨论的实验生态系统详细展示实验结果。第5.1节讨论了使用基线参数的模型评估;第5.2节分析了特征选择后的性能;第5.3节深入探讨了超参数调整后的模型性能;第5.4节和第5.5节分别比较了训练时间和推理时间;第5.6节分析了模型的统计显著性。
局限性
本研究使用了广泛使用的公共数据集。虽然网络钓鱼邮件数据集包含截至2024年的邮件,但合法邮件样本相对较旧(大多来自2010年之前)。这代表了本研究的一个局限性,主要是因为缺乏包含更近期合法邮件的公开数据集。
此外,由于考虑了计算效率的重要性,本研究使用了两个基础学习器。
结论和未来工作
随着网络威胁的不断演变,网络钓鱼仍然是最普遍和最具破坏性的攻击方式之一,导致了大量数据泄露和财务损失。网络钓鱼策略的复杂性不断增加,迫切需要强大且可靠的检测系统。本研究提出了一种全面的网络钓鱼邮件检测方法,解决了性能、可解释性和计算效率方面的挑战。
CRediT作者贡献声明
Riyaz Ahmed:撰写——原始草稿、验证、软件、方法论、调查、形式分析、概念化。Sumesh E P:撰写——审阅与编辑、可视化、验证、监督、资源管理、项目管理、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号