编辑推荐:
邮件垃圾检测通过融合模糊逻辑与LSTM构建FLSTM-ESD方法,采用分而治之策略优化模糊隶属向量,提升对复杂数据模式处理能力,实验在多个数据集上准确率达94.9%-97.09%,有效解决传统方法误判问题。
埃克拉穆尔·哈克·图舍尔(Ekramul Haque Tusher)| 莫哈末·阿尔菲安·伊斯梅尔(Mohd Arfian Ismail)
马来西亚彭亨大学(University Malaysia Pahang Al-Sultan Abdullah)计算机学院,佩坎(Pekan),26600,彭亨州,马来西亚
摘要
电子邮件垃圾邮件检测对网络安全至关重要,因为垃圾邮件通常包含网络钓鱼尝试、恶意软件和欺诈性内容。传统的基于规则的系统和机器学习方法难以适应不断变化的垃圾邮件策略,导致检测准确性下降。深度学习(DL)方法因其能够有效建模复杂数据模式而受到关注。然而,模糊系统虽然具有可解释性和适应性,但往往无法准确分类复杂的数据集。长短期记忆(LSTM)网络以处理序列数据而闻名,但在记忆噪声方面存在挑战,这限制了其在垃圾邮件检测中的有效性。本研究介绍了一种混合方法——基于模糊性的LSTM用于电子邮件垃圾邮件检测(FLSTM-ESD),该方法将模糊逻辑与LSTM网络相结合。一项初步研究比较了四种DL方法:人工神经网络(ANN)、LSTM、门控循环单元(GRU)和双向LSTM(Bi-LSTM)。结果表明,LSTM在检测复杂垃圾邮件模式方面最为有效。为了提高性能,采用了一种基于模糊性的分而治之策略,将低模糊度和高模糊度样本纳入训练过程。实验结果证实,FLSTM-ESD的表现优于其他DL方法,在Spambase数据集上的准确率为94.9%,在Spamassassin数据集上为96.84%,在Lingspam数据集上为97.09%。FLSTM-ESD通过将模糊逻辑与LSTM结合,成为一种先进的垃圾邮件检测方法,提高了准确性并能够处理不断变化的垃圾邮件模式。这些结果展示了FLSTM-ESD在现实世界电子邮件垃圾邮件检测应用中的鲁棒性。
引言
电子邮件已成为一种普遍的通信方式,涵盖了个人和职业领域,并在我们的日常生活中成为不可或缺的资源[1]。它实现了跨越广阔距离和时区的快速有效通信,适用于商业、教育和个人通信等多种应用[2]。然而,对电子邮件的依赖也导致了垃圾邮件数量的急剧增加,对电子邮件系统的安全性和效率构成了严重威胁。垃圾邮件往往未经请求,可能包含网络钓鱼链接、恶意软件或旨在欺骗收件人的诈骗内容。这些垃圾邮件不仅消耗宝贵的系统资源(如带宽和存储空间),还直接威胁到用户的安全和隐私[3]。因此,随着垃圾邮件发送者不断改进其策略,对可靠且高效的电子邮件垃圾邮件检测系统的需求变得越来越迫切。在垃圾邮件检测的早期,基于规则的过滤技术是主要方法[4]。这些系统依靠预定义的规则集根据某些特征(如特定关键词或可疑附件的存在)将电子邮件分类为垃圾邮件或合法邮件[5]、[6]、[7]。虽然这些基于规则的系统最初在阻止垃圾邮件方面有效,但随着垃圾邮件发送者调整策略以规避检测,它们很快就变得不够用了。垃圾邮件的动态特性使得静态的基于规则的方法失效[8]。现代垃圾邮件的复杂性往往模仿合法通信或包含微妙的变化以避免被检测到,因此需要更先进和适应性的解决方案[9]。因此,基于机器学习(ML)的方法应运而生,成为一种有前景的替代方案。
深度学习(DL)在垃圾邮件检测中发挥了重要作用,利用大型数据集中的模式来准确分类电子邮件[10]。特别是长短期记忆(LSTM)网络在序列数据处理任务(如电子邮件分类)中表现出色[11]、[12]、[13]、[14]。LSTM网络特别适合这项任务,因为它可以捕捉电子邮件中单词和短语之间的上下文关系,同时保持序列中的长距离依赖性。这种能力对于准确判断电子邮件是垃圾邮件还是合法邮件至关重要,尤其是在上下文线索在分类中起重要作用时[15]。然而,LSTM在处理模糊情况时遇到困难,因为微妙的差异会模糊垃圾邮件和合法邮件之间的界限[16]。这种局限性源于传统分类器的二进制本质,可能导致误分类,例如假阳性或假阴性[17]。解决这些挑战需要考虑现实世界场景中的不确定性和模糊性的方法[18]。1965年由洛特菲·A·扎德(Lotfi A. Zadeh)提出的模糊集理论通过允许部分属于某个类别来解决许多现实世界场景中的模糊性和不确定性[19]。在垃圾邮件检测中,电子邮件可能部分属于垃圾邮件和合法邮件两个类别,这使得模糊逻辑非常适合处理模糊数据并实现细致的决策[20]。虽然模糊集通过引入隶属度来改进分类,但在复杂情况下手动确定模糊参数具有挑战性,需要自动化方法来提高准确性[21]。这种灵活性使模糊逻辑成为电子邮件垃圾邮件检测等领域的强大工具。
为了提高模糊系统在垃圾邮件检测中的适应性和精确度,采用模糊自动化方法是必要的。这样可以自动调整模糊建模参数,减少手动调整的工作量,并提高系统对不断变化的垃圾邮件策略的响应能力。一种先进的技术是分而治之的模糊隶属向量优化策略。该方法通过将优化问题分解为较小的、可管理的子问题来系统地调整模糊系统,然后合并这些子问题的结果,从而获得更好的效果。由此得到的模糊隶属向量补充了LSTM训练,使得检测方法具有高度的准确性和强大的泛化能力。通过将模糊隶属向量与LSTM网络结合,该方法可以从电子邮件中学习更强大的特征。隶属向量作为一种指导机制,帮助LSTM在训练过程中关注电子邮件数据中的有意义模式。这种协同作用结合了模糊性的解释能力和LSTM的序列学习能力,为传统LSTM方法面临的挑战提供了全面的解决方案。模糊性为方法引入了解释层,使得决策边界更加柔和,减少了误分类的风险,尤其是在边界情况下。同时,LSTM在捕捉上下文依赖性方面的能力确保了对电子邮件内容的更深层次的理解。因此,基于模糊性的LSTM用于电子邮件垃圾邮件检测(FLSTM-ESD)结合了这种分而治之的模糊隶属向量优化和LSTM的序列学习,保持了在动态现实世界电子邮件环境中的鲁棒性和适应性。通过不断从新数据中学习并优化模糊隶属计算,FLSTM-ESD能够有效应对复杂的规避技术,并长期保持高分类准确性。
数据收集和数据集描述
在研究的数据收集过程中,收集了用于实验的数据集。回顾以往研究中的流行应用有助于选择高质量、相关的数据集,这些数据集与提出的方法相匹配。每个选定的数据集都包含与垃圾邮件相关的两类属性。Spambase、Spamassassin和Lingspam是用于评估所提方法的三个基准垃圾邮件数据集。这些数据集来自Kaggle的公共数据库,包括Spamassassin
初步研究
研究首先回顾了当前的电子邮件垃圾邮件检测方法,以了解现有方法的局限性,并寻找改进方法。通过仔细分析,找到了解决现有方法问题的方法。所提出的方法是根据它们与研究目标、目的和范围的契合度来选择的。在数据收集阶段,收集了用于实验实现的电子邮件垃圾邮件数据集。随后,这些数据集被用于后续的分析
讨论
在我们的实验中,FLSTM-ESD在所有数据集上都取得了最高的准确率:Lingspam数据集为97.09%,Spamassassin数据集为96.84%,Spambase数据集为94.9%。这一出色的表现归功于它将LSTM网络与模糊隶属向量相结合的创新方法,显著增强了系统处理数据中的不确定性和模糊性的能力。LSTM网络以处理序列数据的能力而闻名
结论与未来工作
FLSTM-ESD方法成功结合了模糊逻辑和LSTM网络的优点,解决了传统垃圾邮件检测系统中的问题。通过结合模糊逻辑的可解释性和LSTM的序列建模能力,该方法能够处理不确定性并捕捉电子邮件数据中的长期依赖性。在Spambase、Spamassassin和Lingspam数据集上的测试表明,FLSTM-ESD的表现优于其他方法,准确率分别为94.9%、96.84%和97.09%
作者贡献声明
埃克拉穆尔·哈克·图舍尔(Ekramul Haque Tusher):撰写——审阅与编辑、撰写——初稿、方法论、概念化。莫哈末·阿尔菲安·伊斯梅尔(Mohd Arfian Ismail):撰写——审阅与编辑、项目管理、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
这项工作部分得到了马来西亚高等教育部(Ministry of Higher Education Malaysia)的基础研究基金(FRGS)(项目编号:FRGS/1/2022/ICT02/UMP/02/2)的支持。此外,还获得了马来西亚彭亨大学Al-Sultan Abdullah分校的研究生研究基金计划(PGRS)(项目编号:PGRS2303110)的资助。
埃克拉穆尔·哈克·图舍尔(Ekramul Haque Tusher)拥有吉大港国际伊斯兰大学(IIUC)的计算机科学学士学位,目前在该校担任兼职教师。他在马来西亚彭亨州佩坎的马来西亚彭亨大学Al-Sultan Abdullah分校(UMPSA)获得了软计算与智能系统研究硕士学位。自2023年以来,埃克拉穆尔先生一直在UMPSA的机器智能研究小组(MIRG)担任研究助理,积极参与前沿研究工作