在在线平台上自动检测攻击性言论已成为维护健康、尊重他人的数字环境的关键挑战(Davidson, Warmsley, Macy, & Weber (2017); Founta et al. (2018); Khairy, Mahmoud, & Abd-El-Hafeez (2021))。不幸的是,用户生成内容的激增导致了有害内容的相应增加,包括仇恨言论(Albadi, Kurdi, & Mishra (2018); Davidson et al. (2017))、网络欺凌(Albayari, Abdallah, & Shaalan (2025))和粗俗语言(Malmasi & Zampieri (2018))。这样的环境不仅会降低用户体验,还可能造成现实世界的伤害,这凸显了有效自动化审核工具的社会和技术必要性。
检测攻击性语言本质上具有挑战性,因为其主观性、语言多样性、文化依赖性以及微妙的语义差异。在具有广泛方言变化的语言中,这些挑战更加明显,例如阿拉伯语(Abdul-Mageed, Alhuzali, & Elaraby (2018); Alakrot, Murray, & Nikolov (2018); Mahouachi & Mahersia (2025)),这对自然语言处理(NLP)系统提出了独特的挑战。现代标准阿拉伯语(MSA)与许多地区方言(如埃及语、突尼斯语和黎凡特语)之间存在显著差异,这些方言通常是非正式的且缺乏标准化,当在标准文本上训练的模型应用于方言社交媒体数据时,性能会明显下降。关于阿拉伯语社交媒体的综合性研究(Abdelsamie, Azab, & Hefny (2024); Abo, Raj, & Qazi (2019); Alshahrani, Aksoy, & Emam (2025)强调了关键挑战,包括注释数据有限、方言变化大以及数据集之间的标记实践不一致。
目前阿拉伯语攻击性语言检测的先进技术(Abdelsamie et al. (2024); Alshahrani et al. (2025))主要由深度学习模型主导,如BERT及其变体。尽管这些模型在实证表现上很强,但大多数现有方法采用单一模式、仅基于文本的设计,依赖于静态或上下文化的文本嵌入(Charfi, Besghaier, Akasheh, Atalla, & Zaghouani (2024); Faris, Aljarah, Habib, & Castillo (2020))。虽然这些数据驱动的方法可以捕捉隐含的语义模式,但它们面临两个主要限制。首先,它们的性能严重依赖于大型且标注准确的数据集,而这些数据集往往无法为资源匮乏的阿拉伯方言或特定领域提供。其次,它们的黑箱性质使得难以解释,从而无法进行有效的错误分析或纳入人类注释者使用的显式语言知识。因此,这些模型往往无法捕捉阿拉伯语的丰富上下文和方言变化,从而限制了它们的鲁棒性和泛化能力。此外,依赖单一嵌入类型只能提供文本的狭隘视图,导致模型关注表面词汇模式而非实际含义。
为了解决这些限制,提出了混合架构MultiView+FuzzyRules。这项工作的根本动机是弥合隐式、数据驱动的语义理解与显式、可解释的符号特征之间的差距。这是通过利用(1)多视图文本表示(从多样化的上下文和静态嵌入模型中提取)和(2)基于模糊规则的特征层的互补优势来实现的。该层应用领域驱动的语言规则(例如,攻击性、粗俗语言、风格标记或特定的攻击性词汇),使用可学习的模糊运算符(包括合取、析取和否定)来影响模型的预测。通过将这些模糊规则与深度表示相结合,该架构将隐式语义理解与基于模糊逻辑的特征结合起来,为攻击性言论检测提供了一个平衡的框架。与纯数据驱动的方法相比,这种方法有助于模型处理方言变异性并提高可解释性。
该方法在覆盖突尼斯语、埃及语和黎巴嫩语的多方言阿拉伯语语料库上进行了评估(Badri, Kboubi, & Chaibi (2022)。为了进一步评估模型的鲁棒性和泛化能力,还考虑了两个额外的数据集:阿尔及利亚方言侮辱性评论(Mazari & Kheddar (2023)和阿拉伯语YouTube评论(Alakrot et al. (2018)。在跨领域(在Tun-EL上训练)和领域内设置中都进行了评估,以测试所提出的MultiView+FuzzyRules框架在不同阿拉伯方言和社交媒体环境中的适应性。这些评估证明了模型对跨方言变异性、不平衡类别和复杂语言模式的鲁棒性,支持可解释的攻击性语言检测。
为了评估所提出的混合方法的有效性,研究了以下研究问题:
•RQ1:将模糊规则集成到MultiView模型中对二元攻击性语言检测的影响与基线方法相比如何?
•RQ2:将模糊规则集成到MultiView模型中对多类攻击性语言检测的影响与基线方法相比如何?
•RQ3:MultiView+FuzzyRules混合模型在领域内和跨领域评估设置中与文献中报道的最先进模型相比在多类攻击性语言检测方面的表现如何?
本文的主要贡献包括:
- •
引入了MultiView+FuzzyRules
,这是一个新颖的混合神经符号框架,它结合了来自不同阿拉伯方言的多视图嵌入和基于模糊规则的特征层,实现了准确且可解释的攻击性语言检测。据我们所知,这是首次将混合神经符号方法应用于阿拉伯语攻击性语言检测,为语言复杂的语言领域的NLP研究做出了新的贡献。
- •
设计和整合了领域驱动的模糊逻辑规则,以捕捉攻击性强度和粗俗语言等语言特征,提供可解释的指导并确保语义一致性。
- •
在涵盖突尼斯语、埃及语和黎巴嫩语的多方言阿拉伯语语料库上进行了广泛的实验,与强大的基线进行了比较分析,包括二元和多类分类设置。
- •
在两个额外数据集(阿尔及利亚方言侮辱性评论和阿拉伯语YouTube评论)上进行了评估,涵盖了跨领域和领域内设置,分析了模型对未见过的方言和社交媒体环境的鲁棒性和泛化能力。
- •
详细分析了模型在攻击性内容上的表现、跨方言的改进以及在文化意识强的审核决策中的可解释性。
本文的结构如下:第2节回顾了NLP中关于攻击性言论检测和神经符号方法的相关工作。第3节介绍了MultiView+FuzzyRules架构,详细介绍了多视图嵌入提取、基于模糊规则的特征层和训练过程。第4节描述了数据集、评估指标和实验设置。第5节报告并讨论了实验结果,包括二元和多类分类分析、跨领域和领域内评估,以及与最先进基线的比较。第6节指出了当前方法的局限性,并概述了未来工作的方向。最后,第7节总结了本文。