BERT-OTA：基于本体引导Transformer注意力的仇恨言论检测增强方法

《IEEE Access》：BERT-OTA: Enhancing Hate Speech Detection With Ontology-Guided Transformer Attention

【字体：大中小】 时间：2026年01月12日 来源：IEEE Access 3.6

编辑推荐：

　　为解决社交媒体仇恨言论检测中上下文细微差别和隐含模式识别的挑战，研究人员开展BERT-OTA架构研究，通过集成本体知识与Transformer注意力机制，在包含48,049个样本的数据集上实现91.30%准确率和91.32% F1值，为构建稳健的在线内容审核系统提供新范式。

随着社交媒体平台的指数级增长，网络言论环境发生了根本性变革，在带来前所未有的连接性的同时也带来了内容审核的新挑战。平台在平衡言论自由与用户安全之间艰难徘徊，仇恨言论的检测与缓解变得愈发关键。虽然人工审核仍具价值，但网络通信的规模要求具备能够处理在线仇恨言论复杂性和演变性质的稳健自动检测方法。

传统仇恨言论检测方法严重依赖特征工程和经典机器学习技术，仅取得有限成功。尽管深度学习模型如CNN、RNN和LSTM通常优于经典方法，但仍难以捕捉社交媒体内容中普遍存在的上下文细微差别和隐含偏见。Transformer模型（如BERT）在上下文建模方面展现出卓越能力，而最新进展表明将BERT与其他架构结合可进一步提升性能。例如，图神经网络（BERT-GNN）和本体图注意力（BERT-OGA）通过集成基于图的结构和本体感知机制来改进上下文理解，已展示出有希望的结果。这凸显了将BERT与领域特定知识结合以提升性能的潜力。

基于这些发展，研究人员提出BERT-OTA（Ontology Transformer with Attention）这一新颖架构，将基于BERT的文本处理与图神经网络相结合。领域特定本体知识的集成对仇恨言论检测尤为关键，因为它能够实现超越简单关键词匹配和显式内容的理解。结构化本体知识有助于捕捉纯统计方法可能遗漏的隐含偏见、上下文细微差别和仇恨表达的演变模式。BERT-OTA通过双流架构实现这一点：通过具有缩放点积注意力的BERT处理文本，同时通过两层图卷积网络学习本体特征，在综合评估中达到91.30%的准确率。

Transformer模型与图神经网络和领域特定本体的集成显著增强了仇恨言论检测能力。虽然Transformer擅长捕捉上下文依赖关系，但通过互补的神经组件并行处理文本和本体知识，使模型能够更好地理解依赖隐含意义或文化背景的微妙仇恨言论形式。通过均值池化和连接结合这些特征，BERT-OTA提供了一种稳健的方法来识别有害内容的显式和隐式形式，正如实验结果所证明的。

尽管神经网络架构的进展显示出前景，但在仇恨言论检测中有效结合Transformer、图网络和领域知识仍存在若干基本挑战。这些挑战引导研究者探讨以下关键研究问题：Transformer架构在多模态数据整合中的有效性如何？神经架构组合如何在分类准确性和计算效率之间提供最佳平衡？研究通过系统评估框架解决这些问题，该框架将本体知识与最先进的Transformer架构集成。

在方法论层面，研究包含两个核心组件：具有结构化本体构建的综合数据集准备，以及将本体知识与Transformer注意力机制集成以增强仇恨言论检测的新颖BERT-OTA架构。数据集整合了仇恨言论检测文献中的三个已建立数据集：Davidson等、Impermium数据集以及Waseem和Hovy的语料库。这些数据集因其在捕捉不同表现的在线仇恨言论方面的互补特性而被选中。组合数据集包含48,049个条目，总体分布为57.87%仇恨内容和42.13%非仇恨内容。

预处理管道通过扩展PyTorch的Dataset类的自定义类实现。该类处理文本标记化和特征生成，利用BERT的标记器（BERT-base-uncased）处理文本输入，最大序列长度为128个标记，应用必要的填充和截断。标记长度分析显示组合数据集的平均长度为31.2个标记，中位数为25.0个标记，98.8%的样本（48,049个中的47,495个）落在128个标记限制内，验证了在保持计算效率的同时全面捕捉内容的选择。

本体实现基于计算语言学和仇恨言论研究中的已建立理论框架。研究人员构建了一个三维框架，捕捉仇恨言论的复杂性质。这种结构化知识表示与Noy和McGuinness定义的正式本体基础保持一致，以定义的概念间关系在分类层次中组织概念。与依赖简单词语匹配的基于词典的方法不同，该本体包含概念之间的语义关系，实现对仇恨言论表现的更细致理解。这种方法捕捉了依赖上下文和关系而非仅明确术语的仇恨言论隐含形式。

本体结构包含三个主要维度，每个维度包含多个子类别和相关概念：仇恨类型（基于目标特征或身份的分类，包括种族主义、宗教仇恨、性别歧视、恐同症和残疾仇恨）、严重性（基于明确性和直接性的分类，包括显式、隐式和仇恨符号）以及目标（识别仇恨表达的目标和范围，分解为个人、群体和机构三个层次）。这种多维分类不仅捕捉了目标群体，还捕捉了表达的严重程度及其预期范围。

本体框架实现了一个多阶段处理管道，构建过程遵循四个关键阶段：词典开发（开发将术语和短语映射到各自仇恨言论类别的综合词典）、概念索引（为每个本体概念生成唯一索引，实现高效的图表示）、邻接矩阵生成（将概念图结构转换为适用于图卷积网络处理的计算表示）以及从文本中提取概念（使用自然语言处理技术从每个输入文本中提取相关概念）。

BERT-OTA架构通过结合基于BERT的文本处理与图神经网络，在仇恨言论检测方面推进了技术水平。与孤立处理文本信息的先前方法不同，该模型利用双流架构，与文本特征并行处理本体知识。架构引入几个关键方法创新：将文本和本体信息视为基本不同模态的双流处理范式；战略注意力放置，在文本表示增强的同时使用高效的图卷积处理本体知识；分层特征集成机制，允许每种模态在融合前独立优化；以及高效的本体处理方法，在不产生过高计算复杂度的情况下捕捉语义关系。

核心方法见解是文本和本体信息具有不同的特性，受益于专门的处理架构。文本信息需要注意力机制来识别上下文相关模式，而本体信息受益于基于图的消息传递，以在仇恨言论概念之间传播语义关系。先前方法要么忽略这种区别，要么对两种模态应用统一处理，可能限制每种信息类型的表示学习有效性。

文本处理流利用预训练的BERT嵌入，通过任务自适应的缩放点积注意力机制增强。这个额外的注意力层在BERT的输出表示上操作，创建专门针对仇恨言论检测微调的专门注意力模式。本体处理流采用简化的图卷积网络，在结构化仇恨言论本体上操作。设计理念优先考虑架构效率而非复杂性，使用最小的两层GCN，捕捉基本语义关系。集成机制代表了一个关键方法贡献，实现了后期融合策略，允许两个处理流在组合前发展专门表示。

最终分类采用正则化线性变换。该架构在保持仇恨言论检测实际应用的计算效率的同时，实现了有效的多模态学习。为了建立全面的性能基准，研究实现并评估了文献中的七种已建立方法。这些方法代表了基于BERT的仇恨言论检测的不同增强策略，包括注意力机制、图神经网络、胶囊网络和循环架构。每种方法解决了基于Transformer的模型的不同理论局限性，为仇恨言论检测中方法有效性的比较分析提供了稳健基础。

综合实验结果显示，提出的BERT-OTA架构以91.30%的准确率和91.32%的F1值实现了最先进的性能，证明了将基于BERT的文本处理与基于图的本体特征相结合的双流方法的有效性。基线BERT模型以每折960.72秒的最快训练时间达到90.80%的准确率和90.81%的F1值，展示了在理解仇恨言论上下文方面的强大基础性能。BERT-GNN以91.05%的准确率和F1值紧随BERT-OTA架构，显示出比基线提高0.25个百分点。BERT-胶囊网络实现显示竞争性能（90.81%准确率），略微超过基线，同时通过胶囊间的动态路由引入了特征检测的创新基于向量的方法。

消融研究结果证实，从缩放点积注意力到GCN处理的每个架构选择都有助于实现最先进的91.32% F1值性能，同时保持实际应用的计算可行性。注意力机制有效性分析显示，缩放点积注意力组件对模型性能贡献最大。移除该组件导致0.20% F1值下降，验证了任务自适应注意力机制显著增强仇恨言论检测的假设。本体处理分析提供了关于结构化领域知识在双流架构中贡献的见解。移除整个本体流导致0.10% F1值下降，表明虽然本体知识有助于性能增强，但Transformer上下文表示已经捕捉了与仇恨言论检测相关的大量语义关系。

特征集成策略验证表明，结合文本和本体表示的均值池化方法优于替代集成方法。GCN深度分析显示，两层架构选择代表了本体知识处理的最佳配置。更深的GCN架构实验证明性能一致下降：3层GCN变体达到90.40%准确率，F1值下降0.16%，而4层变体产生90.73%准确率，与原始架构相比F1值下降0.23%。这一发现与图神经网络中充分证明的过度平滑现象一致，即增加网络深度导致节点表示收敛到不可区分值。

正则化分析通过丢弃消融研究揭示，正则化策略仅在被移除时产生0.07% F1值影响，即提供了有意义的过拟合预防。这一发现表明，模型在表示容量和泛化之间达到了适当平衡。所有消融变体的计算效率分析揭示了实际部署考虑的重要性能效率权衡。

研究对八种基于BERT的架构的综合评估揭示了社交媒体内容中仇恨言论检测的重要见解。虽然新颖的BERT-OTA以91.30%的准确率和91.32%的F1值实现了最先进的性能，但其他模型落后，表现出稍低的性能。通过并行BERT和GCN组件对文本和本体特征的双流处理被证明特别有效，尽管计算成本增加。

主要技术方法包括：基于BERT的文本处理与缩放点积注意力机制、图卷积网络（GCN）的本体特征学习、双流架构的并行处理模式、均值池化和特征连接集成策略，以及使用来自三个已建立数据集（Davidson、Impermium、Waseem & Hovy）的48,049个样本组合数据集的综合评估框架。

研究结果表明，BERT-OTA架构在仇恨言论检测任务中实现了最先进的性能。具体而言，在包含48,049个样本的组合数据集上，BERT-OTA达到了91.30%的准确率和91.32%的F1值，优于所有其他测试模型。与基线BERT模型（90.80%准确率）相比，性能提升为0.5个百分点，而BERT-GNN和BERT-OGA等其他图增强模型分别达到91.05%和90.80%的准确率。消融研究进一步证实了架构组件的贡献，其中缩放点积注意力机制对性能提升贡献最大，移除后导致0.20% F1值下降。

实验还揭示了模型复杂性与性能改进之间的重要权衡。虽然BERT-OTA和其他图增强模型优于基线，但它们需要更多计算资源。性能改进范围从0.5到0.01个百分点，相应的计算时间增加范围从41%到5.4%。相对较小的性能差距表明，架构选择可能更依赖于特定部署约束而非绝对性能指标。

研究结论强调，将Transformer模型与图神经网络和领域特定本体集成显著增强了仇恨言论检测能力。虽然研究提出的BERT-OTA实现了最先进的性能，但其他模型表现稍逊，证明了通过并行BERT和GCN组件对文本和本体特征进行双流处理的有效性。仇恨言论检测中有效结合Transformer、图网络和领域知识仍存在挑战，未来的研究方向包括在多语言数据集上评估BERT-OTA以评估跨不同文化和语言背景的有效性，探索效率优化以减少计算开销而不影响准确性，以及调查先进知识集成技术以捕捉在线仇恨言论的演变模式。

这项研究的意义在于为构建更稳健的在线内容审核系统提供了新的范式，通过结构化知识集成增强了仇恨言论检测的准确性和上下文理解能力，为社交媒体平台的内容管理提供了有价值的见解。

热点排行

新闻专题