基于ELECTRA-BiG-Emo模型的情感感知双向门控机制在细粒度情感分类中的研究

《Antioxidants》:Transcriptome and Hormone Analysis Revealed Jasmonic Acid-Mediated Immune Responses of Potato (Solanum tuberosum) to Potato Spindle Tuber Viroid Infection

【字体: 时间:2026年01月11日 来源:Antioxidants 6.6

编辑推荐:

  本文提出了一种名为Electra-BiG-Emo的新型深度学习模型,该模型通过情感感知双向门控机制,将上下文表征与外部情感线索(如愤怒、喜悦、中性)相融合,有效提升了短文本(如社交媒体帖子)中细粒度情感分类(如区分“ mildly positive”与“ strongly positive”)的准确性。模型采用非对称门控,动态调制从外部情感数据集(如GoEmotions)迁移的辅助情感信号,结合双向长短期记忆网络(BiLSTM)的早期和晚期上下文语义,实现对模糊语境下情感的精准放大或抑制。实验表明,该模型在SST-5、SemEval 2017 Task 4C和Twitter航空数据集上均优于现有主流方法,尤其在区分紧密相关的情感类别方面表现突出,为情感强度分析提供了可解释的新思路。

  

研究背景与挑战

细粒度情感分类要求模型能够区分微妙的情感强度差异,例如轻度正面与强烈正面、负面与强烈负面,或明确的中性与弱负面之间的界限。这一任务在短文本(如社交媒体帖子)中尤为困难,因为语境信息有限,情感信号稀疏且模糊。尽管现有研究结合了深度语义编码(如BERT、RoBERTa、ELECTRA)与上下文感知架构(如BiLSTM、CNN),但许多模型仍难以捕捉细微的情感线索,特别是在处理情感类别高度混淆、语义稀疏的文本时,性能提升有限。

提出的方法:Electra-BiG-Emo模型

为解决上述挑战,本研究提出了Electra-BiG-Emo(Emotion-Aware Bidirectional Gating Network)模型。该模型核心创新在于引入了一种情感感知双向门控机制,通过融合上下文表征与外部情感信号,增强对细粒度情感的判别能力。模型架构主要包含以下几个关键组成部分:
  • 文本编码:采用ELECTRAbase作为基础编码器,生成token级嵌入表示,再输入双向LSTM(BiLSTM)以捕获序列的前向(早期)与后向(晚期)上下文信息。前向隐藏状态(hforward)捕捉文本开头到结尾的语义,后向隐藏状态(hbackward)则从结尾到开头编码信息。
  • 情感特征提取:模型从外部情感数据集(如GoEmotions)中学习情感概率分布,通过softmax函数生成情感表征向量e = [e1, e2, …, ek],其中k为情感类别数(如愤怒、喜悦、中性)。这些情感特征作为辅助信号,用于增强上下文感知的情感表示。
  • 动态门控与调制:设计非对称温度控制门控机制,分别对前向和后向上下文状态进行调制。前向门(gf)使用较高温度(τ = 1.5)实现较平滑的门控,适用于初始学习阶段;后向门(gb)使用较低温度(τ = 0.7)实现更锐化的门控,适用于后期精细调制。门控输出通过元素级乘法(⊙)与情感特征加权,生成前向门控情感特征(Ef)和后向门控情感特征(Eb)。
  • 特征融合与分类:将前向隐藏状态、后向隐藏状态、前向门控情感特征和后向门控情感特征拼接为融合向量z,通过全连接层和softmax函数输出最终的情感类别概率分布。

实验设计与结果分析

实验在三个公开数据集上进行了10折分层交叉验证,评估指标包括准确率、精确率、召回率和F1分数。
  • 数据集
    • SST-5:包含11,855条电影评论句子,标注为五类情感(非常负面、负面、中性、正面、非常正面)。
    • SemEval 2017 Task 4C:包含28,630条推文,情感标注为五级(-2至+2)。
    • Twitter航空数据集:包含14,640条指向美国航空公司的推文,情感分为三类(正面、负面、中性)。
  • 消融实验
    • 基础模型隔离实验表明,单独使用ELECTRA编码器在各任务中均表现最佳,而添加BiLSTM或情感特征反而可能降低性能,说明模块需精心设计才能有效融合。
    • 门控机制消融显示,双向门控(Electra-BiG-Emo)在SemEval和Twitter数据集上显著优于简单拼接或单方向门控,F1分数分别提升0.14和0.09,证明双向情感调制对平衡精确率与召回率至关重要。
  • 不同情感特征融合:比较了GoEmotions、SemEval情感标签和ISEAR三种情感源的影响,发现GoEmotions在多数据集上均略胜一筹,表明跨领域情感迁移能增强模型泛化能力。
  • 与基线模型对比:Electra-BiG-Emo在SST-5上准确率达59.7%,在SemEval上F1分数为0.67,在Twitter上准确率达88%,均超过BERT、RoBERTa、ELECTRA等基线模型及多种先进方法(如DLAWG、LACL)。统计显著性检验(p < 0.01)证实了改进的可靠性。
  • 可解释性分析
    • 混淆矩阵显示,该模型在区分相邻情感类别(如“负面”与“非常负面”)时错误率更低。
    • 特征重要性分析表明,文本上下文(LSTM状态)对所有情感类别均有贡献,而门控情感特征(尤其是后向门控)对极端情感(如“非常正面”)判别起关键作用。
    • 案例可视化进一步揭示了模型如何根据上下文动态调制情感权重,例如在模糊语境中抑制矛盾情感、放大一致情感。

讨论与结论

Electra-BiG-Emo模型通过情感感知双向门控机制,实现了上下文与情感信号的动态融合,显著提升了细粒度情感分类的准确性与可解释性。该模型在短文本、情感强度微妙等挑战性场景中表现优异,且对情感-情感交互的建模为理解用户深层心理状态(如社交媒体中的情绪波动)提供了新视角。未来工作可探索情感表示的领域自适应优化,以及模型在心理健康监测等领域的扩展应用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号