《Antioxidants》:Transcriptome and Hormone Analysis Revealed Jasmonic Acid-Mediated Immune Responses of Potato (Solanum tuberosum) to Potato Spindle Tuber Viroid Infection
编辑推荐:
本文提出了一种名为Electra-BiG-Emo的新型深度学习模型,该模型通过情感感知双向门控机制,将上下文表征与外部情感线索(如愤怒、喜悦、中性)相融合,有效提升了短文本(如社交媒体帖子)中细粒度情感分类(如区分“ mildly positive”与“ strongly positive”)的准确性。模型采用非对称门控,动态调制从外部情感数据集(如GoEmotions)迁移的辅助情感信号,结合双向长短期记忆网络(BiLSTM)的早期和晚期上下文语义,实现对模糊语境下情感的精准放大或抑制。实验表明,该模型在SST-5、SemEval 2017 Task 4C和Twitter航空数据集上均优于现有主流方法,尤其在区分紧密相关的情感类别方面表现突出,为情感强度分析提供了可解释的新思路。
研究背景与挑战
细粒度情感分类要求模型能够区分微妙的情感强度差异,例如轻度正面与强烈正面、负面与强烈负面,或明确的中性与弱负面之间的界限。这一任务在短文本(如社交媒体帖子)中尤为困难,因为语境信息有限,情感信号稀疏且模糊。尽管现有研究结合了深度语义编码(如BERT、RoBERTa、ELECTRA)与上下文感知架构(如BiLSTM、CNN),但许多模型仍难以捕捉细微的情感线索,特别是在处理情感类别高度混淆、语义稀疏的文本时,性能提升有限。
提出的方法:Electra-BiG-Emo模型
为解决上述挑战,本研究提出了Electra-BiG-Emo(Emotion-Aware Bidirectional Gating Network)模型。该模型核心创新在于引入了一种情感感知双向门控机制,通过融合上下文表征与外部情感信号,增强对细粒度情感的判别能力。模型架构主要包含以下几个关键组成部分:
- •
文本编码:采用ELECTRAbase作为基础编码器,生成token级嵌入表示,再输入双向LSTM(BiLSTM)以捕获序列的前向(早期)与后向(晚期)上下文信息。前向隐藏状态(hforward)捕捉文本开头到结尾的语义,后向隐藏状态(hbackward)则从结尾到开头编码信息。
- •
情感特征提取:模型从外部情感数据集(如GoEmotions)中学习情感概率分布,通过softmax函数生成情感表征向量e = [e1, e2, …, ek],其中k为情感类别数(如愤怒、喜悦、中性)。这些情感特征作为辅助信号,用于增强上下文感知的情感表示。
- •
动态门控与调制:设计非对称温度控制门控机制,分别对前向和后向上下文状态进行调制。前向门(gf)使用较高温度(τ = 1.5)实现较平滑的门控,适用于初始学习阶段;后向门(gb)使用较低温度(τ = 0.7)实现更锐化的门控,适用于后期精细调制。门控输出通过元素级乘法(⊙)与情感特征加权,生成前向门控情感特征(Ef)和后向门控情感特征(Eb)。
- •
特征融合与分类:将前向隐藏状态、后向隐藏状态、前向门控情感特征和后向门控情感特征拼接为融合向量z,通过全连接层和softmax函数输出最终的情感类别概率分布。
实验设计与结果分析
实验在三个公开数据集上进行了10折分层交叉验证,评估指标包括准确率、精确率、召回率和F1分数。
- •
数据集:
- •
SST-5:包含11,855条电影评论句子,标注为五类情感(非常负面、负面、中性、正面、非常正面)。
- •
SemEval 2017 Task 4C:包含28,630条推文,情感标注为五级(-2至+2)。
- •
Twitter航空数据集:包含14,640条指向美国航空公司的推文,情感分为三类(正面、负面、中性)。
- •
消融实验:
- •
基础模型隔离实验表明,单独使用ELECTRA编码器在各任务中均表现最佳,而添加BiLSTM或情感特征反而可能降低性能,说明模块需精心设计才能有效融合。
- •
门控机制消融显示,双向门控(Electra-BiG-Emo)在SemEval和Twitter数据集上显著优于简单拼接或单方向门控,F1分数分别提升0.14和0.09,证明双向情感调制对平衡精确率与召回率至关重要。
- •
不同情感特征融合:比较了GoEmotions、SemEval情感标签和ISEAR三种情感源的影响,发现GoEmotions在多数据集上均略胜一筹,表明跨领域情感迁移能增强模型泛化能力。
- •
与基线模型对比:Electra-BiG-Emo在SST-5上准确率达59.7%,在SemEval上F1分数为0.67,在Twitter上准确率达88%,均超过BERT、RoBERTa、ELECTRA等基线模型及多种先进方法(如DLAWG、LACL)。统计显著性检验(p < 0.01)证实了改进的可靠性。
- •
可解释性分析:
- •
混淆矩阵显示,该模型在区分相邻情感类别(如“负面”与“非常负面”)时错误率更低。
- •
特征重要性分析表明,文本上下文(LSTM状态)对所有情感类别均有贡献,而门控情感特征(尤其是后向门控)对极端情感(如“非常正面”)判别起关键作用。
- •
案例可视化进一步揭示了模型如何根据上下文动态调制情感权重,例如在模糊语境中抑制矛盾情感、放大一致情感。
讨论与结论
Electra-BiG-Emo模型通过情感感知双向门控机制,实现了上下文与情感信号的动态融合,显著提升了细粒度情感分类的准确性与可解释性。该模型在短文本、情感强度微妙等挑战性场景中表现优异,且对情感-情感交互的建模为理解用户深层心理状态(如社交媒体中的情绪波动)提供了新视角。未来工作可探索情感表示的领域自适应优化,以及模型在心理健康监测等领域的扩展应用。