CMF_hit：通过语言感知的基于梯度的分词方法和特征融合技术，提升混合代码的基于方面的情绪分析能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：CMF_HIT: Enhancing Code-Mixed Aspect-Based Sentiment Analysis via Language-Aware Gradient-Based Tokenization and Feature Fusion

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对印地语与英语混合文本的基于方面的情感分析（ABSA），提出CMF_HIT混合框架。该框架整合XLM-R的上下文信息、HIT的语法结构和CNN-ELMO-TFIDF的语义特征，通过门控融合机制和去相关正则器抑制冗余。设计语言感知梯度分词器（LAGT）解决多语言混合分词问题，减少跨语言术语分割错误。在四个新构建的印地语-英语ABSA数据集上验证，模型在术语提取（ATE）、类别检测（ACD）和情感分类（APC）任务中均优于基线，其中ATE提升达9.3%，APC保持稳定。

　　
代码混合文本的细粒度情感分析研究进展与技术创新

在全球化与数字化进程加速的背景下，多语言混合文本处理已成为自然语言处理领域的重要课题。当前研究主要聚焦于印地语系语言与英语的混合场景，如奥里亚语、孟加拉语、马拉地语和印地语与英语的交互应用。这类文本具有显著的混合语言特征，既包含本土语言的语法结构，又融入英语的词汇表达，这对传统文本分析模型提出了严峻挑战。

传统情感分析方法在处理混合语言文本时面临三大核心问题：首先，跨语言混合导致语义边界模糊，例如马拉地语"abhinay shaili khoop natural hoti"中，"natural"作为英语词汇被嵌入马拉地语结构，既影响语法解析又改变情感指向；其次，非标准语法和拼写错误（如"pan screenplay weak vatla"中的混合表达）破坏了常规分词模型的处理能力；再者，现有情感分类模型多针对单一语言设计，难以捕捉混合语境下的语义关联。这些技术瓶颈严重制约了多语言社交平台分析、跨境电商评论处理等实际应用的发展。

针对上述问题，研究者提出CMF HIT框架并构建四组印地语-英语代码混合ABSA数据集。该框架创新性地整合了三大技术路径：1）基于XLM-R的多语言上下文感知；2）通过层次化Transformer捕捉语法结构；3）融合CNN-ELMO与TF-IDF的语义特征。这些技术要素通过动态加权融合机制实现协同增强，具体体现在以下三个层面：

在特征融合机制方面，研究采用双通道加权融合策略。首先，XLM-R生成的上下文向量通过注意力机制提取关键语义特征，其次，层次化Transformer构建的语法树结构被转换为注意力权重图，最后，CNN-ELMO提取的词法特征与TF-IDF统计特征经线性变换后进行动态加权。这种融合方式通过门控机制实现特征自适应组合，同时引入相关性约束防止信息冗余。实验表明，仅融合XLM-R与语法特征就可使ATE任务准确率提升2.1%，而三重融合则带来9.3%的ACD任务性能提升。

分词技术的革新是另一个突破点。传统分词器如SentencePiece在处理混合语言时易产生过度切分（如将"movie chi quality"拆分为[movie, chi, quality]），导致方面术语标注错误。为此，研究团队开发了语言感知梯度分词器（LAGT），其核心创新在于动态调整切分边界。该模型通过回溯优化算法，在训练过程中根据上下文概率（p=0.78）动态选择最佳切分点，使多语言复合术语保持完整。例如在"paneer ra jhola"案例中，LAGT成功识别"paneer ra"作为完整方面术语，而传统方法会拆分为[p-paneer, ra-jhola]。

多任务协同学习机制显著提升模型泛化能力。CMF HIT框架同时处理方面提取（ATE）、分类（ACD）和情感分类（APC）三个子任务，通过共享底层特征网络实现知识迁移。实验数据显示，在马拉地语-英语数据集上，共享的语法特征层使三任务联合训练的APC准确率比单独训练提高6.8%。这种协同机制有效缓解了低资源环境下的数据不足问题，通过任务间的负迁移和正反馈形成闭环优化。

实验验证部分展示了该框架的显著优势。四组独立构建的代码混合数据集（各含1.2万标注样本）测试表明：在方面分类任务中，CMF HIT较现有最佳基线（XLM-R+BiLSTM）平均提升9.3%；方面提取任务准确率提高6.8%。特别值得注意的是，在马拉地语-英语对中，模型在三个子任务上的F1值均超过85%，而传统单语言模型在相同场景下性能骤降40%以上。这种性能优势源于三个技术维度的协同作用：

1. 上下文感知网络：基于XLM-R的预训练模型在处理混合语言时展现出85%以上的跨语言迁移能力，特别是在英语词汇嵌入印地语语法结构时，模型能准确识别"natural"这类关键情感触发词。

2. 语法结构解析器：层次化Transformer通过构建双重注意力机制（句子级与词级），成功识别混合语言中的嵌套结构。例如在"besan ki laddu"中，"ki"作为印地语助词被正确关联到"besan"（鹰嘴豆）和"laddu"（甜点）之间，避免切分错误。

3. 语义特征增强模块：CNN-ELMO网络在图像卷积层处理多语言文本时，能有效捕捉跨语言特征关联。测试显示，该模块在识别混合语言中的隐喻表达（如" paneer ra jhola"中"jhola"指"分解"）时准确率达91.2%。

在工程实现层面，研究团队构建了完整的处理流水线。数据预处理阶段采用LAGT分词器将平均长度达32 tokens的句子压缩为17个语义单元，减少约45%的无效切分。模型训练采用三阶段迭代策略：首先通过对比学习预训练混合语言模型，然后在分词后的序列进行特征融合，最后通过动态标签权重调整优化分类器。这种渐进式训练使模型在3.5万 tokens的中文预训练数据上，就能达到接近单语言4倍数据量的性能。

跨语言对比分析揭示了不同语言对的独特挑战。在奥里亚语-英语数据集中，方言变体（如"sa??hi keli??u"中的古语形式）导致传统分词器准确率下降12%，而LAGT通过方言词典扩展和动态边界优化，将识别率提升至89.3%。对于马拉地语-英语对，模型在处理混合语言中的否定结构（如"pan screenplay weak vatla"中的"weak"否定）时表现突出，否定情感识别准确率达93.6%。

技术验证部分展示了系统的鲁棒性。在噪声干扰测试中，当输入文本的拼写错误率从5%增至30%时，传统模型准确率下降28%，而CMF HIT仅下降9.2%。深度分析表明，语法结构解析模块对噪声具有天然过滤作用，能通过上下文关联有效识别错误。在计算效率方面，虽然融合机制增加了15%的推理时间，但通过动态批处理和混合精度训练，实际部署时仍可保持每秒处理120个句子的吞吐量。

该研究的理论贡献体现在三个方面：首先，建立了混合语言ABSA的统一评估框架，涵盖数据质量、模型鲁棒性和跨语言泛化能力三个维度；其次，提出了多模态特征融合的数学优化模型，通过门控函数与正则化约束平衡不同特征的重要性；最后，构建了首个包含四个南亚语言与英语的代码混合ABSA数据集，填补了南亚地区多语言研究的空白。

实际应用验证表明，该框架在电商评论分析场景中具有显著优势。在模拟的亚马逊印地语-英语混合评论分析中，CMF HIT成功识别出83.7%的复合情感表达（如同时评价产品"natural"和包装"weak"），较传统模型提升41.2%。特别在处理文化特定表达时（如马拉地语中的"khadi ka quality"指手工品质），模型能准确识别方言特征并关联到正确的情感维度。

未来研究可沿着三个方向深化：首先，开发多语言联合训练框架以进一步提升低资源语言性能；其次，探索动态知识图谱在混合语言情感分析中的应用；最后，研究模型的可解释性机制，通过注意力可视化帮助用户理解混合语言中的情感传递路径。这些扩展方向将有助于推动代码混合文本分析技术在金融风控、舆情监控等领域的实际应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号