用于跨语言、跨目标立场检测的、不受目标语言影响的特征以及考虑目标语言特征的机制

《Neurocomputing》:Target-agnostic and target-aware features for cross-lingual cross-target stance detection

【字体: 时间:2026年02月22日 来源:Neurocomputing 6.5

编辑推荐:

  跨语言跨目标立场检测框架CCTT融合目标相关与无关特征,通过跨语言对比学习提升目标表征质量,采用模糊边界多分配机制增强泛化能力,实验在X-Stance数据集上F1值分别提升9.66%、7.33%和7.12%。

  
作者:曾娜(Na Zeng)、何晴(Qing He)、吴希胤(Xiyin Wu)、李彦波(Yanbo Li)、杜妮索(Nisuo Du)
单位:贵州大学大数据与信息工程学院,中国贵州贵阳市

摘要

立场检测是自然语言处理中越来越受欢迎的任务,旨在从给定文本中区分作者对特定目标的态度。为了应对全球化趋势推动下的多语言应用需求,跨语言跨目标立场检测将知识从资源丰富的源语言转移到资源匮乏的目标语言。然而,由于语言之间的语义差异以及在不同目标上的泛化能力不足,改进效果有限。为了克服这一挑战,我们提出了一个简单高效的框架——基于目标感知和目标无关特征的跨语言跨目标立场检测框架(CCTT),该框架考虑了目标无关特征和目标相关特征的互补性。特别是为了减轻跨语言语义差异,我们设计了跨语言对比学习机制,使编码器能够为各种语言生成更高质量的目标相关特征。为了提高在不同目标上的泛化能力,我们对包含大量目标相关信息的样本采用了创新的模糊边界多分配(FBMA)机制来提取目标无关特征。在两个数据集上的实验结果表明,我们的CCTT模型优于基线模型。

引言

立场检测是自然语言处理中一个基本重要的任务,旨在检测人们对特定目标(如实体、主题或观点)的态度(例如“支持”或“反对”)[1]。它已被应用于公共态度挖掘、市场分析和真实性预测等多个领域[2][3]。随着全球化的加速,对于超越单语言环境的立场检测模型的需求日益增长。大多数关于立场检测的研究都是用英语进行的[2][4][6],但由于语言和文化差异,这些模型在多语言应用中表现不佳。大多数非英语语言的标注数据稀缺,进一步增加了训练高质量立场检测模型的难度。为了解决这个问题,研究人员提出了跨语言立场检测方法[2],该方法将知识从资源丰富的源语言转移到资源匮乏的目标语言,从而缓解数据稀缺问题并提高多语言场景下的性能。尽管有一些关于跨语言立场检测的研究,但CLA[7]采用对比语言适应技术来对齐不同语言的表示,另一种方法则是通过在额外的情感语料库上预训练XLM-R并进行提示调优来实现少量样本(甚至零样本)的跨语言立场检测[8]。然而,这两种方法在没有目标语言标注训练数据的情况下都无法取得令人满意的性能。
在将源语言训练的模型应用于目标语言时,主要遇到的挑战之一是不同语言的目标通常存在差异,这是由于社会文化背景和语言表达的差异造成的。这导致了目标语言中存在未见目标的问题,因此需要不仅从源语言到目标语言进行知识转移,还需要从已知目标到未见目标的知识转移。为了解决这一问题,张等人[9]提出了跨语言跨目标立场检测(CCSD)这一新任务,并采用了双教师架构来将语言知识和目标导向知识转移到目标语言。尽管CCSD[9]取得了良好的性能,但它有一个关键的限制:它严重依赖于目标特定的语义。这种过度依赖限制了其对未见目标的泛化能力,因为模型无法捕捉到普遍的、与目标无关的语言模式。我们的研究正是基于这一观察,旨在通过显式提取和融合目标无关特征(即在不同主题中普遍适用的模式)以及传统的目标相关特征来弥合这一泛化差距。
跨语言跨目标立场检测面临的现有挑战如下:语言之间的语义差异会导致跨语言表示不对齐,从而降低知识转移的效果;此外,多样化的目标以及稀缺的标注数据共同限制了单语言训练模型在目标语言新任务上的泛化能力。
为了应对上述挑战,我们提出了基于目标感知和目标无关特征的跨语言跨目标立场检测框架(CCTT)。该框架考虑了目标无关特征和目标相关特征的互补性:前者揭示了超越特定目标的普遍模式,而后者则明确模拟了文本与特定目标之间的交互关系。我们设计了跨语言对比学习机制,增强了具有不同语义的句子表示之间的区分度,同时减少了相同语义在不同语言的句子向量之间的距离。这使得编码器能够生成高度区分性的目标相关特征,这对于有效的立场检测至关重要。更重要的是,我们探索了一种混合聚类策略,其中结合了创新的模糊边界多分配机制,以提取专注于不同文本中普遍模式的代表性目标无关特征,从而促进了跨目标的泛化能力。在两个基于X-Stance构建的数据集上的实验表明,我们的框架表现优于基线模型。
总的来说,我们的工作贡献包括:
  1. 我们提出了CCTT框架,该框架明确分离了目标无关特征和目标相关特征。与以往过度依赖目标特定语义的方法不同,CCTT利用这两种特征的互补性有效弥合了已知目标和未见目标之间的差距。
  2. 我们引入了一种结合模糊边界多分配(FBMA)的混合聚类策略,应用于关键词掩码文本。这种新机制迫使模型捕捉普遍的立场模式,而不是表面的关键词,从而增强了模型对目标变化的鲁棒性。
  3. 我们在具有不同设置的两个代表性多语言立场数据集上进行了实验,实验结果表明我们的框架表现出色,在“社会-部分”(Society-Partial)、“社会-无”(Society-None)和“政治-部分”(Politics-Partial)三个类别中,F1分数分别提高了9.66%、7.33%和7.12%。
我们提出的框架系统地分为四个关键部分:目标无关特征提取和目标相关特征学习(分别用于获取目标无关特征和目标相关特征)、特征融合(用于特征整合),以及立场分类器(用于最终立场检测)。

跨目标立场检测

在现实世界应用中,目标过于多样化,无法为每个目标获取丰富的标注数据。因此,单一目标内的立场检测在不同目标之间的泛化效果较差。跨目标立场检测[3]通过利用来自源目标的大量标注数据来检测对目标态度的判断。
Bicond[1]是早期的跨目标立场检测尝试,它采用多层LSTM模型以双向方式对文本进行编码。

问题定义

正式来说,源语言的训练集表示为,目标语言的测试数据集表示为,其中表示第个目标及其文本,表示文本对目标的立场标签,分别表示源语言和目标语言的样本数量。跨语言立场检测使用源语言数据集训练模型,并在目标语言的测试集上预测立场标签。

框架

CCTT的总体框架如下:

数据集和目标设置

X-Stance是由Vamvas和Sennrich[16]构建的一个广泛使用的多语言立场数据集,涉及瑞士政治,其中德语和法语分别作为源语言和目标语言。每个样本包括选民提出的一个问题、候选人提出的相应答案以及立场标签(“支持”或“反对”)。根据之前的研究[9],我们在两个基于X-Stance构建的数据集上进行了实验:(1) “政治”(Politics)涵盖了所有数据

结论

跨语言跨目标立场检测是一项越来越受欢迎的任务,它涉及跨语言的知识转移以及对未见目标的泛化。在本文中,我们提出了一个简单高效的跨语言跨目标立场检测框架CCTT,该框架利用目标无关特征和目标相关特征的互补性来进行立场检测。我们设计了跨语言对比学习机制,以生成具有区分性的目标相关特征。

CRediT作者贡献声明

曾娜(Na Zeng):负责写作——审稿与编辑、初稿撰写、验证、软件开发、方法论研究、数据分析、数据整理。 何晴(Qing He):负责验证、监督、软件开发、方法论研究、资金获取、数据分析、概念化。 吴希胤(Xiyin Wu):负责写作——审稿与编辑、可视化、项目监督、数据整理。 李彦波(Yanbo Li):负责写作——审稿与编辑、可视化。 杜妮索(Nisuo Du):负责写作——审稿与编辑、项目协调。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究部分得到了中国国家自然科学基金“从调查文件分析中构建证据链的研究(62166006)”和中国国家重点计划“基于教育大数据的个性化学习关键技术及示范应用(2023YFC3341200)”的支持。同时,也得到了贵州省科技支持计划“空间优化关键技术”的部分支持。
曾娜(Na Zeng)于2023年从贵州大学大数据与信息工程学院获得学士学位,目前正在同一学院攻读硕士学位,研究方向包括自然语言处理和立场检测。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号