编辑推荐:
对话情感识别中的人格建模方法研究。提出ScERC模型,通过大语言模型零样本学习人格特质,构建跨说话者差异(betSpe)和同一说话者动态变化(inSpe)双模块机制,结合交互模块提升情感推断精度。实验表明在MELD、IEMOCAP、DailyDialog数据集上,该模型在准确率和F1值上均优于基线方法。
严成|陈慧玲|郭轩锋|丁波|裴志鹏
江西师范大学人工智能学院,中国江西省南昌市330022
摘要
对话中的情感识别(ERC)旨在自动识别对话中每个话语所表达的情感状态。尽管现有研究通过建模对话情境和说话者信息提高了识别性能,但它们往往忽略了两个关键因素:由于性格特征差异导致的说话者之间的情感表达差异,以及同一说话者在不同情境下情感表达的变化。为了解决这些问题,我们提出了ScERC,这是一种基于大型语言模型的、具有性格感知能力的对话情感识别模型。ScERC利用大型语言模型在零样本设置中推断说话者的五大性格特征,并引入了两个专门模块来建模说话者之间的情感表达差异(betSpe)以及同一说话者在不同情境下的情感表达变化(inSpe)。此外,还设计了一个相互交叉注意力交互模块,以整合由性格驱动的情感线索,从而进行更准确的情感推断。在三个公共基准数据集——MELD、IEMOCAP和DailyDialog上进行的实验表明,ScERC在准确性和F1分数方面优于现有的基线模型,验证了所提出方法的有效性。
引言
对话中的情感识别(ERC)旨在自动识别对话中每个话语的情感状态。与句子级情感识别不同,对话涉及一个动态的交互过程[1],这对情感识别提出了重大挑战。尽管现有的ERC研究通过情境建模[2]和说话者信息建模[3](例如引入静态说话者嵌入[4]或图结构[5])取得了一些进展,但大多数方法未能系统地利用深度性格特征。它们忽略了两个关键问题:首先,个体之间的性格差异导致显著不同的情感表达模式[6]。赵等人[7]通过探索社交网络环境证实,不同的观察者对同一对象会产生显著个性化的情感感知。例如,为了表达“心情好”的感觉,一个外向开朗的人可能会使用“great”,而一个谨慎内向的人可能会使用“okay”[8]。其次,现有研究通常假设情感表达是静态的[9],没有考虑到同一个体可能会根据不同情境调整他们的性格表现,从而导致情感表达的动态变化[10]。这种对“说话者之间差异”和“说话者内部动态变化”的忽视限制了模型实现个性化、细粒度情感理解的能力,使它们在复杂情境下容易产生歧义。
然而,将性格建模引入ERC面临数据和标签稀缺的瓶颈。现有的性格特征预测方法大多依赖于规模有限的老旧数据集(例如Essays数据集[11],其中只包含34名学生的文本),这使得难以涵盖当代语言的多样性和演变(例如某些负面词汇中的情感语气减弱[12])。为了解决过度依赖大规模手动注释的困境,赵等人[13]提出情感分析领域应朝着“标签高效”的学习范式发展,为解决数据稀缺问题提供了重要的方向指导。近年来,大型语言模型(LLMs,如GPT-4)在开放领域文本理解和深度属性推断方面展示了显著的能力[14]。李等人[15]通过整合符号知识库证明了增强对话情感识别的可行性,验证了外部知识的价值。随后,涂等人的实证研究[16]进一步表明,像GPT-4这样的生成模型可以仅基于对话内容推断出深层潜在属性,为在性格注释稀缺的情况下将性格特征整合到ERC任务中提供了新的解决方案路径。
为了突破现有方法的局限性,我们从一般模式识别的角度重新审视了ERC任务。在序列数据分类中,准确的识别通常依赖于将时间不变的全局先验(例如,身份、性格)与动态的局部特征(例如,短暂的情感状态)分离。由于对话中的局部语言特征容易受到情境噪声和语义歧义的干扰,我们将ERC任务重新定义为“特征校正”问题。具体来说,我们将大型模型提取的性格特征视为一个稳定的全局先验约束。正如连等人[17]在处理噪声标签学习时指出的,引入全局约束可以有效规范高方差局部表示,从而实现特征的迭代细化。这一策略与Tellamekala等人的想法[18]一致,他们利用潜在分布来校准多模态融合中的不确定性。受此启发,我们的双流架构通过静态全局先验和动态局部特征的相互补充,显著增强了模型对类别内变化的鲁棒性,旨在消除微妙情感模式中的歧义。
在“特征校正”范式的指导下,本文提出了ScERC,这是一种基于大型语言模型的、具有性格感知能力的对话情感识别模型。该模型利用LLMs的零样本推理能力来获取说话者的性格特征。在此基础上,它从两个维度深入建模情感表达:“说话者之间的差异”(betSpe)和“说话者内部的动态变化”(inSpe),从而实现个性化和细粒度的情感理解。
总之,本研究的主要贡献如下:
1. 我们提出了一种基于零样本学习的性格特征获取范式。通过将GPT-4与精心设计的提示策略相结合,我们在没有标注数据的情况下实现了高度可靠的性格特征提取。这有效地解决了现有方法中性格数据稀缺的问题,并为情感计算提供了更通用的性格建模方案。
2. 我们设计了ScERC情感识别框架。我们创新性地构建了一个由“说话者差异建模(betSpe)”和“说话者内部动态建模(inSpe)”组成的双模块机制,并引入了一个交互模块来融合这两种类型的特征。这使得模型能够同时捕捉由不同性格导致的表达差异,并适应同一说话者在不同情境下的动态变化。
3. 我们验证了模型的可解释性和有效性。在三个基准数据集(MELD、IEMOCAP和DailyDialog)上进行的广泛实验表明,ScERC在各种指标上普遍优于现有的基线模型。进一步的可视化分析和案例研究证实,结合性格特征显著增强了模型在语义模糊场景中的推理能力和可解释性。
部分片段
对话中的情感识别
对话中的情感识别是人类-计算机交互系统的关键组成部分。其本质是使模型能够理解对话中说话者的情感状态,从而生成富有同情心和共鸣的响应。现有的ERC研究可以分为两类。一类依赖于预训练的语言模型(PLMs)来建模对话情境和说话者以进行情感预测。DialogXL [19]使用
传统的ERC模型
对话数据源表示为,其中Ci代表第i个对话,N是数据集的大小。每个对话由一系列话语组成,其中S是话语的总数。每个话语都被分配了一个情感标签,K是情感类别的数量。
一般来说,由大型模型辅助的ERC模型(表示为M)是从D中学习得到的,旨在为每个预定义的情感标签生成响应r
数据集和评估指标
实验在三个广泛使用的ERC数据集上进行:MELD [29]、IEMOCAP [30]和DailyDialog [31]。
MELD:该数据集源自电视剧《Friends》,包含带有七种情感标签的多方对话。它用于评估模型处理复杂多说话者互动的能力。
IEMOCAP:一个经典的二元基准数据集,包含六种情感类别。其结构化的两人互动格式用于验证模型在
性能比较
表3显示了ScERC模型与各种基线模型在三个数据集上的性能比较。粗体文本代表最佳性能。
在比较实验中,我们评估了ScERC模型和各种基线模型在MELD、IEMOCAP和DailyDialog数据集上的性能。评估指标包括准确性、精确度、召回率和F1分数。如表3所示,ScERC模型在大多数评估指标上优于其他基线模型。然而,在
结论
本文从模式识别的角度研究了对话中情感识别的个体差异建模,并提出了一个称为ScERC的具有性格感知能力的框架。通过利用基于大型语言模型的零样本性格特征推断,并结合说话者之间(betSpe)和说话者内部(inSpe)的建模机制,ScERC明确捕获了情感表达的异质性和情境情感动态,而无需额外的
CRediT作者贡献声明
严成:监督、资金获取。陈慧玲:写作——审阅与编辑,写作——初稿。郭轩锋:监督。丁波:监督。裴志鹏:监督。
利益冲突声明
———————————————————————– 严成报告获得了国家自然科学基金(62167006)的财政支持。严成报告获得了江西省技术创新基地计划(20242BCC32021)的财政支持。严成报告获得了江西省学术和技术领军人才培养计划——领军人才项目(项目编号20213BCJL22047)的财政支持。严成报告获得了
致谢
本研究得到了国家自然科学基金(项目编号62167006)、江西省技术创新基地计划(20242BCC32021)、江西省学术和技术领军人才培养计划——领军人才项目(项目编号20213BCJL22047)以及国家社会科学基金(项目编号20AXW009)的支持。