情感上的支持者通常会在一次行动中运用多种策略

《Neurocomputing》：Emotional supporters often use multiple strategies in a single turn

【字体：大中小】 时间：2026年05月10日 来源：Neurocomputing 6.5

编辑推荐：

　　白鑫|陈冠怡|何婷婷|范瑞|周晨莲|刘宇中国武汉华中师范大学教育人工智能学院摘要情感支持对话（ESC）对于向处于困境中的人提供共情、认可和可操作的指导至关重要。然而，现有的ESC任务定义过于简化了支持性响应的结构，通常将它们建模为单一策略-话语对。通过对ESConv数据集的详细语

白鑫|陈冠怡|何婷婷|范瑞|周晨莲|刘宇

中国武汉华中师范大学教育人工智能学院

摘要

情感支持对话（ESC）对于向处于困境中的人提供共情、认可和可操作的指导至关重要。然而，现有的ESC任务定义过于简化了支持性响应的结构，通常将它们建模为单一策略-话语对。通过对ESConv数据集的详细语料库分析，我们发现了一个常见但之前被忽视的现象：情感支持者在单个回合中经常连续使用多种策略。我们重新定义了ESC任务，以考虑这一点，提出了一种新的表述方法，该方法要求根据对话历史生成完整的策略-话语对序列。为了实现这一改进的任务，我们引入了几种建模方法，包括监督式深度学习模型和大型语言模型。实验表明，在这种重新定义的任务下，最先进的LLM在性能上优于监督模型和人类支持者。值得注意的是，与一些早期研究的结果相反，我们观察到LLM经常提出问题并提供建议，展示了更全面的支持能力。

引言

情感支持对话（ESC）在通过有意义的、富有同情心的对话帮助个体管理情绪困扰和应对个人挑战方面发挥着关键作用[8]，[14]。ESC的目标不仅是减少情绪强度，还要在困难时期培养一种连接感、认可感和清晰度。尽管其重要性不言而喻，但提供有效的情感支持仍然是一项复杂而细致的任务，通常需要敏感性、情境理解以及高级的沟通技巧——这些特质即使对人类来说也可能难以始终如一地展现[3]。因此，构建能够参与ESC的智能系统既是一个宝贵的机会，也是一个重大挑战。

为此，刘等人[21]提出了基于Hill帮助技能理论[9]的ESC框架，并引入了ESConv数据集。在ESC框架中，ESC发生在寻求帮助者和情感支持者之间。该框架建议支持者遵循三个阶段（即探索、安慰和行动），并使用总共八种相关策略（详见附录A）。图1展示了一个ESC的例子。根据寻求帮助者的问题，支持者从探索阶段开始，在必要时使用提问等策略来获取有关其情况的关键细节。一旦获得了必要的信息，支持者可以通过反映寻求者的情绪或提供肯定来给予安慰，和/或通过建议可能的下一步行动来采取行动。

基于这一框架和ESConv数据集，刘等人[21]定义了ESC任务。自那时起，已经开发了一系列基于深度学习技术或大型语言模型（LLM）的情感支持对话系统（ESDS）[4]，[6]，[12]，[26]，[32]，[33]。有趣的是，最近的研究发现，尽管LLM在各种心理辅导任务中表现出色[1]，但在ESC任务上经常遇到困难。具体来说，它们倾向于选择不适当的策略[12]，并且经常未能为寻求者提供建议[2]。

我们认为，LLM表现的差异源于当前ESC任务定义中的一个错误。在现有的表述中，ESC任务是基于对话历史来预测支持者的下一个策略及其相应的话语。¹然而，这个定义忽略了一个关键细节：如图1所示，ESC中单个回合中的单一响应可能包含多种策略，每种策略都对应着自己的话语。我们将这种现象称为“连续使用多种策略”（CUS）。CUS的存在从根本上将ESC任务与其他旨在一步生成整个响应的对话任务区分开来。在当前的ESC任务下，要有效地处理CUS，ESDS必须完成两个不同的子任务：（1）在生成CUS中的第一个策略及其话语时，任务对应于情感支持话语生成（图1(1)）；（2）在生成CUS中的每个后续策略-话语对时，对话历史中的最后一句话已经是支持者说的，任务就变成了情感支持信息延续（图1(2)）。

实际上，第二个子任务在理论上是不理想的，并且在真实互动中不会自然发生，因为它假设已经做出了继续之前消息的决定。在实践中，需要一个单独的机制来决定是否继续支持者之前的消息。缺乏这种机制会导致两个关键后果。首先，在基于ESConv数据集评估ESDS时，现有的零样本或少量样本的基于LLM的ESDS无法认识到区分这些子任务的必要性，因而只生成了一个策略-话语对。因此，它们在基于语料库的评估中的表现较差。其次，尽管在ESC任务上训练的监督型ESDS在基于语料库的评估中表现良好，因为它们隐含地完成了这两个子任务，但在实际应用中，它们只执行了第一个子任务，每次响应只生成一个策略-话语对。因此，通常在CUS中出现的策略，如“提供建议”或“反映感受”，很少被使用。

为了解决这个问题，我们认为明确建模CUS对于构建有效的ESDS和准确定义ESC任务至关重要。如图1(3)所示，ESC任务应该被重新表述为根据对话历史预测整个响应——包括所有策略及其相应的话语。在这项研究中，我们首先对ESConv数据集进行了简要的语料库分析，以检查ESC中CUS的普遍性。然后，我们重新定义了ESC任务。基于这种新的表述方法，我们对ESConv数据集进行了预处理，并引入了几种基线模型，包括从监督式深度学习方法到基于LLM的系统，所有这些模型都明确地对CUS进行了建模以完成任务。我们使用自动指标和人类评估来评估这些模型，并分析它们在策略使用和生成的情感支持响应质量方面的表现。最后，我们在原始ESC任务表述和改进后的表述下，对基于LLM的ESDS进行了实证比较。

本文的主要贡献如下：

1.
我们通过语料库分析发现，现有的情感支持对话任务定义存在一个根本性局限性，即它们未能捕捉到在单个回合中连续使用多种支持策略的常见现象。
2.
我们重新定义了ESC任务，要求生成支持者的整个响应作为一个有序的策略-话语对序列，使任务表述与现实世界的情感支持实践保持一致。
3.
基于这种重新定义，我们修改了ESConv数据集的数据处理方法，提出了几种基线模型（包括监督型和基于LLM的模型），并进行了全面的自动和人类评估，以验证改进后的任务表述的有效性。

章节摘录

分析和重新定义ESC任务

我们首先分析ESConv数据集，以确定CUS发生的频率。根据我们的发现，我们重新定义了ESC任务并预处理数据集，以适应新的任务表述。

模型

我们提出了四种基线方法来明确建模CUS并相应地生成响应，包括三种基于监督式深度学习的方法和一种基于LLM的方法。与之前的工作[21]，[26]，[32]类似，我们的监督方法是基于BlenderBot [25]构建的。²

实验

我们首先描述了实验设置，然后使用自动和人类评估报告了在改进后的ESC任务上的模型表现。需要强调的是，原始的ESC任务表述存在重要局限性，而改进后的ESC任务构成了一个新定义的问题，需要不同的建模范式和评估指标。因此，使用传统指标（例如BLEU）直接比较同一模型在两种任务表述下的表现是不合适的。

实证比较原始ESC任务和重新定义的ESC任务

在第2节中，我们从理论上讨论了原始ESC任务定义的局限性。在这里，我们通过人类评估和案例研究比较了在原始ESC任务和改进后的ESC任务下基于LLM的ESDS的输出。

结论

在这项工作中，我们发现了当前情感支持对话（ESC）任务表述中的一个关键局限性。通过对ESConv数据集的详细语料库分析，我们发现了在单个支持者回合中连续使用多种策略（CUS）的普遍性，这是先前定义中忽略的一个方面。我们正式改进了ESC任务，以反映这种更真实的情感支持对话结构，并引入了一个与之一致的改进后的基准。

CRediT作者贡献声明

白鑫：撰写——初稿、方法论、调研、概念化。陈冠怡：撰写——初稿、监督、方法论、资金获取、概念化。何婷婷：撰写——审稿与编辑、监督、资金获取。范瑞：撰写——审稿与编辑、验证、方法论。周晨莲：撰写——审稿与编辑、验证。刘宇：撰写——审稿与编辑、验证。

利益冲突声明

作者声明以下可能的利益冲突/个人关系：

陈冠怡报告获得了中国教育部（MOE）人文与社会科学项目（项目编号25YJC740005）的财务支持。何婷婷报告获得了国家语言文字研究基地的财务支持。如果有其他作者，他们声明没有已知的利益冲突。

致谢

本工作得到了中国教育部（MOE）人文与社会科学项目（项目编号25YJC740005）、国家语言文字研究基地（项目编号ZDI145-168）以及华中师范大学前沿交叉研究研究院的基础研究基金（项目编号JC2026PT-004）的支持。

白鑫目前在中国武汉华中师范大学教育人工智能学院攻读博士学位。他的研究兴趣集中在自然语言处理、情感计算和人机对话方面。

摘要

引言

章节摘录

分析和重新定义ESC任务

模型

实验

实证比较原始ESC任务和重新定义的ESC任务

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行