大型语言模型在动机性访谈中的回答与人类治疗师之间的匹配度

《JAMA Network Open》:Alignment of Large Language Model Responses With Human Therapists in Motivational Interviewing

【字体: 时间:2026年03月24日 来源:JAMA Network Open 9.7

编辑推荐:

  大语言模型(LLM)在动机访谈(MI)对话中展现出上下文适用性高于语义相似性,话题一致性显著影响对齐效果,且长对话中性能略有下降。

  
关键点

问题:大型语言模型(LLM)能否生成与动机性访谈(MI)中人类治疗师回答相一致的治疗师回应?

研究结果:在这项针对154次高保真动机性访谈会话(共3706个治疗师回答)的横断面研究中,LLM生成的治疗师回应在语义上与人类治疗师的回答相似度较低,但在语境适用性方面表现较好。在治疗师话题一致性较高的会话中,两者的一致性显著更高;而随着会话时间的延长,这种一致性略有下降。

意义:研究结果表明,LLM能够生成在语境上恰当且符合动机性访谈要求的回应,但其在连贯性和风格一致性方面的局限性表明,在临床应用之前仍需进一步验证。

摘要

重要性:大型语言模型(LLM)在心理健康领域的应用日益增多,但它们生成与循证心理治疗相匹配的回应的能力仍存在不确定性。动机性访谈(MI)是一种结构化的咨询方法,为评估LLM生成回应与人类治疗师回应之间的一致性提供了实证基础。

研究目的:利用自动化相似性指标,评估LLM的回应与动机性访谈中治疗师回应的一致程度。

研究设计、环境和参与者

主要结果和测量方法:通过以下方法评估LLM生成回应与治疗师回应之间的一致性:(1) 基于句子嵌入的余弦相似度(用于捕捉语义重叠);(2) DeepEval(一种基于深度学习的指标,用于评估连贯性和语境适用性)。同时,还引入了治疗师话题一致性指数来衡量会话内的主题连贯性,并将其作为影响一致性的调节因素。

结果3706 = 3.987;P < 0.001);DeepEval得分的差异也具有统计学意义(平均差异为0.038 [0.010];t3706 = 3.747;P < 0.001)。两种指标之间的相关性较低(Spearman ρ = –0.01),说明它们分别反映了回应一致性的不同方面。随着会话时间的延长,LLM的表现略有下降(余弦相似度的平均下降率为–0.0005 [0.0016],DeepEval的下降率为–0.0005 [0.0022]),表现为语言表达更加冗长且语境关联性减弱。

结论与意义

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号