大型语言模型在动机性访谈中的回答与人类治疗师之间的匹配度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JAMA Network Open》：Alignment of Large Language Model Responses With Human Therapists in Motivational Interviewing

【字体：大中小】 时间：2026年03月24日 来源：JAMA Network Open 9.7

编辑推荐：

　　大语言模型（LLM）在动机访谈（MI）对话中展现出上下文适用性高于语义相似性，话题一致性显著影响对齐效果，且长对话中性能略有下降。

关键点

问题：大型语言模型（LLM）能否生成与动机性访谈（MI）中人类治疗师回答相一致的治疗师回应？

研究结果：在这项针对154次高保真动机性访谈会话（共3706个治疗师回答）的横断面研究中，LLM生成的治疗师回应在语义上与人类治疗师的回答相似度较低，但在语境适用性方面表现较好。在治疗师话题一致性较高的会话中，两者的一致性显著更高；而随着会话时间的延长，这种一致性略有下降。

意义：研究结果表明，LLM能够生成在语境上恰当且符合动机性访谈要求的回应，但其在连贯性和风格一致性方面的局限性表明，在临床应用之前仍需进一步验证。

摘要

重要性：大型语言模型（LLM）在心理健康领域的应用日益增多，但它们生成与循证心理治疗相匹配的回应的能力仍存在不确定性。动机性访谈（MI）是一种结构化的咨询方法，为评估LLM生成回应与人类治疗师回应之间的一致性提供了实证基础。

研究目的：利用自动化相似性指标，评估LLM的回应与动机性访谈中治疗师回应的一致程度。

研究设计、环境和参与者

主要结果和测量方法：通过以下方法评估LLM生成回应与治疗师回应之间的一致性：(1) 基于句子嵌入的余弦相似度（用于捕捉语义重叠）；(2) DeepEval（一种基于深度学习的指标，用于评估连贯性和语境适用性）。同时，还引入了治疗师话题一致性指数来衡量会话内的主题连贯性，并将其作为影响一致性的调节因素。

结果₃₇₀₆ = 3.987；P < 0.001）；DeepEval得分的差异也具有统计学意义（平均差异为0.038 [0.010]；t₃₇₀₆ = 3.747；P < 0.001）。两种指标之间的相关性较低（Spearman ρ = –0.01），说明它们分别反映了回应一致性的不同方面。随着会话时间的延长，LLM的表现略有下降（余弦相似度的平均下降率为–0.0005 [0.0016]，DeepEval的下降率为–0.0005 [0.0022]），表现为语言表达更加冗长且语境关联性减弱。

结论与意义

联系信箱：

粤ICP备09063491号

热点排行