
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在动机性访谈中的回答与人类治疗师之间的匹配度
《JAMA Network Open》:Alignment of Large Language Model Responses With Human Therapists in Motivational Interviewing
【字体: 大 中 小 】 时间:2026年03月24日 来源:JAMA Network Open 9.7
编辑推荐:
大语言模型(LLM)在动机访谈(MI)对话中展现出上下文适用性高于语义相似性,话题一致性显著影响对齐效果,且长对话中性能略有下降。
问题:大型语言模型(LLM)能否生成与动机性访谈(MI)中人类治疗师回答相一致的治疗师回应?
研究结果:在这项针对154次高保真动机性访谈会话(共3706个治疗师回答)的横断面研究中,LLM生成的治疗师回应在语义上与人类治疗师的回答相似度较低,但在语境适用性方面表现较好。在治疗师话题一致性较高的会话中,两者的一致性显著更高;而随着会话时间的延长,这种一致性略有下降。
意义:研究结果表明,LLM能够生成在语境上恰当且符合动机性访谈要求的回应,但其在连贯性和风格一致性方面的局限性表明,在临床应用之前仍需进一步验证。
重要性:大型语言模型(LLM)在心理健康领域的应用日益增多,但它们生成与循证心理治疗相匹配的回应的能力仍存在不确定性。动机性访谈(MI)是一种结构化的咨询方法,为评估LLM生成回应与人类治疗师回应之间的一致性提供了实证基础。
研究目的:利用自动化相似性指标,评估LLM的回应与动机性访谈中治疗师回应的一致程度。
研究设计、环境和参与者
主要结果和测量方法:通过以下方法评估LLM生成回应与治疗师回应之间的一致性:(1) 基于句子嵌入的余弦相似度(用于捕捉语义重叠);(2) DeepEval(一种基于深度学习的指标,用于评估连贯性和语境适用性)。同时,还引入了治疗师话题一致性指数来衡量会话内的主题连贯性,并将其作为影响一致性的调节因素。
结果3706 = 3.987;P < 0.001);DeepEval得分的差异也具有统计学意义(平均差异为0.038 [0.010];t3706 = 3.747;P < 0.001)。两种指标之间的相关性较低(Spearman ρ = –0.01),说明它们分别反映了回应一致性的不同方面。随着会话时间的延长,LLM的表现略有下降(余弦相似度的平均下降率为–0.0005 [0.0016],DeepEval的下降率为–0.0005 [0.0022]),表现为语言表达更加冗长且语境关联性减弱。
结论与意义