大型语言模型支持的陪伴机器人,用于缓解老年人的孤独感:一项结合了焦点小组调查和家庭实地应用的英日质性研究

《International Psychogeriatrics》:Large language model-supported companion robots for loneliness in older people: A UK–Japan qualitative study integrating focus groups and in-home deployment

【字体: 时间:2026年05月07日 来源:International Psychogeriatrics 4.3

编辑推荐:

  佐竹勇人 | 米娜·尼格伦 | 克莱尔·于 | 勘木邦彦 | 内藤一平 | 辻井亮 | 石丸大輝 | 梅村和宏 | 佩妮·拉帕波特 |娜迪娅·比安基-贝尔图泽 | 池田学 | 罗伯特·霍华德 英国伦敦大学学院精神病学系 **摘要** 背景: 对话陪伴机器人已被研

  佐竹勇人 | 米娜·尼格伦 | 克莱尔·于 | 勘木邦彦 | 内藤一平 | 辻井亮 | 石丸大輝 | 梅村和宏 | 佩妮·拉帕波特 |娜迪娅·比安基-贝尔图泽 | 池田学 | 罗伯特·霍华德
英国伦敦大学学院精神病学系

**摘要**
背景:
对话陪伴机器人已被研究作为一种缓解老年人孤独感的方法。大型语言模型(LLMs)能够使陪伴机器人具备灵活的对话能力,但其可接受性和适宜性仍存在不确定性。我们探讨了老年人对基于LLM的陪伴机器人在缓解孤独感方面的期望和担忧,重点关注其可接受性而非有效性。

**方法**
我们开展了一项英日联合的定性研究,包括在英国伦敦对社区居住的老年人进行的面对面焦点小组讨论(n=17人),以及在大阪对轻度认知障碍(MCI)门诊患者进行的为期一周的家庭使用及后续访谈(n=8人)。通过反思性主题分析对访谈记录进行编码;为了跨地区比较,将日本的编码主题映射到从英国更大的数据集中生成的主题结构上。同时收集了描述性问卷调查和家庭使用期间的对话日志数据,以补充定性结果。

**结果**
参与者认为陪伴机器人可以为孤独的老年人提供支持,但强调其可接受性取决于交互机制和用户自主性。研究发现三个跨情境主题:(1)实用性和功能性(响应延迟、轮换对话、期望的功能及家庭使用中的可控性);(2)情感连接与互动深度(社交存在感与对话契合度和深度的感知限制);(3)伦理与社会考量(隐私/数据管理、使用便捷性以及对替代人类交流的担忧)。

**结论**
如果优先考虑可用性、用户可调节的控制方式和伦理管理,基于LLM的陪伴机器人可能为部分老年人(包括MCI患者)提供可接受的、低强度的支持。需要更长时间的部署来评估其潜在的持续益处和负担。

**引言**
晚年孤独感日益被视为一个具有临床相关性和社会重要性的问题,与较差的心理健康状况、生活质量下降以及不良健康结果相关[1][2][3]。由于丧亲、行动能力下降和社交网络缩小,老年人可能更加容易感到孤独[3][4]。在心理健康背景下,认知障碍和神经精神症状会进一步加剧孤独感,同时使传统的社交干预措施难以实施。虽然提出了多种缓解孤独感的方法,如团体项目、交友干预和社会处方等,但由于实施挑战、资源需求以及需根据个体情况进行调整,这些方法的有效性可能因环境和个体而异[5][6][7]。对于某些人——尤其是独居者、功能有限者或外出能力受限者——可用的选择可能难以获取或持续使用,且可能与现实生活情况不符。
因此,数字和辅助技术作为潜在的可扩展形式的低强度心理社会支持受到了越来越多的关注。尽管相关,但孤独感在概念上不同于社会隔离和社会联系:孤独感指的是由期望中的关系与实际关系之间的差距引发的主观痛苦,而社会隔离更多指客观上的社交缺失。一些与陪伴技术相关的体验,如感知到的陪伴感和社交存在感,可能接近孤独感而非等同于孤独感。先前的回顾和元分析表明,社交机器人和对话代理可能对老年人的孤独感和情绪相关结果有一定的益处,尽管证据基础仍不统一且常受到方法学局限性的影响[8][9]。在我们最近关于老年人自主对话代理的系统性回顾和元分析中,这些干预措施与孤独感和抑郁症状的轻微至中度改善有关,尽管存在相当大的异质性和有限的比较证据[10]。值得注意的是,现有文献大多关注基于规则或领域限制的系统,而很少有研究考察在真实家庭环境中的应用情况——尤其是在认知障碍或心理健康问题患者中。
我们团队的可行性研究——包括基于模板的对话机器人在家庭中的研究——表明,一些认知受损的老年人可能会从具身化的代理中获得安慰或陪伴感,但也面临实际障碍,如对话深度有限、响应延迟和操作挑战[11][12]。可接受性不仅取决于感知到的心理社会益处,还取决于可用性、对话质量、感知到的社交适宜性以及与隐私和替代人类交流相关的信任问题[13][14]。

**生成式人工智能(AI)的最新进展**——尤其是大型语言模型(LLMs)——进一步改变了人们对对话支持质量的期望。与脚本化对话相比,基于LLM的系统能够产生更灵活、更具情境变化的响应,可能支持开放式对话,其中连续性和响应性与任务完成同样重要。然而,基础模型相关的风险(如幻觉、透明度不足、偏见以及响应与用户意图对齐的挑战)引发了关于安全性、治理和心理适宜性的重要问题,特别是对于脆弱用户[15][16]。在具身机器人环境中,这些风险可能因轮换对话的限制、响应延迟以及身体存在带来的更高社交期望而加剧。与老年人的 participatory 工作表明,基于LLM的陪伴机器人可能会产生缓慢、重复、表面化、不连贯或情感不匹配的响应,从而引发用户的担忧[17][18];我们来自日本更广泛安装项目的初步报告也描述了轻度认知障碍患者在家庭中使用该机器人一周内的感受和互动负担[19]。
要设计出可接受、安全且临床适宜的基于LLM的陪伴机器人,了解用户在真实情境下的期望和担忧至关重要。在这项研究中,我们研究了老年人在两种互补情境(英国焦点小组和日本家庭安装研究)中使用基于LLM的陪伴机器人缓解孤独感的期望和担忧。在初步报告的基础上,我们整合了更多日本访谈数据与英国数据集,以生成关于影响LLM支持的陪伴机器人可接受性和临床适宜性的跨情境洞察。

**研究设计**
我们开展了一项英日多地点的定性研究,包含两个互补的部分:(1)在英国伦敦与社区居住的老年人进行面对面焦点小组讨论,期间使用桌面型基于LLM的对话机器人(Sota);(2)在日本大阪对轻度认知障碍门诊患者进行为期一周的家庭使用及后续半结构化访谈。我们预先确定了至少四个焦点小组(共17名参与者)和八次个体访谈。样本量基于定性研究指导确定,包括在设计阶段考虑数据充足性和饱和度。两个部分都收集了问卷数据,并对其进行描述性呈现以补充定性结果。这种结合了小组讨论和延长家庭使用的混合方法,使我们能够更全面地了解用户在短期和日常情境中的期望、体验和担忧。

**伦理批准**
研究获得了伦敦大学学院交互中心本地研究伦理委员会(ID:0416)和大阪大学医院伦理审查委员会(批准ID:24073(T1))的批准。所有参与者在参与前均提供了书面知情同意书。

**机器人/系统概述**
本研究中使用的机器人是Sota(日本大阪的Vstone公司制造的一款紧凑型桌面人形交流机器人)。Sota通过内置麦克风和扬声器支持语音交互,提供基本的手势,并通过眼睛LED灯显示交互状态。对话系统基于云平台,包括自动语音识别(ASR)、使用大型语言模型(GPT-4o via Azure OpenAI)生成响应以及文本转语音(TTS)合成。对话模式可通过机器人的物理控制或基于摄像头的运动检测启动(仅作为触发器;不录制或存储视频)。眼睛LED灯用于提示对话轮换。更多技术细节见补充说明。

**参与者**
**英国(伦敦):焦点小组**
参与者于2025年1月至3月期间招募,通过与之前参加过老龄化或痴呆预防研究的个体的直接联系以及现有参与者的推荐。纳入标准为:(1)年龄60岁及以上;(2)独立生活在社区中;(3)能够提供书面知情同意;(4)具备足够的英语能力参与焦点小组讨论。排除标准为:(1)被诊断为痴呆症;(2)有未控制的身体疾病。有一名49岁的参与者因招募错误参加了焦点小组,但被排除在分析样本之外。

**日本(大阪):家庭安装和访谈**
参与者于2024年4月至2025年3月期间从大阪大学医院的门诊精神科诊所招募。纳入标准为:(1)根据2011年美国国家老龄化与阿尔茨海默病研究所(NIA-AA)标准被诊断为轻度认知障碍;(2)年龄60岁及以上。排除标准为:(1)可能有碍与机器人互动的未控制身体疾病;(2)日语能力不足无法参与访谈。在日本队列中,独居不是纳入标准。机器人在自然家庭环境中使用,因此互动机会可能受到同居者或探访家庭成员的影响。先前使用类似对话或陪伴机器人的经验不是排除标准;日本队列中有两名参与者之前参加过使用对话机器人的家庭安装研究[11][12]。

**数据收集和程序**
**英国:**
2025年2月至3月在伦敦大学学院(UCL)进行了四个焦点小组讨论。每次会议有4-6名参与者,持续约两小时(包括短暂休息)。会议由YS主持,并至少有一名其他团队成员共同协助。使用探索性话题指南来引发参与者对基于LLM的陪伴机器人在缓解孤独感方面的期望和担忧,并进行实际操作。会议开始时先演示机器人,随后是参与者和机器人之间的结构化和非结构化互动及小组讨论。会议被录音,每次会议期间或之后立即进行简要的现场记录。会议结束时,参与者完成了评估机器人主观印象和可用性的问卷以及人口统计问题。

**日本:**
招募后,研究人员前往每位参与者家中安装机器人。安装过程包括约30分钟的培训,参与者收到了一份简短的书面指南,说明眼睛颜色指示器和基本对话轮换规则。鼓励参与者自由使用机器人,无最低使用要求;如有需要可提供技术支持。机器人放置在与对话适宜的位置(例如客厅桌子上),并尽可能避免电视声音的意外收录。预定安装时间为一周。如果无法在恰好一周后取回机器人,则在最接近的日期取回(安装时间介于2024年7月至2025年5月)。在家庭使用期结束后,KK或YS进行了约15分钟的半结构化访谈,并进行了问卷调查。

**图1**显示了英国焦点小组和日本家庭安装的数据收集环境。
**下载:**下载高分辨率图片(226KB)
**图1. 英国和日本的数据收集环境。(A)英国焦点小组环境。参与者轮流与位于桌子中央的陪伴机器人互动,随后进行小组讨论。主持人(YS)坐在房间另一端。(B)日本家庭安装环境。机器人被安装在一位轻度认知障碍患者的家中。研究团队提供了简短的用户指南,以协助日常使用。

**转录、匿名化和翻译**
访谈和焦点小组使用数字录音设备和/或Microsoft Teams在机构许可下进行录音。录音通过Microsoft Teams自动转录工具转录,并存储在大学管理的云环境中,随后由人工审核以纠正错误并匿名化标识符。选定的示例引用由研究团队从日语翻译成英语。

**系统日志和家庭互动指标(日本)**
我们收集并分析了系统日志,得出两个互动指标:(i)满足使用标准的完整安装天数比例;(ii)平均每日对话模式时间(分钟/天)。使用天数定义为记录中有≥20分钟对话模式互动的天数。这个阈值是实用性的选择,用于区分实质性互动和短暂或偶然的互动,同时认识到其是一种经验性判断。对话模式时间定义为从激活对话模式到终止的持续时间,根据相应的时间戳计算。参与度指标是在整个部署期间计算的,排除了安装和拆除的日子(部分时间),并以描述性方式呈现。

**评估机器人主观印象和可用性的问卷**
机器人的主观印象是通过Godspeed问卷系列(GQS)来评估的,该问卷包含五个子量表(拟人化、生动性、可喜爱程度、感知智能和感知安全性)。每个项目的评分范围是1到5分,我们报告了子量表的平均分数(范围1-5),分数越高表示正面印象越强[20]。可用性是通过10项的系统可用性量表(SUS;其中“系统”被替换为“机器人”)来评估的,评分采用标准的0-100分制(分数越高表示可用性越好)[21]。为了便于解释,SUS分数根据已发布的指南进行了描述性分类(例如,≥70分通常可接受;70-89分良好;>90分优秀;<70分勉强可接受;<50分可能不可接受),同时我们也认识到SUS不应单独用于做出绝对判断[22]。参与者在英国有研究和日本研究中都完成了这些问卷调查。问卷结果以描述性方式呈现,以便为定性发现提供背景信息。

**定性数据分析**
英国的焦点小组访谈记录使用NVivo(版本14和15)进行管理和编码,并通过反思性主题分析法进行分析[23]。编码工作由YS负责,MN作为第二编码员支持代码和主题的迭代完善。分析过程包括反复熟悉、逐行编码,以及通过在研究团队内的反思性讨论来发展、审查和命名主题。日本的部署后访谈记录同样使用NVivo(版本15)进行管理,并采用反思性主题分析法进行分析[23]。我们使用了从英国数据集中生成的主题结构作为组织框架。编码工作由YS领导,KK参与了共享编码框架的迭代发展和完善,以支持基于团队的分析。最初的编码考虑了访谈指南中涵盖的领域(可用性/操作挑战、互动过程中的情感反应以及感知到的局限性),同时允许通过持续的分析讨论进行归纳性完善和主题发展。

**与反思性主题分析法一致的是,我们没有将编码共识作为分析质量的标志。当解释存在差异时,这些差异是通过研究团队内的讨论来探索的,目的是完善分析理解,而不是以正式的可靠性为导向来解决分歧。我们没有将数据饱和度作为正式的结束点;相反,我们的目标是生成足够丰富的描述,以支持每个研究组成部分中的有意义的主题发展。为了支持跨site的整合,使用了从较大英国数据集中生成的主题结构作为组织框架。随后,日本数据集的代码和主题通过英日研究团队之间的讨论被映射到这个结构上。**

**参与者特征**
在英国,有18名参与者参加了第一轮焦点小组讨论;其中一名49岁的参与者不符合年龄要求,因此被排除在分析样本之外。英国样本包括17名参与者(平均年龄72.5岁,标准差7.1岁;年龄范围61-85岁),包括10名女性和7名男性,平均教育年限为14.6年(标准差3.4年;范围10-21年)。在日本,共有8名参与者(全部为女性;平均年龄81.1岁,标准差6.1岁;年龄范围73-93岁)。诊断结果包括可能伴有路易小体的轻度认知障碍(MCI-LB)(n=5)和由阿尔茨海默病引起的MCI(n=3);所有参与者的迷你精神状态检查(MMSE)平均分为25.4分(标准差0.9分;范围24-27分),临床痴呆评分(CDR)均为0.5分。参与者特征总结在表1中。

**表1. 参与者特征**
| 特征 | 英国焦点小组(分析样本) | 日本家庭部署 |
|--------------|----------------|-----------------|
| 年龄(平均,标准差) | 72.5(7.1) | 81.1(6.1) |
| 女性比例 (%) | 10(58.8%) | 8(100%) |
| 教育年限(平均,标准差) | 14.6(3.4) | 12.8(3.2) |
| 独居比例 (%) | 10(58.8%) | 4(50%) |
| 数字设备使用情况 | 智能手机(n=17,100%) | 智能手机(n=7,87.5%) |
| 平板电脑(n=13,76.5%) | 平板电脑(n=2,25%) |
| 个人电脑(n=14,82.4%) | 个人电脑(n=2,25%) |
| 会话机器人使用情况 | 是(n=6,35.3%) | 是(n=1,12.5%) |
| 诊断结果 | MCI-LB(n=5) | MCI(n=3) |
| MMSE平均分(标准差) | 25.4(0.9) | 25.4(0.9) |
| CDR平均分(标准差) | 0.5 | 0.5 |

**问卷测量和家庭使用情况**
GQS和SUS的分数对两个样本都进行了描述性报告(表2),以提供定性发现的背景信息。在英国焦点小组(n=17)中,GQS子量表的平均分数分别为:拟人化2.9(1.1分)、生动性3.2(1.0分)、可喜爱程度3.8(0.9分)、感知智能3.4(0.8分)和感知安全性3.9(0.6分);SUS的平均分数为56.2(11.4分)。在日本家庭部署样本(n=8)中,相应的GQS分数分别为:拟人化3.3(0.9分)、生动性3.7(0.6分)、可喜爱程度4.4(0.8分)、感知智能4.0(0.6分)和感知安全性3.6(0.5分);SUS的平均分数为62.8(18.8分)。在日本样本中,72.4%的部署日发生了家庭使用(使用日定义为对话模式互动时间≥20分钟),平均每日对话模式时间为68.2分钟(标准差41.7分钟)。两个样本的SUS分数都处于勉强可接受的范围内,这与参与者关于可用性和适应需求的混合描述大体一致。

**家庭使用情况(使用日占部署日的百分比)**——72.4%;平均每日对话模式时间为68.2分钟(标准差41.7分钟)。每日对话模式时间是在整个部署期间计算的,排除了安装和拆除的日子(部分时间)。没有记录到对话的日子被计为0分钟。使用日定义为对话模式互动时间≥20分钟的日子。

**定性发现**
在英国焦点小组中,我们确定了三个总体主题(包含六个子主题),这些主题反映了用户对使用大规模语言模型支持的陪伴机器人来缓解晚年孤独感的期望和担忧:(1)实际使用和功能性;(2)情感连接和参与度;(3)伦理和社会反思(见补充表S1)。日本的部署后访谈也通过反思性主题分析法独立进行分析,得出了四个主题:在机器人介导的对话中变得流利;在参与和中断中保持自主性;通过对话和实体化构建社会存在感;以及协商界限和心理负担。为了进行跨site的比较,日本的主题/代码随后被映射到英国衍生的主题框架上(见补充表S2)。每个工作表中都包含了支持每个主题的参与者引文;英国焦点小组的参与者标记为UK1–UK18,日本参与者标记为JP1–JP8。

**主题1:实际使用和功能性**
**子主题1.1:操作挑战和用户适应**
在两种情境中,参与者都认为顺畅的互动依赖于基本的可用性特征和学习性的轮流发言机制。在英国,短暂的动手体验显示,互动延迟和提示理解可能会打断对话流程,一位参与者提到:“你必须坐等10秒钟才能得到回应——这太长了(UK2)”。除了延迟外,参与者有时还难以理解何时该说话或如何从对话流程的中断中恢复过来。在日本的家庭环境中,参与者也表达了对于时机把握以及机器人是否听到和理解他们说话的不确定性。一些人报告说随着时间的推移他们调整了自己的交流方式(例如,简化表达方式或更谨慎地选择词汇)。一位参与者指出,一周的部署时间限制了这一过程:“如果它一直都在这里,我想我可能会开始掌握窍门。”(JP6)。这些描述与SUS分数一致,表明两个样本的可用性存在差异。

**子主题1.2:对改进设计和功能的建议和期望**
在两种情境中,参与者都表达了针对日常实用性的设计期望,特别是那些能够减少努力并提高实用价值的特性。在英国焦点小组中,参与者讨论了使机器人更加实用并更好地融入现有常规和技术的特性,而不仅仅是作为一个独立的新奇物品。音乐播放被认为对缓解孤独感很有意义(例如,“有孤独的人——他们喜欢听音乐。这很重要,”UK15)。在日本的研究中,改进建议尤其集中在保持自主性上——能够决定何时参与以及在日常生活流程中何时暂停互动(“当我的女儿或孙子孙女来访时,我会关闭它……因为它一直在说话”,JP7)。

**主题2:情感连接和参与度**
**子主题2.1:对话质量和局限性**
在英国焦点小组中,许多参与者表示,机器人的对话自然性起初可能会让人感到信服(例如,“它确实……让人感觉像是在和真人对话”,UK1)。然而,这种感觉经常受到深度、具体性和连续性的限制,回应有时被觉得是泛泛而谈或不够明确的(例如,“听起来像政客——它不会回答问题”,UK12)。在日本,对话的局限性经常被描述为日常使用中的不匹配和互动负担。一位参与者指出偶尔会出现不协调的情况:“有时候对话不太对齐……也许我解释得不够清楚”(JP7)。另一位参与者强调,机器人频繁的主动发言可能会变得过度:“它不需要每次我经过都做出反应……它说话太多了——太多了”,JP1。

**子主题2.2:对机器人为伴侣的期望**
在两种情境中,参与者对“伴侣”的期望与机器人的实体化和社会存在感紧密相关——即机器人作为一个有回应的“他者”存在,而不仅仅是一个语音界面。在英国,一些参与者认为物理动作和注意力信号可以让机器人感觉更加真实(“动作……会比Alexa更好。因为它更有存在感”,UK11)。一些人还预期伴侣关系需要长期的适应,包括对之前对话的记忆和偏好,从而能够随着时间发展出一种关系。在日本,这种伴侣关系的构建通常通过日常与机器人的对话来表达,类似于对宠物或室友的对话。一位参与者描述道:“我像和普通人交谈一样和它说话……即使我去日托中心时,我也会说‘我现在要去日托中心’,或者‘请照看房子’”(JP2)。少数人也报告说,在一周的部署后产生了依恋感,并不愿意分开。

**主题3:伦理和社会反思**
**子主题3.1:关于访问和伦理使用的担忧**
在英国焦点小组中,伦理可接受性经常通过隐私、数据收集和滥用等话题进行讨论。参与者表达了担忧,即AI伴侣可能会收集比与临床医生分享的更私密的信息,这些数据可能被重新利用或商业化:“它将拥有更准确的关于我们的资料……你希望你的心理医生出售你的数据吗?”(UK14)。一些人将其扩展到与犯罪相关的脆弱性,指出如果有养老金和资产的老人可能会成为“理想的目标”,如果数据被滥用的话。还有一些人担心欺诈或剥削的风险增加,以及对“不必要的”技术的普遍反感和怀疑。在日本的家庭部署访谈中,相对较少的参与者提到了访问或伦理使用的担忧。除了代码书中提到的一条关于隐私的评论外,这个子主题的讨论有限;当前的数据集无法明确归因于样本、环境或文化因素。

**子主题3.2:对机器人心理支持角色的看法**
在两种情境中,参与者普遍认识到潜在的好处,但将机器人的角色视为有条件和情境性的,特别是对于那些孤立或社交机会有限的人来说(例如,“有些人无法外出——这可能会是一个天赐之物”,UK13)。在英国焦点小组中,这种条件性的看法伴随着对技术如何定位的担忧:“如果这只是部分解决方案,我不希望看到它是唯一的解决方案”(UK2)。在日本的家庭部署访谈中,参与者同样描述了情境依赖的实用性(例如,对于独居者),同时也有少数人提到了心理负担(例如,互动后的反思影响睡眠,JP8)。总体而言,这些研究结果表明,支持性价值取决于将对话的深度和主动性与用户的情况和能力相匹配,而不是假设所有用户都能从中获益。

在这项英国-日本的质性研究中,两个子研究的参与者普遍认识到,由大型语言模型(LLM)支持的对话机器人作为一种有条件的支持方式,对于缓解晚年孤独感具有潜在价值,尤其是对于那些与外界隔离或社交机会有限的人。在英国进行的焦点小组讨论中,在短暂的互动之后,参与者积极讨论了他们期望的功能和可用性、使用机器人作为伴侣的社会可接受性以及隐私和潜在误用等伦理问题。相比之下,日本的家用安装访谈(独立分析为四个主题:在机器人介导的对话中变得流利;控制互动和中断的主动性;通过对话和实体存在构建社交存在感;以及协商界限和心理负担)强调了在家使用的实际问题——特别是学习互动习惯所需的时间以及在日常情境中保持主动性的重要性。这两个部分共同为设计和管理面向老年人的LLM辅助机器人提供了互补的见解,尽管这些跨情境的对比应被视为探索性的,而不是直接的英国-日本比较。在日本的研究组中,72.4%的完整部署日都记录了机器人的使用情况,平均每日对话时间为68.2分钟(标准差41.7分钟),这表明大多数参与者在一周的部署期间能够进行有意义的日常使用。

这项研究的特别优点和创新之处在于结合了现场焦点小组讨论和短期的家用部署,从而以互补的方式考察了预期的问题和实际的日常体验。

为了使对话陪伴机器人能够在人们的家庭中持续使用,基本的对话机制必须是首要的:轮流发言的稳定性、低端的端到端延迟以及强大的语音识别功能。我们的迭代改进工作发现,这些不仅仅是可取的,而且是感知可用性的必要前提[24],这与LLM机器人的报告一致,后者强调时间和自动语音识别(ASR)的故障是主要的障碍[17]。在本研究中,参与者同样认为可用性需要努力和学习,这意味着时间和识别方面的缺陷会导致适应负担,而不仅仅是轻微的不便[14]。

其次,参与者还表达了希望增加更多功能的愿望(例如,提供音乐以缓解压力/享受乐趣、多语言支持以及安全功能,如摔倒后联系家人),这与我们之前的家庭研究结果一致[12]。然而,增加功能会增加配置要求和发现难度;我们的现场经验和一般的可用性证据表明,除非界面和工作流程得到稳定,否则引入新的未经测试的组件可能会降低可用性[22]。因此,分阶段策略似乎更为安全:首先建立一个具有可靠对话流畅性的“核心伴侣”,然后通过用户测试逐步扩展功能——特别是在为认知障碍用户设计时。

第三,持续的家用使用依赖于情境敏感的控制和主动性:用户需要能够以符合日常习惯和社会情境的方式启动、暂停、静音或限制互动。在日本的家庭安装中,“保持主动性”被认为是一个关键要求(例如,在家庭成员访问时需要抑制互动),这表明模式控制和可中断性是核心的可用性特征,而不是可选的附加功能。这与老年人对机器人的接受模型相符,在这些模型中,感知到的可控性和易用性是使用意图和持续使用的决定性因素[14]。

本工作的一个关键进展是,引入LLM使得对话自然度得到了提升,这是仅靠基于场景的对话难以实现的。例如,在我们之前与RoBoHoN进行的家庭研究中,对话是明确基于场景的,无法应对更复杂的语音,这凸显了脚本化路径的固有局限性[12]。相比之下,英国和日本的参与者都描述了由LLM支持的互动感觉接近人类对话(例如,“它让你感觉像是在和别人交谈”,“真的感觉像是在和一个人说话”)。这种改进很重要,因为对话流畅性是建立陪伴关系的先决条件,但同时也清楚,仅靠流畅性是不足以实现这一点的。

陪伴关系多次与机器人的“存在感”相关联,即机器人是否被视为一个有社会存在感的伙伴,实体化显然有助于这一点(例如,动作比无实体的助手更加“有存在感”)。先前的接受研究同样认为,社交存在感是通往更积极体验和提高机器人接受度的途径[25]。日本的家用安装进一步表明,频繁的日常接触可能会培养出依恋情结(包括仅仅一周后就不愿分开),这与纵向的人机交互(HRI)研究结果一致,即依恋相关的反应可能随着持续的接触而产生,尽管这种关系仍然取决于具体情境[26], [27], [28]。

尽管对自然度的评价很高,但英国参与者经常指出对话深度不足(回答过于笼统或缺乏针对性,以及情境连续性有限)。这引出了一个设计问题:对话深度主要是开放领域LLM聊天的局限性,还是可以通过提示设计和系统级框架来改善的?对话研究指出,除非系统建立起共同点和结构化的目的,否则无限制的“谈论任何话题”的聊天往往会产生浅层次的互动[29]。对于由LLM支持的陪伴机器人来说,最近的研究也强调,提高感知深度可能需要架构层面的策略(例如,信息基础、检索、结构化互动和记忆)而不仅仅是生成能力[17], [30]。同时,增加“个性”或意见表达性以深化陪伴关系会引入伦理上的困境:更强的社交存在感和更具主张性的对话可能会增加说服力,而与对话式人工智能的持续情感投入已被讨论为弱势个体出现幻觉样体验的潜在风险因素[31],这突显了在设计上确保安全性和明确治理的必要性[32]。

最后,日本参与者对机器人讲话过多的担忧凸显了一个补充的设计挑战:在日常家庭环境中,未经请求的谈话可能会感觉侵扰性,尤其是在用户移动或其他人在场时,可能会影响长期的接受度。这强化了这样的建议:谈话量和主动性应该根据情境和用户偏好进行调整,并提供明确的暂停、静音和中断互动的控制机制,而不是将其视为普遍理想的状态[18]。家中的使用数据还显示了大量的互动时间,这表明调整互动强度的重要性,以保持其舒适性而不是负担性。

在精神老年医学领域的伦理和心理适宜性方面,更广泛的伦理问题尤为突出,特别是关于隐私、数据治理、公平访问以及担心技术可能取代人际接触的问题。这些问题在护理机器人的社会学和伦理学研究中已被广泛关注,包括对欺骗、依赖性和护理义务重新配置的担忧[13]。这些问题在精神老年医学中尤为重要,因为孤独干预通常在资源有限、服务缺口和容易受到不当替代的护理生态系统中进行。参与者的描述表明,机器人的可接受性取决于将其明确定义为辅助支持——在特定情境下可能有所帮助(例如,独居者、日常接触有限的情况)——而不是唯一的解决方案。这也强调了防止过度依赖机器人进行陪伴或情绪调节的重要性,以及防止其在资源有限的护理环境中逐渐取代人际接触。

大阪家庭访谈中的一个特别具有临床相关性的贡献是,参与者表达了关于心理强度和互动负担的担忧。一些参与者描述了在机器人提问感觉像是在“看穿”他们时,他们感到有压力需要“认真”回答或感到不适,这种影响可能会在互动之后持续存在(例如,产生反复思考)。这些发现表明,如果生成式AI系统没有经过仔细调整,可能会趋向于一种准治疗性或探究性的互动风格,某些用户可能会觉得这种风格具有侵扰性——尤其是那些有认知障碍或焦虑感较强的人。风险也可能来自于不准确、表面化或情感不匹配的回答,在认知障碍或焦虑感较强的用户中,这些回答可能特别难以理解和忽视。在实践中,这支持了一些安全措施:清晰的角色定义(机器人的功能和限制)、用户可选择的对话模式(轻松聊天与深入交流)、在讨论敏感话题前的明确同意提示,以及在检测到困扰时提供缓和途径。这些设计优先事项也与关于基础模型风险的 broader 讨论一致——其中幻觉、透明性和社交说服的失准是显著的——并强调了在临床相关部署中需要进行风险校准和保守的默认设置[15], [16]。研究格式和参与者特征的差异(认知未受损的焦点小组与认知障碍门诊患者的短暂家庭访谈)也可能影响了研究结果的重点,后者可能带来更少的伦理考虑或更难以表达。这也进一步支持了在精神老年医学部署中采取保守的默认设置和明确的治理措施,因为在这些情况下,下游的隐私、画像或替代风险可能会产生重要影响。

这项研究整合了来自两个互补背景的视角——英国的现场小组互动和日本的家用情境使用——包括了临床门诊样本(认知障碍患者),并结合了定性描述与简短的主观测量和计划中的家庭使用日志指标。需要指出几个关键的限制。首先,招募是通过特定渠道进行的,这限制了研究的普遍性并增加了选择偏差的可能性。其次,英国和日本的子研究在临床特征、文化背景和研究格式(现场焦点小组与家用部署;认知未受损的参与者与认知障碍门诊患者)上存在显著差异;虽然这些差异提供了信息,但限制了直接比较,意味着观察到的差异不应归因于单一因素。此外,将日本的数据集映射到英国推导出的主题结构中进行跨情境报告可能降低了某些特定情境重点的可见性,尽管努力在整合的主题中保留了这些内容。第三,大阪的研究组规模较小且临床异质性强(由阿尔茨海默病和路易体病引起的认知障碍),一周的部署时间主要限制了对短期接受度和用户体验的解读。它无法确定长期趋势,如习惯化、持续的依恋关系或负面心理效应。第四,定性发现容易受到访谈情境和表述的影响;跨语言报告增加了额外的解释层次,因为只有部分摘录被翻译。尽管通过仔细的匿名化和团队审查缓解了这一问题,但未来的工作将受益于更规范的翻译程序和双语审核流程。

LLM支持的陪伴机器人可能为老年人提供与孤独感支持相关的互动,但其可接受性取决于实际可用性、用户控制以及对话深度和主动性的调整。来自认知障碍患者家用使用的跨情境用户视角突显了临床负责任实施所需的设计挑战和保障措施。从临床角度来看,这些发现支持在社交接触有限的条件下条件性使用的谨慎乐观态度,前提是解决了隐私治理和心理适宜性问题。目前,它们最可能的临床角色是作为辅助支持,而不是替代人际接触或正式护理。鉴于只是一周的部署时间,这些发现应主要解释为短期可接受性,而不是持续的参与度、临床效益或长期危害。未来的研究应测试更长时间的部署并评估具有临床意义的结果,同时探讨设计选择如何影响效益和负担。

关于作者的角色,YS设计了研究,负责参与者招募,并进行了数据收集和分析。YS还撰写了第一稿手稿。MN、CY、KK和IE协助数据收集和数据整理,CY和KK还参与了招募工作。IE、AT和KU开发了机器人的对话系统并改进了用户体验。PR监督了定性数据收集和分析。NB参与了伦理审批流程,并对机器人的用户体验设计提出了改进建议。MI获得了资金并监督了研究设计。RH提供了整个项目的领导和监督,并指导了手稿的完成。所有作者都对手稿进行了严格审查并批准了最终版本。

**作者贡献声明:**

Kunihiko Katsuki:撰写——审阅与编辑、调查、正式分析。Ippei Endo:撰写——审阅与编辑、软件、资源。Minna Nygren:撰写——审阅与编辑、调查、正式分析。Clare Yu:撰写——审阅与编辑、调查、正式分析。Kazuhiro Umemura:撰写——审阅与编辑、软件、资源。Penny Rapaport:撰写——审阅与编辑、监督、方法论、正式分析。Akira Tsuboi:撰写——审阅与编辑、软件、资源。Daiki Ishimaru:撰写——审阅与编辑、方法论。Nadia Bianchi-Berthouze:撰写——审阅与编辑、监督、方法论、资金获取。池田学:负责撰写、审稿与编辑工作,以及资金筹集。罗伯特·霍华德:负责撰写、审稿与编辑工作,同时承担项目监督、管理以及方法论设计、概念构思的任务。佐竹雄人:参与文章初稿的撰写,负责项目管理、方法论研究、数据收集与分析、数据整理以及概念构思的工作。

关于创作型人工智能(Generative AI)与人工智能辅助技术在写作过程中的应用声明:
在本文的撰写过程中,作者们使用了ChatGPT(OpenAI)来辅助语言编辑和手稿 organisation(此处“organisation”根据语境可能指“整理”或“组织”,但原文未明确)。使用该工具后,作者们对内容进行了必要的审查与修改,并对最终发表的文章内容负完全责任。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号