青少年精神科门诊患者中，人工智能聊天机器人在处理心理健康问题时的问题性使用：严重程度、影响及应对策略

《Middle East Current Psychiatry》：Problematic use of AI chatbots for mental health concerns among adolescent psychiatric outpatients: severity, impairment, and coping

【字体：大中小】 时间：2026年05月02日 来源：Middle East Current Psychiatry 1.5

编辑推荐：

　　**摘要** **背景** 生成式人工智能（AI）聊天机器人正被越来越多的青少年用来解决与心理健康相关的问题，例如寻求情感支持、明确症状以及获取应对指导。然而，在临床环境中，一些青少年可能会发展出不适应性的使用模式，这些模式会干扰治疗过程。本研究旨在描述接受儿童和青少年精

　　**摘要**
**背景**
生成式人工智能（AI）聊天机器人正被越来越多的青少年用来解决与心理健康相关的问题，例如寻求情感支持、明确症状以及获取应对指导。然而，在临床环境中，一些青少年可能会发展出不适应性的使用模式，这些模式会干扰治疗过程。本研究旨在描述接受儿童和青少年精神病学门诊治疗的青少年中问题性AI聊天机器人的使用情况，并探讨相关的心理社会因素。

**方法**
我们在突尼斯的一家儿童和青少年精神病学门诊诊所进行了一项横断面研究（2025年7月至12月）。参与者是报告使用生成式AI聊天机器人处理心理健康问题的青少年。通过基于临床医生的、以损害为中心的分类方法来识别问题性使用行为，该方法符合世界卫生组织《国际疾病分类》第11版（ICD-11）中关于成瘾行为障碍的原则。使用改编的20项AI聊天机器人成瘾测试（AIAT-20）对使用严重程度进行了维度评估。从AIAT-20的题库中衍生出一个简短的10项版本（Concise AI Chatbot Addiction Test；CIAT-10），并在研究样本中测试其内部一致性和对临床分类的区分能力。应对策略通过“问题体验的简要应对取向量表”（Brief COPE）进行测量，孤独感通过加州大学洛杉矶分校孤独量表（UCLA Loneliness Scale；版本3）进行测量，家庭功能则通过“家庭适应性和凝聚力评估量表第四版”（FACES IV）中的家庭满意度量表（FSS）进行测量。通过接收者操作特征（ROC）分析来检验严重程度评分与临床分类之间的区分度，并通过相关性和多变量回归分析（带有稳健标准误差）来探讨CIAT-10严重程度的相关因素。

**结果**
共有92名青少年参与研究（平均年龄13.2±1.1岁；60.9%为女性）。最常提到的与精神健康相关的使用目的是在困境中寻求情感支持（71.7%）和获取有关心理健康状况的信息（70.7%）。根据基于临床医生的损害分类标准，21名参与者符合问题性使用的标准（22.8%；95%置信区间[CI] 15.4–32.4）。AIAT-20的内部一致性很高（Cronbach’s alpha [α] = 0.888），CIAT-10的内部一致性也相当好（α = 0.794）。CIAT-10在区分临床分类方面表现良好（ROC曲线下面积=0.789），并且在实证筛查阈值（≥24）时具有较高的敏感性。CIAT-10的严重程度越高，与聊天机器人回答的信任度越低但感知有用性越高相关，同时家庭满意度越低，问题导向的应对能力也越弱，这表明问题性的依赖可能反映了感知到的调节价值，而不仅仅是简单的对AI生成建议的信任。

**结论**
在青少年精神病学门诊患者中，问题性AI聊天机器人的使用可能反映了通过数字手段管理困境、寻求安慰以及未满足的应对或关系需求的一种策略，而不仅仅是过度接触。需要更大规模的研究来澄清这些未解决的模式，特别是信任与感知有用性之间的明显分离。临床评估应关注功能、损害和治疗影响。

**背景**
生成式人工智能（AI）聊天机器人正被越来越多的青少年用来解决与心理健康相关的问题，例如寻求情感支持、明确症状以及获取应对指导。然而，在临床环境中，一些青少年可能会发展出不适应性的使用模式，这些模式会干扰治疗过程。本研究旨在描述接受儿童和青少年精神病学门诊治疗的青少年中问题性AI聊天机器人的使用情况，并探讨相关的心理社会因素。

**方法**
我们在突尼斯的一家儿童和青少年精神病学门诊诊所进行了一项横断面研究（2025年7月至12月）。参与者是报告使用生成式AI聊天机器人处理心理健康问题的青少年。通过基于临床医生的、以损害为中心的分类方法来识别问题性使用行为，该方法符合世界卫生组织《国际疾病分类》第11版（ICD-11）中关于成瘾行为障碍的原则。使用改编的20项AI聊天机器人成瘾测试（AIAT-20）对使用严重程度进行了维度评估。从AIAT-20的题库中衍生出一个简短的10项版本（Concise AI Chatbot Addiction Test；CIAT-10），并在研究样本中测试其内部一致性和对临床分类的区分能力。应对策略通过“问题体验的简要应对取向量表”（Brief COPE）进行测量，孤独感通过加州大学洛杉矶分校孤独量表（UCLA Loneliness Scale；版本3）进行测量，家庭功能则通过“家庭适应性和凝聚力评估量表第四版”（FACES IV）中的家庭满意度量表（FSS）进行测量。通过接收者操作特征（ROC）分析来检验严重程度评分与临床分类之间的区分度，并通过相关性和多变量回归分析（带有稳健标准误差）来探讨CIAT-10严重程度的相关因素。

**结果**
共有92名青少年参与研究（平均年龄13.2±1.1岁；60.9%为女性）。最常提到的与精神健康相关的使用目的是在困境中寻求情感支持（71.7%）和获取有关心理健康状况的信息（70.7%）。根据基于临床医生的损害分类标准，21名参与者符合问题性使用的标准（22.8%；95%置信区间[CI] 15.4–32.4）。AIAT-20的内部一致性很高（Cronbach’s alpha [α] = 0.888），CIAT-10的内部一致性也相当好（α = 0.794）。CIAT-10在区分临床分类方面表现良好（ROC曲线下面积=0.789），并且在实证筛查阈值（≥24）时具有较高的敏感性。CIAT-10的严重程度越高，与聊天机器人回答的信任度越低但感知有用性越高相关，同时家庭满意度越低，问题导向的应对能力也越弱，这表明问题性的依赖可能反映了感知到的调节价值，而不仅仅是简单的对AI生成建议的信任。

**结论**
在青少年精神病学门诊患者中，问题性AI聊天机器人的使用可能反映了通过数字手段管理困境、寻求安慰以及未满足的应对或关系需求的一种策略，而不仅仅是过度接触。需要更大规模的研究来澄清这些未解决的模式，特别是信任与感知有用性之间的明显分离。临床评估应关注功能、损害和治疗影响。

**背景**
在儿童和青少年精神病学门诊诊所中，生成式AI聊天机器人已经在很短的时间内成为青少年日常数字生态的一部分。除了简单的信息查询外，一部分青少年还使用它们来寻求情感支持、理解自己的症状或作为验证护理相关决策的途径。这种普及现象不容忽视。最近的人口统计数据显示，青少年和年轻人已经报告使用生成式AI来获取心理健康建议，这突显了需要更细致地描述这些行为在精神病学样本中的情况[1]。

**安全性和伦理问题**
当大型语言模型用于心理健康目的时，存在特定的安全和伦理问题。多项研究强调了错误信息的风险、不符合临床背景的建议、可能固化功能失调认知的过度验证的回答，以及在检测和管理危机情况（尤其是对于有自杀念头、精神病症状或饮食障碍的脆弱用户）方面的盲点[2, 3]。此外，还有保密性和敏感数据治理的问题，这在未成年人中尤为重要，因为在健康领域的“良好实践”框架中强调风险最小化、透明度、人类监督和数据保护[4]。

**临床问题**
在这一背景下，一个核心的临床问题尚未得到充分记录：出于精神病学原因使用聊天机器人可能会在一些青少年中转变为具有临床意义的不当使用。这种不当使用不能简单地归因于使用时间或咨询频率。相反，它体现在聊天机器人如何融入精神生活和日常功能中：难以脱离聊天机器人，优先考虑聊天机器人而忽视适合年龄的活动，以及尽管有负面后果仍继续使用。最重要的是，临床意义体现在损害上：睡眠障碍和注意力困难、围绕使用限制的家庭冲突增加、学习成绩下降，或者当聊天机器人的输出取代心理分析时干扰治疗过程，从而加剧寻求安慰的行为或使决策变得僵化。

**至今为止，尚无专门针对聊天机器人使用相关困难的分类诊断。因此，现在提出一个新的诊断实体还为时过早。我们采用了一种实用且谨慎的、以损害为中心的方法，基于功能影响来操作化临床医生的分类。具体来说，这种分类并不旨在“诊断”聊天机器人成瘾，而是识别一种使用模式，在这种模式中四个组成部分汇聚并具有临床意义：对使用的控制能力受损、行为优先级提高、尽管有负面后果仍继续使用，以及可以合理归因于这种模式的功能或治疗损害。这种逻辑与世界卫生组织《国际疾病分类》第11版（ICD）框架中关于成瘾行为障碍的精神一致，其中使用强度是一个弱信号，除非伴有控制能力受损和具有临床意义的损害[5]。这也与问题性数字行为领域的建议一致，这些建议强调需要区分技术新颖性和失调及危害的临床表型[6]。**

**方法**
本研究是一项基于常规实践的探索性临床调查。我们关注的是那些报告使用生成式AI聊天机器人处理心理健康相关问题的青少年患者。我们的目标是更好地描述这种使用在损害方面的临床意义，并探讨其与应对方式和选定的心理社会因素（特别是家庭功能和感知孤独感）之间的关联。鉴于当前的研究现状，这种有针对性的方法似乎是迈向更广泛的比较或流行病学研究之前澄清临床相关模式的第一步。

**最后，从测量角度来看，我们选择不仅依赖从临床访谈中得出的严格分类。另一个关键目标是获得一个维度化的严重程度测量方法，这种方法对个体间差异更敏感，并有助于描述损害连续体以及探讨心理社会相关因素。因此，我们将基于临床医生的分类与来自问题性数字行为领域广泛使用的工具——互联网成瘾测试（Internet Addiction Test）的量表结合起来，以量化严重程度并超越二元对立[7, 8]。**

**这种结合临床判断和维度测量的方法旨在提供实用的临床指标，同时避免将这种工具病理化，同时也避免忽视其使用变得普遍且具有临床意义的情况。**感知有用性是通过以下单一问题来评估的：“总体而言，这个AI聊天机器人对你有多大的帮助？”回应被分为“非常有用”和“不太有用”两类进行分析。

基于临床医生的AI聊天机器人使用问题分类
我们采用了以障碍为中心、基于临床医生的分类方法，并参考了ICD-11框架中关于成瘾行为相关障碍的分类标准[9]。在初次精神健康评估过程中，临床医生进行了简短的结构化访谈，重点关注青少年使用AI聊天机器人的模式，特别是与心理健康相关的问题。通过标准提示和具体例子，系统地探讨了四个核心领域。控制能力受损的情况通过以下问题来评估：“你是否经常使用聊天机器人的时间超过了计划？”、“你是否尝试过减少或停止使用，但未能成功？”以及“是否有时觉得必须再次查看或询问聊天机器人才能感觉好一些？”。使用优先级增加的情况则通过以下问题来探讨：“使用聊天机器人是否取代了你原本会做的活动，比如爱好、社交、运动或作业？”、“你是否因为不断聊天而推迟吃饭、做作业或睡觉？”以及“当你感到困扰时，它是否成为你首先做的事情之一？”尽管存在负面后果，但仍继续使用的情况则通过以下问题来评估：“这是否导致了或加重了睡眠问题，比如入睡时间推迟或感到疲劳？”、“这是否影响了你的注意力或学习成绩？”、“这是否增加了家庭中关于规则或限制的冲突？”以及“即使注意到这些问题，你是否仍然继续使用它？”临床意义的障碍或治疗干扰是通过记录至少一个功能领域的实质性干扰和/或对治疗的干扰来评估的。与学校相关的障碍包括由于使用聊天机器人而导致成绩下降或出勤率降低，以及无法完成作业。与家庭相关的障碍包括因使用聊天机器人而反复发生的重大冲突、日常生活规律被打乱以及违反规则的行为。社交方面的障碍包括因使用聊天机器人而产生的退缩以及真实社交互动的替代。临床医生还询问了“使用聊天机器人在日常生活中或治疗过程中给你带来了哪些负面影响”。

为了支持归因，临床医生使用了以下提示进行合理性检查：“如果我们停止使用聊天机器人，睡眠问题、家庭冲突或学校问题是否可能会有所改善？”以及“这种情况是否可以完全用急性发作或其他因素来解释？”

当在四个领域中至少有一个领域发现了临床有效的指标，并且临床医生判断由此造成的障碍很可能是由于使用聊天机器人造成的，而不是由急性精神不稳定、智力障碍、理解不足或短暂的环境因素造成的，那么该参与者就被归类为存在使用AI聊天机器人的问题。为了在研究初期提高一致性，两位主要研究者独立使用相同的访谈框架和决策规则对前10名参与者进行了评估。他们的分类结果在9名参与者上是一致的，其中3名被归类为存在问题使用，6名被归类为没有问题使用。这组初始校准数据的评分者间一致性很高，Cohen’s kappa值为0.78。剩余的参与者在一周后由两位研究者重新评估，最终判断其使用聊天机器人没有问题。

这种基于临床医生的分类方法作为临床意义上的误用的实用标志，用于标准相关分析，但并不建议正式诊断为“聊天机器人成瘾”。这种方法与关于ICD-11游戏障碍的临床和实地研究一致，在这些研究中，受过培训的临床医生使用结构化访谈并应用ICD-11诊断指南，同时明确考虑功能障碍和精神共病情况[10, 11]。

**改编的AI聊天机器人互联网成瘾测试（AIAT-20）**
AI聊天机器人使用问题的严重程度是通过改编版的Young互联网成瘾测试（IAT）来评估的。改编主要是将所有提及“互联网”的地方替换为“AI聊天机器人”，并在必要时进行了轻微的措辞调整，同时保留了每个项目的原始临床意图及其对控制能力丧失和功能影响的关注[7]。改编后的工具包含20个项目，每个项目都采用六点李克特量表进行评分。通过将每个项目的得分相加，得出一个总得分范围从20到120分，得分越高表示AI聊天机器人的使用问题越严重。类似的项目重新措辞方法也被用于针对特定的在线问题行为进行定制，这些改编版本显示出良好的心理测量特性。例如，为捕捉在线游戏和在线扑克等特定行为而设计的修改版IAT显示出了可解释的因素结构，并被认为适合评估这些行为[12]。同样，为在线性活动改编的简短法语IAT也显示出了明确的双因素结构、较高的内部一致性以及同时效度的证据[13]。

**简化的AI聊天机器人互联网成瘾测试（CIAT-10）**
为了提高日常临床使用的可行性并减少受访者的负担，我们从20个项目的改编版本中提取了10个项目的简短形式。项目选择是预先指定的，以确保涵盖心理测量研究中一致报告的临床领域，同时最大化其与青少年使用AI聊天机器人的相关性和情境相关性。特别是，保留的项目与IAT因素分析中反复出现的核心维度相对应，包括对时间管理和表现的干扰、退缩或社交问题、现实替代，同时也捕捉到了预期或显著性[12, 14, 15]。因此，我们保留了Young原始IAT中的项目1、6、8、10、11、13、16、17、18和20。项目1、6、8、16和17主要反映了时间管理和功能干扰，项目13、18和20反映了类似退缩的痛苦和社交或人际影响，项目10反映了现实替代或情绪相关的替代，项目11代表了预期或困扰。这种基于内容的方法与开发几种简短IAT版本的方式一致，其中项目减少不仅受到统计标准的指导，还考虑了保留临床意义上的覆盖范围，并避免了可能在不同情境中不太适用的项目[16,17,18]。每个CIAT-10项目都采用与20个项目改编版本相同的六点李克特量表进行评分。通过将每个项目的得分相加，得出一个总得分范围从10到60分，得分越高表示AI聊天机器人的使用问题越严重。CIAT-10旨在作为一种实用的筛查和严重程度指标，以便快速识别可能需要进一步详细临床评估的青少年，而不是作为一个独立的诊断工具。这种使用方式与先前的研究结果一致，这些研究表明，缩短版和以行为为中心的IAT衍生物可以保持可接受的内部一致性和临床意义上的有效性，即使是在针对特定在线行为进行改编的情况下[12, 13, 16]。

**应对策略（Brief COPE）**
应对策略是通过Brief COPE来评估的，这是一个包含28个项目的自我报告量表，涵盖了14种应对策略，每个子量表有2个项目。每个项目都采用四点李克特量表进行评分，从1（我完全没有这样做）到4（我经常这样做）。子量表得分是通过将两个相应项目的得分相加得到的，每个应对策略的得分范围从2到8分。我们计算了标准化的Brief COPE子量表得分，并得出了临床研究中常用的三个综合指数来总结应对取向[19]。问题导向的应对被定义为积极应对、计划和工具性支持的总和。情绪导向的应对被定义为情感支持、积极重构、接受、幽默和宗教的总和。回避导向的应对被定义为自我分散、否认、物质使用、行为脱离、发泄和自我责备的总和。这些综合指标被用作与聊天机器人使用问题严重程度相关的维度相关因素。我们通过一个从英语翻译成阿拉伯语再翻译回英语的阿拉伯语版本来实施Brief COPE，然后根据既定的跨文化适应指南对两个英语版本进行了协调和比较[20]。

**孤独感（加州大学洛杉矶分校孤独感量表，第三版）**
孤独感是通过加州大学洛杉矶分校（UCLA）孤独感量表来测量的。我们使用总分作为主观孤独感和感知社会隔离的连续指标；它被描述性地使用，以了解参与者的心理社会环境，并不用于基于临床医生的聊天机器人使用问题分类。UCLA孤独感量表第三版在原始验证工作中具有成熟的心理测量特性[21]。系统评价进一步支持了UCLA孤独感量表在不同研究和文化背景下的整体可靠性和有效性，同时强调在使用翻译版本时应该验证其心理测量特性[22]。在我们的研究中，原始的20个项目UCLA孤独感量表第三版是通过从英语到阿拉伯语的标准化翻译，然后再翻译回英语来施测的，随后进行了协调和与原始版本的比较，以确保概念上的等效性，符合既定的跨文化适应指南[20]。

**家庭功能（家庭满意度量表（FSS），10个项目格式）**
家庭功能是通过FACES IV包中的10个项目家庭满意度量表来评估的，该量表衡量了对家庭关系的满意度和家庭内部的情感氛围。项目采用李克特量表进行评分，总分越高表示满意度越高。这一指标被作为连续的心理社会相关因素进行分析，并未用于定义基于临床医生的分类或设定AIAT-20和CIAT-10的临界值。家庭满意度量表是Circumplex模型的一部分，在FACES IV系统的原始开发和验证工作中得到了验证[23]。对于阿拉伯语版本，我们依赖于已发表的心理测量证据，这些证据支持FACES IV系统在阿拉伯语人群中的有效性，包括家庭满意度指标[24]。

**统计分析**
分类变量以计数和百分比的形式总结，连续变量则根据需要以均值（标准差）或中位数（四分位数范围）的形式总结。临床医生分类的AI聊天机器人使用问题的患病率以95%的二项式置信区间报告。基于临床医生的AIAT-20和CIAT-10的标准相关分析使用了这种分类方法作为外部临床参考。AIAT-20和CIAT-10的内部一致性通过Cronbach’s α和95%的自举置信区间进行评估。与基于临床医生的分类的标准相关区分能力通过接收者操作特征（ROC）分析来检验，包括曲线下面积（AUC）和95%的自举置信区间。经验性筛查临界值是通过Youden’s J统计量得出的，此外还报告了一个确认性的“规则内”阈值，即特异性≥0.95；对于每个阈值，计算了敏感性、特异性、阳性预测值（PPV）、阴性预测值（NPV）和比值比。CIAT-10严重程度与应对变量之间的关联通过Spearman相关性进行分析，并考虑了95%的置信区间和假发现率控制（Benjamini–Hochberg）。为了识别CIAT-10严重程度的独立相关因素，在双变量分析中，将p<0.20的变量纳入初始的多变量线性回归模型中。然后通过仅保留与CIAT-10严重程度独立相关的预测因子来得到简化后的最终模型。使用了异方差稳健的标准误差；报告了回归系数（B）、标准化系数（β）和95%的置信区间，并通过方差膨胀因子检查了多重共线性。所有分析都使用了每个分析/模型的完整数据，双侧α=0.05。

**样本特征**
在研究期间，儿童和青少年精神病学部门接收了233名新患者。其中，148名患者报告使用了AI聊天机器人，122名患者表示使用它们与心理健康问题有关。共有92名参与者符合纳入和排除标准并被纳入研究（平均年龄13.2岁，标准差1.1岁）；60.9%为女性。最常见的主诉症状是抑郁症状（29.3%）、注意力缺陷/多动障碍（27.2%）和焦虑症状（23.9%）；其他症状较少见（表1）。平均每天使用AI聊天机器人的时间为97.5分钟，19.6%的参与者表示购买了付费订阅服务。自我报告的对AI聊天机器人的信任度总体较高（平均92.0%，标准差9.3），68.5%的人认为其非常有用（表1）。表1显示了参与者的特征和AI聊天机器人的使用情况（N=92）。参与者在回答“您出于什么目的使用AI聊天机器人来处理您的心理健康问题或精神症状？”时，可以提到多种用途。最常被提及的用途是在危机中寻求情感支持或鼓励（71.7%，n=66）以及获取关于心理健康状况的一般信息（70.7%，n=65）。了解自己的症状也是一个常见的需求（44.6%，n=41），还有寻求应对焦虑或抑郁症状的练习或策略（41.3%，n=38）。21.7%的参与者表示使用过关于恐慌发作或强迫思维的建议（n=20）。其他用途较少见，包括纠正对精神疾病的误解（18.5%，n=17）、获取心理治疗建议或替代方案（17.4%，n=16）、寻求提高注意力或记忆力的方法（17.4%，n=16）、用更简单的语言理解医疗报告或诊断结果（16.3%，n=15），以及将AI聊天机器人的回答与临床医生的建议进行比较（12.0%，n=11）。

参与者还回答了关于AI聊天机器人回答质量的多个问题。最常被认可的特点是获得了情感支持和鼓励（78.3%，n=72）、在需要时被建议咨询临床医生（73.9%，n=68），以及得到的信息被认为是清晰正确的（70.7%，n=65）。27.2%的参与者提到回答中包含了放松或认知行为策略等心理技巧，17.4%的参与者提到得到了实际建议或具体步骤。29.3%的参与者认为回答可能不清楚或令人困惑。在我们的临床样本中，有21名参与者符合临床医生对问题AI聊天机器人使用的分类标准（22.8%；95%置信区间15.4–32.4%）。

AIAT-20在临床青少年样本中的心理测量表现：这项包含20项的AI聊天机器人适应版互联网成瘾测试显示出较高的内部一致性，Cronbach’s alpha值为0.888（95%自助法置信区间0.830至0.922；表2）。通过接收者操作特征曲线下面积评估了其与临床医生分类的标准相关区分度，结果显示区分度为中等（曲线下面积=0.699，95%自助法置信区间0.569–0.819）。通过Youden指数得出了一个经验性筛查阈值：在49分或以上时，灵敏度为0.762，特异性为0.648，阳性预测值为0.390，阴性预测值为0.902。CIAT-10在儿童和青少年精神病学门诊样本中的测量表现：这项包含10项的AI聊天机器人适应版互联网成瘾测试显示出可接受至良好的内部一致性，Cronbach’s alpha值为0.794（95%自助法置信区间0.692至0.854）。通过接收者操作特征曲线下面积（AUC=0.789，95%自助法置信区间0.681–0.883）评估了其与临床医生对问题AI聊天机器人使用的分类的标准相关区分度，表明区分度良好。通过Youden指数得出的另一个筛查阈值是24分或以上：此时灵敏度为0.952，特异性为0.577，阳性预测值为0.400，阴性预测值为0.976。CIAT-10得分与同一改编项目池中的20项总得分有很强的正相关（皮尔逊相关系数0.699，斯皮尔曼相关系数0.600，p<0.001），表明它们捕捉到了相似的严重程度连续体。为了减少CIAT-10得分与20项总得分之间的关联仅由共同项目驱动的风险，我们还将CIAT-10得分与未包含在CIAT-10中的10项改编项目计算出的非重叠剩余得分进行了比较。CIAT-10得分与这个剩余得分的关联较弱且不稳健，剩余得分对临床医生分类的区分度接近随机水平（曲线下面积=0.515）。这些发现表明，CIAT-10提供了一个简洁的严重程度指标，其可靠性较高，并且与20项总得分相比具有更强的标准相关区分度，支持其在当前分析中作为主要连续严重程度指标的临时使用。

在临床青少年样本中，问题AI聊天机器人使用的严重程度与多种因素相关。在双变量分析中，CIAT-10的严重程度随着年龄的增长和每天使用AI聊天机器人的时间的增加而增加（以分钟计）。较高的自我信任度与较低的CIAT-10得分相关。家庭满意度与CIAT-10的严重程度呈负相关，而孤独感在这一临床样本中与CIAT-10的严重程度无显著关联。主要的主诉类别与CIAT-10的严重程度无显著关联。使用AI聊天机器人处理与精神相关问题的青少年中，问题AI聊天机器人使用的严重程度与一种结构化的应对方式相关。通过Brief COPE子量表分析，较高的CIAT-10得分与较低的问题聚焦应对和较低的情绪聚焦应对相关，而回避应对则增加。这些模式在调整了社会人口统计和临床因素以及与AI聊天机器人使用相关的因素后的偏相关分析中基本保持一致，表明CIAT-10的严重程度所关联的应对方式不仅仅是由使用工具的时间决定的。

为了识别青少年中使用问题AI聊天机器人的独立相关因素，我们拟合了一个具有稳健标准误差的多变量线性回归模型。在最终保留了独立相关预测因子的简化模型中，整体模型表现良好，R平方值为0.515，调整后的R平方值为0.493，表明CIAT-10严重程度的大约一半变异可以由这些预测因子解释。模型在统计上显著，F检验值为36.93（自由度为4和87），p<0.001，残差标准误差为6.99 CIAT-10分。多变量模型显示，较高的感知有用性与较高的CIAT-10严重程度相关，而较高的对AI聊天机器人的信任度、对家庭关系的更高满意度以及更强的问题聚焦应对与较低的CIAT-10严重程度相关。在实际应用中，0-100量表上高10点的信任评分对应CIAT-10得分平均降低约2.9分，而高有用性组对应CIAT-10得分平均增加约8.1分（其他保留变量保持不变）。

我们的研究回应了临床上日益增长的需求，即更清楚地了解生成式AI聊天机器人在接受儿童和青少年精神卫生护理的青少年中的作用。我们有意将其设计为一个探索性的、基于实践的调查，具有明确的临床目标：检查那些报告因心理健康问题而使用聊天机器人的青少年中，这种使用在临床上造成损害的频率，更好地区分支持性参与和问题性参与，并识别可能有助于阐明潜在风险和治疗目标的相关因素。方法上，我们选择不提出一个新的诊断实体，而是通过一个跨诊断的、以损害为中心的框架来解释遇到的临床情况。我们的临床分类依赖于ICD-11中强调的与成瘾行为密切相关的组成部分，即控制能力受损、行为优先级增加、尽管有负面后果仍持续以及具有临床意义的功能损害[9]。这种方法与关于问题数字行为的文献一致，其中临床严重程度不能简单地归结为屏幕使用时间，而是通过控制、后果和损害这三个方面来更好地捕捉[5, 6, 25]。这也与一些临床研究对游戏障碍的ICD-11指导的理解一致，这些研究强调功能影响和共病情况，而不仅仅是使用强度[26, 27]。从这个角度来看，每天使用聊天机器人的时间平均为97.5分钟，标准差为56.2分钟，这有助于描述暴露情况，但不足以定义问题性参与，特别是在数字参与仍然被认为是正常的青少年中[28]。

在这组因心理健康问题而使用聊天机器人的青少年亚组中，接近四分之一符合我们基于临床医生的问题使用分类标准（22.8%，95%置信区间15.4–32.4%）。这一比例不应被解释为所有青少年精神科门诊患者或一般青少年群体的患病率估计。相反，它反映了在已经依赖聊天机器人应对心理困扰的青少年亚组中观察到的具有临床意义的问题性使用的频率。这些发现表明，在那些将此类工具作为求助或应对策略一部分的青少年中，可能有少数人表现出控制能力受损以及功能或治疗损害的明显模式。这一观察与青少年数字求助方式的更广泛变化一致，因为美国最近的国家调查显示，生成式AI已经在青少年和年轻人中用于心理健康建议[1]。因此，我们的发现可能不仅仅反映了一个孤立的临床现象，而是一种开始与精神卫生护理相交的新兴实践。我们的描述性发现进一步表明，聊天机器人的使用通常与治疗过程紧密相关。主要用途是在危机中寻求情感支持（71.7%），获取关于心理健康状况的信息（70.7%），其次是了解症状（44.6%），以及请求练习或策略（41.3%）。同时，青少年经常认为回答是支持性和鼓励性的（78.3%），并且经常在需要时被建议咨询专业人士（73.9%），而少数人报告回答令人困惑（29.3%），较少有人报告药物建议（7.6%）。这种与护理相关的模式支持了这样一个观点：聊天机器人可以成为一个对话中的第三方权威，一个被认为始终可用、富有同情心且反应迅速的对话者，能够验证、细化或挑战讨论的内容。关于心理健康对话代理的研究表明，感知到的同理心和持续的可用性是参与度和吸引力的关键决定因素，特别是在心理困扰的情况下[29, 30]。类似地，关于在线健康信息寻求的文献长期以来描述了外部来源如何重塑患者-临床医生关系，有时会削弱联盟，但也为心理教育和共同决策提供了机会[31, 32]。大型语言模型的互动性可能会加剧这一机制，因为其输出被视为个性化的、对话式的和立即可操作的。

从心理测量学角度来看，长项和短项工具之间的对比具有临床信息价值。AIAT-20显示出优异的内部一致性，alpha值为0.888，但对临床医生分类的区分度仅为中等，AUC为0.699。相比之下，CIAT-10显示出良好的内部一致性（α值为0.794）和较高的区分度（AUC值为0.789），在实证阈值24或更高时具有强烈的筛查导向特性：其敏感性非常高（0.952），阴性预测值也非常高（0.976）。这表明较低的CIAT-10分数可以帮助临床医生以合理的信心排除具有临床意义的障碍，而较高的分数则应促使进行结构化的临床访谈，而不是自动贴标签。这种逐步逻辑——先进行简要筛查，再结合临床判断——反映了在其他问题行为中筛查工具的使用方式，其中后果的归因和混杂因素的评估仍然是基本的临床任务[5, 25]。我们研究中观察到的应对模式支持了一种谨慎的补偿性解释：问题性聊天机器人使用的严重程度越高，依赖回避性应对策略的程度越大，积极参与主动、以问题为中心的应对策略的程度越低。一种可能的解释是，对于某些青少年来说，聊天机器人可能提供了一种容易获取的短期缓解途径，这与他们更倾向于回避性处理压力的方式相符。这种解读与问题性在线行为的补偿模型一致，在这些模型中，某种行为可能会因为暂时缓解焦虑、不确定性或情绪不适而得到强化，即使它可能带来长期的功能成本[8]。这也与更广泛的整合框架（如I-PACE模型）相符，在这些框架中，应对风格、认知偏差、负面情绪和短期强化可能会相互作用，从而维持失调的使用模式[25, 33]。同时，反向情况也同样有可能：那些已经更依赖回避性应对的青少年在遇到压力时可能会特别倾向于反复使用聊天机器人，因为这些工具提供了即时访问、情感响应和快速控制的感覺。更广泛地说，这两种模式可能反映了与情绪调节困难相关的共同脆弱性，这种脆弱性在心理病理学和行为成瘾中都被广泛认为是跨诊断的风险因素[25, 34]。从这个角度来看，聊天机器人可能更多地充当了一种表达已有调节脆弱性的媒介，而不是导致适应不良应对的主要原因。在青少年时期，当应对策略仍在发展中时，反复依赖外部对话工具来快速缓解压力可能会减少加强更努力但可能更具适应性的策略（如计划、解决问题或寻求可信赖他人的支持）的机会[35, 36]。因此，我们的发现最好理解为揭示具有临床意义的关联，而不是单向机制的证据。

两项心理社会发现支持了一个比单一社会孤立解释更为复杂的关系模型。我们的数据显示，感知到的孤独感与问题性聊天机器人使用的严重程度无关（rho值为-0.037），而家庭满意度与CIAT-10的严重程度呈负相关（rho值为-0.344）。在临床样本中，心理困扰及相关体验（如孤独感）可能较高且相对同质，从而降低了其区分能力。相比之下，家庭氛围是一个影响获得支持、日常行为的调节以及通过数字支持寻求即时安慰的近端因素。这种解释与证据一致，即问题性数字行为与孤独感之间的关系通常是间接的，并受到社会支持和家庭沟通的中介作用[37]。纵向数据还表明，孤独感可能先于问题性互联网使用的增加，但这一轨迹受到关系和家庭变量的调节，这与近端保护因素而非统一的直接效应一致[38]。因此，我们的发现并不否定孤独感的临床相关性。相反，它们表明，在已经脆弱的群体中，家庭环境可能更好地区分了对聊天机器人的依赖程度。信任与严重程度之间的关联增加了重要的临床细微差别。尽管整体上自我报告的信任度较高（92.0%，标准差9.3%），但更严重的使用情况与较低的信任度相关（rho = -0.261）。乍一看，如果假设问题性依赖主要是由对工具始终准确的信念驱动的，这似乎是违反直觉的。一种可能的解释是，依赖程度可能较少依赖于感知到的准确性，而更多依赖于即时调节效果，因为即使聊天机器人的回答被认为只有部分可靠，咨询聊天机器人也可能减轻困扰。我们的描述性发现与这种矛盾心理相符：近三分之一的参与者报告说回答令人困惑（29.3%），也有参与者报告了与药物相关的建议（7.6%）。这种模式与寻求安慰和检查的过程一致，在这种过程中，尽管信任度不完美，但重复咨询仍能带来短期缓解[39, 40]。相关的网络疑病症模型描述了类似的机制，即重复的在线健康寻求可能会暂时减轻担忧，但最终会强化适应不良的安慰寻求模式[41]。在我们的研究中，信任度是通过简单的自我评分百分比来评估的，这限制了测量的精确度。即便如此，它可能捕捉到了聊天机器人使用的一个具有临床相关性的关系维度，值得在未来的研究中进行更详细的探讨。

这些发现还需要简要的安全框架。通用大型语言模型（LLMs）在心理健康背景下存在特定风险：可能传播错误信息或产生幻觉，提供建议时缺乏临床背景信息；回答可能会无意中强化沉思、回避或功能失调的信念；存在隐私问题，可能导致敏感数据的泄露；在涉及自杀念头、精神病症状或饮食障碍等脆弱情况下，临床安全和人类护理途径必须保持优先[42, 43]。现有的综述强调了这些工具的吸引力及其质量的异质性，包括在检测严重程度和自杀风险方面的局限性，支持在将这些工具整合到护理中时要采取谨慎的态度[42]。这项工作的主要优点包括其临床基础、将样本限制在报告因心理健康问题使用聊天机器人的青少年身上，以及结合了以障碍为中心的临床分类、严重程度测量和相关性分析。但也应承认一些局限性。首先，样本仅限于在临床评估中明确表示出于心理健康原因使用AI聊天机器人的青少年。因此可能存在报告不足或未报告的情况，一些符合条件的用户可能未被纳入研究，这引入了选择偏差的风险，并限制了观察到的频率估计的普遍性。尽管如此，研究的目的是描述一个可识别的临床亚群，并探讨该亚群中更严重的使用情况如何与应对和心理社会功能相关。其次，由于缺乏非使用者的精神病学对照组和社区对照组，我们无法确定观察到的应对和家庭模式是否特定于问题性聊天机器人的使用。因此，这些发现应被视为组内临床关联，而不是特异性的比较证据。第三，由于是横断面设计，观察到的关联方向无法确定。可能存在这样的情况：具有更回避性应对风格、更大困扰或家庭支持较少的青少年更可能依赖聊天机器人来管理困扰，而不是问题性聊天机器人的使用本身导致了这些模式。第四，尽管多变量模型解释了样本中CIAT-10严重程度的一部分变异，但由于样本量较小，回归系数应被视为探索性的，可能需要通过重复实验来验证。第五，信任度和感知有用性是通过简短的单项指标来评估的，这限制了测量的精确度。第六，尽管基于临床医生的障碍分类依赖于结构化的提示、示例、情境归因和初步的评分者校准练习，但它仍然部分依赖于临床判断，因此仍存在一定程度的主观性。此外，尽管基于临床医生的分类结合了情境归因和功能或治疗性障碍，但仍可能与AIAT-20和CIAT-10评估的领域存在概念上的重叠，特别是受损控制和负面后果，这可能导致标准相关的区分度被夸大。最后，短期和长期严重程度测量都是在同一数据集中得出的和评估的，这可能导致对性能的估计有些乐观，并强调了在独立样本中进行重复实验的必要性。

从临床角度来看，我们的发现支持了一种简单的操作方法。对于使用聊天机器人处理心理问题的青少年来说，探索使用的功能、可控性、优先级和功能或治疗效果比关注使用时间更有信息量。CIAT-10作为一个敏感的筛查工具，有助于识别需要针对性临床探索的青少年，而以障碍为中心的临床分类有助于避免将有益的使用病理化。目标是通过加强对话框输出的关键评估，识别使用服务于回避的时刻，并重新引入更积极的应对策略，同时与家庭合作制定日常安排和支持性限制，而不加剧冲突。需要纵向的多中心研究来描绘轨迹，识别高风险群体，并测试关注安全、AI素养和情绪调节的简短干预措施。

在青少年精神科门诊环境中，使用生成式AI聊天机器人处理心理健康相关问题很常见，且通常被认为很有帮助。然而，这项研究表明，在一小部分被临床跟踪的青少年中，聊天机器人的使用可能会发展成具有临床意义的问题模式，这些模式不仅表现为暴露，还表现为控制能力受损、优先级提高、尽管有负面后果仍持续使用以及功能或治疗上的干扰。我们的发现强调，问题性聊天机器人的使用与工具在情绪调节和应对中的作用密切相关，而不是与诊断类别或孤独感本身有关。更严重的使用情况与更回避性的应对模式和较低的家庭满意度相关，这突显了近端关系环境在调节对数字情感支持依赖程度中的作用。从临床角度来看，这些结果支持了一个以障碍为中心的评估框架的相关性，该框架受到ICD-11原则的启发，用于区分支持性或发展正常的聊天机器人使用与需要临床关注的模式。开发并测试了一个简短的筛查工具（CIAT-10），为临床判断提供了实用的补充，有助于在不过度病理化新兴数字实践的情况下实现早期识别。总体而言，这项研究为数字心理健康领域做出了贡献，提供了临床依据的标志，以指导对青少年使用聊天机器人的评估、心理教育和治疗对话。将聊天机器人使用的讨论纳入常规精神科护理中，可以帮助临床医生更好地理解青少年的求助行为，支持适应性应对策略，并在不断变化的数字环境中维护治疗过程的完整性。

热点排行