领会言外之意：结合停顿特征与语义连贯性实现思维障碍的自动化评估

《Neuropsychologia》：Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder

【字体：大中小】 时间：2026年05月02日 来源：Neuropsychologia 2

编辑推荐：

　　冯晨|徐伟哲|李长业|谢尔盖·帕霍莫夫|亚历克斯·科恩|西姆兰·博拉|沈珊迪|唐森尼|迈克尔·麦金利|莱娜·帕拉尼亚潘|德罗尔·本-齐夫|特雷弗·科恩华盛顿大学生物医学信息学与健康教育系，邮编358047，西雅图，华盛顿州98195，美国 **摘要** 形式思维障

　　冯晨|徐伟哲|李长业|谢尔盖·帕霍莫夫|亚历克斯·科恩|西姆兰·博拉|沈珊迪|唐森尼|迈克尔·麦金利|莱娜·帕拉尼亚潘|德罗尔·本-齐夫|特雷弗·科恩
华盛顿大学生物医学信息学与健康教育系，邮编358047，西雅图，华盛顿州98195，美国

**摘要**
形式思维障碍（FTD）是精神分裂症谱系障碍的标志性特征，表现为言语不连贯，给临床评估带来了挑战。尽管传统的临床评分量表已经过验证，但它们资源消耗大且缺乏可扩展性。自动语音识别（ASR）能够客观量化言语的语言和时间特征，提供了可扩展的替代方案。此外，ASR生成的言语时间戳可以揭示停顿动态，这些动态被认为反映了言语产生的认知过程。然而，其超出语义测量的附加价值尚未得到充分探索。在这项研究中，我们评估了一个可扩展的多模态框架，该框架将停顿特征与语义连贯性指标结合在三个数据集中：自然录制的自我日记（AVH，n = 140名参与者）、结构化图片描述（TOPSY，n = 72名参与者）和梦境叙述（PsyCL，n = 43名参与者）。我们使用支持向量回归（SVR）评估了与停顿相关的特征以及既定的连贯性指标，以预测临床FTD评分。仅使用停顿特征的模型在不同数据集中都能稳健地预测手动评定的FTD严重程度。将停顿特征与语义连贯性指标结合使用，与仅使用连贯性指标的模型相比，提高了预测性能，其中晚期融合在所有三个数据集中都带来了最稳健和一致的改进。平均而言，三个数据集之间的Spearman相关性从仅使用语义指标的ρ = 0.413提高到了晚期融合后的ρ = 0.455。语义和停顿特征整合带来的性能提升在所有情境中都是一致的，尽管最具信息量的停顿模式因数据集而异。这些发现表明，停顿动态和语义连贯性反映了思维紊乱的互补方面。我们的整合框架为改进精神病中言语紊乱的评估提供了一种可扩展的方法。

**1. 引言**
形式思维障碍（FTD）是精神分裂症谱系障碍（SSD）和其他精神病性疾病的核心临床特征，其特征是思维组织和表达的紊乱（Roche等人，2015；Sass & Parnas，2017）。这种综合征表现为言语紊乱，包括思维偏离（并列概念之间不直接或无法识别的联系）、离题（与初始问题或主题脱节）以及语义不连贯（话语之间缺乏或不存在有意义的联系）。这种言语紊乱使临床评估变得复杂，与较差的社会功能、较低的治疗反应性和较差的长期预后相关（Andreasen & Grove，1986；Roche等人，2015）。准确识别和量化这些言语紊乱传统上依赖于劳动密集型的手动转录和使用经过验证的临床量表进行评分，包括思维和语言障碍（TALD）量表、思维和语言指数（TLI）以及思维、语言和沟通评估（TLC）量表（Andreasen，1986；Kircher等人，2014；Liddle等人，2002）。虽然这些工具已经过验证，但它们依赖于主观解释、评估者的广泛培训以及劳动密集型的评分过程，这限制了它们的可重复性和可扩展性。

早期的元分析工作研究了作为精神分裂症谱系障碍心理病理学客观指标的言语衍生标志物，特别关注言语产生的时间特征，如停顿、语速和韵律（Cohen等人，2014）。在那项元分析中，作者发现与停顿相关的指标是区分精神分裂症患者和健康对照组的最稳健的声学相关性指标之一。与这些结果一致，最近的一项系统评价和贝叶斯元分析报告称，停顿持续时间在区分精神分裂症患者和健康对照组方面具有最大的平均效应大小，优于许多其他声学特征（Parola等人，2020）。这两项元分析都强调了效应大小在研究之间的显著异质性，这归因于言语任务、记录条件和分析选择的差异。重要的是，尽管这些先前的研究主要考察了诊断组之间的差异，但它们并未直接研究停顿动态与临床评估的形式思维障碍严重程度之间的关系。这种区别很重要，因为言语时间的病例-对照组差异并不一定意味着对思维紊乱严重程度的敏感性。总体而言，这些发现表明，停顿动态和语义连贯性反映了思维紊乱的互补方面。我们的整合框架为改进言语紊乱的评估提供了一种可扩展的方法，从而推进了精神病中的自动言语分析。

**2. 方法**
我们评估了一个可扩展的多模态框架，该框架将停顿特征与语义连贯性指标结合在三个数据集中：自然录制的自我日记（AVH，n = 140名参与者）、结构化图片描述（TOPSY，n = 72名参与者）和梦境叙述（PsyCL，n = 43名参与者）。我们使用支持向量回归（SVR）评估了与停顿相关的特征以及既定的连贯性指标，以预测临床FTD评分。仅使用停顿特征的模型在不同数据集中都能稳健地预测手动评定的FTD严重程度。将停顿特征与语义连贯性指标结合使用，与仅使用连贯性指标的模型相比，提高了预测性能，其中晚期融合在所有三个数据集中都带来了最稳健和一致的改进。平均而言，三个数据集之间的Spearman相关性从仅使用语义指标的ρ = 0.413提高到了晚期融合后的ρ = 0.455。语义和停顿特征整合带来的性能提升在所有情境中都是一致的，尽管最具信息量的停顿模式的性质因数据集而异。

**3. 结果**
这些发现表明，停顿动态和语义连贯性反映了思维紊乱的互补方面。我们的整合框架为改进言语紊乱的评估提供了一种可扩展的方法，从而推进了精神病中的自动言语分析。

**4. 结论**
形式思维障碍（FTD）是精神分裂症谱系障碍（SSD）和其他精神病性疾病的核心临床特征，其特征是思维组织和表达的紊乱（Roche等人，2015；Sass & Parnas，2017）。这种综合征表现为言语紊乱，包括思维偏离（并列概念之间不直接或无法识别的联系）、离题（与初始问题或主题脱节）以及语义不连贯（话语之间缺乏或不存在有意义的联系）。这种言语紊乱使临床评估变得复杂，与社会功能较差、治疗反应性降低和长期预后较差相关（Andreasen & Grove，1986；Roche等人，2015）。准确识别和量化这些言语紊乱传统上依赖于劳动密集型的手动转录和使用经过验证的临床量表进行评分，包括思维和语言障碍（TALD）量表、思维和语言指数（TLI）以及思维、语言和沟通评估（TLC）量表（Andreasen，1986；Kircher等人，2014；Liddle等人，2002）。尽管这些工具已经过验证，但它们依赖于主观解释、评估者的广泛培训以及劳动密集型的评分过程，这限制了它们的可重复性和可扩展性。

早期的元分析工作研究了作为精神分裂症谱系障碍心理病理学客观指标的言语衍生标志物，特别关注言语产生的时间特征，如停顿、语速和韵律（Cohen等人，2014）。在那项元分析中，作者发现与停顿相关的指标是区分精神分裂症患者和健康对照组的最稳健的声学相关性指标之一。与这些结果一致，最近的一项系统评价和贝叶斯元分析报告称，停顿持续时间在区分精神分裂症患者和健康对照组方面具有最大的平均效应大小，优于许多其他声学特征（Parola等人，2020）。这两项元分析都强调了效应大小在研究之间的显著异质性，这归因于言语任务、记录条件和分析选择的差异。重要的是，尽管这些先前的研究主要考察了诊断组之间的差异，但它们并未直接研究停顿动态与临床评估的形式思维障碍严重程度之间的关系。这种区别很重要，因为言语时间的病例-对照组差异并不一定意味着对思维紊乱严重程度的敏感性。总体而言，这些发现表明，虽然停顿动态捕捉了言语规划和执行中的临床意义重大的紊乱，但其预测效用强烈依赖于情境，并可能因生态环境和认知需求而异。因此，了解不同言语引发范式中与停顿相关的特征的行为仍然是开发可靠、可泛化的基于言语的标志物的关键挑战。

**5. 总结**
最近在自动言语分析方面的进展为这些手动评估方法提供了有希望的替代方案，通过利用计算方法来量化言语紊乱的关键特征，如语言连贯性和时间动态（Bedi等人，2015；Elvev?g等人，2007；Voleti等人，2019）。高精度自动语音识别（ASR）系统的出现，如OpenAI的Whisper（Radford等人，2023），使得能够自动提取文本内容和精确的时间言语特征，包括每个言语片段的开始和结束时间（Radford等人，2023）。与手动转录不同，ASR可以快速处理大量音频记录，生成时间对齐的转录文本，从而不仅捕捉到所说的单词，还捕捉到言语的时间结构。这些时间戳使得能够提取停顿时间——话语之间的静默间隔——长期以来被认为可以揭示重要的认知和沟通过程（Angelopoulou等人，2024；Krivokapi?等人，2020；Matzinger等人，2023）。特别是，不规则或延长的停顿可能反映了思维流程的紊乱（?okal等人，2019；Stanislawski等人，2021），从而为评估形式思维障碍个体的言语组织提供了另一个维度。

尽管使用自动言语分析（ASR）来促进精神病学中的自动评估越来越受到关注（Corcoran & Cecchi，2020），但大多数针对思维障碍的计算方法主要集中在语义连贯性指标上，而时间言语动态则相对较少受到关注（Bedi等人，2015；Corcoran等人，2020；Elvev?g等人，2007；Xu等人，2021；Xu等人，2022）。语义连贯性指标通常量化相邻言语单元之间的语义相关性，从而提供局部连贯性的估计。另一方面，全局连贯性指标评估单个言语单元与更广泛背景的总结表示之间的关系。例如，基于累积质心的方法汇总所有先前言语单元的语义嵌入，以评估每个后续单元与话语演变背景的匹配程度（Xu等人，2021）。然而，仅基于语言的连贯性指标可能无法完全捕捉思维紊乱的复杂性，特别是因为ASR错误可能会扭曲转录文本并虚假地降低语义相似性得分（Ciampelli等人，2023）。此外，由于大多数句子嵌入模型是在通用领域文本上训练的，它们经常遗漏患者言语中可能出现的医学术语、地方性表达和新词（Berisha & Liss，2024；El Boukkouri等人，2019；Hitczenko等人，2021）。此外，自然言语通常不是以离散的句子组织的，但ASR系统在转录过程中强加了这种人工结构，这可能会引入额外的伪影，从而混淆相似性测量（Huang等人，2023）。与最近的跨语言和多数据集评估一致，语义连贯性指标的性能根据嵌入模型、聚合策略和言语任务的选择而显著变化，这引发了关于其在临床情境中普遍性的担忧（Parola，Lin等人，2023）。这些因素可能会掩盖语义相似性指标与临床意义重大的紊乱之间的关系，特别是在单独评估时。

停顿特征可能为语义连贯性分析提供补充信息。在非临床人群中的研究表明，停顿通常发生在语义复杂的段落之前或当说话者转换话题时，这两种情况都可能需要增加认知和语言规划（Krivokapi?等人，2020；Matzinger等人，2023）。在临床人群中，停顿模式显示出更大的变异性，可能反映了组织和产生流畅言语的潜在挑战（Angelopoulou等人，2024；Cohen等人，2016；De Boer等人，2023；Thakore等人，2010）。最近的研究表明，相对简单的韵律特征——如平均停顿持续时间、停顿次数和总讲话时间比例——可以显著提高对精神分裂症临床严重程度的预测（De Boer等人，2023；Thakore等人，2010）。此外，最近针对早期精神病的研究发现，个体的停顿持续时间可能比对照组更长，且停顿持续时间增加可能与思维障碍的严重程度更高相关（Dalal等人，2025）。因此，将停顿特征与连贯性指标结合使用可能使模型更好地捕捉言语的时间和内容，从而提高对不同程度紊乱的检测能力，并区分特定任务的言语动态，这对于考虑精神病评估中使用的临床访谈、自我记录的叙述和结构化任务的多样性非常重要（Cohen等人，2016；Low等人，2020）。

另一个重要的考虑因素是言语的情境依赖性。例如，经历听觉言语幻觉的个体（AVH）可能表现出与未主动产生幻觉的参与者不同的言语紊乱模式。此外，言语特征可能根据引发情境而发生显著变化——在结构化图片描述任务中有效捕捉紊乱的特征可能在开放式日记条目中表现不佳，而在受控实验室环境中可能产生不同的模式。这种跨情境的系统性变化突显了多数据集方法的重要性，该方法能够比较评估停顿汇总统计量和语义连贯性指标在不同言语引发方法和临床条件下的泛化能力。

最近的研究越来越强调多模态言语分析在表征精神分裂症相关语言障碍方面的潜在好处，同时强调了与泛化和过拟合相关的挑战。结合语言和声学特征的研究表明，多模态模型在预测或分类精神病相关结果方面优于单模态方法，表明时间和语义线索捕捉了部分不重叠的言语组织信息（Hansen等人，2023）。同时，大规模评估表明，基于言语的模型的性能高度依赖于分析选择，包括特征构建、聚合策略和验证设计，模型往往无法在不同数据集、语言或任务之间泛化（Parola，Lin等人，2023；Parola，Rybner等人，2023）。这些研究提醒我们，表面上的性能提升可能反映了数据集特定的伪影或过拟合，而不是临床稳健的标志物，特别是在小样本或高维特征空间中。总之，这些文献强调了需要在不同言语情境下使用精心设计的验证程序评估多模态方法的必要性，明确关注不同的建模和融合策略如何影响稳健性和可解释性。

在这项研究中，我们研究了停顿特征和语义连贯性指标如何共同贡献于对三种不同言语数据集中FTD的自动评估，这些数据集涉及SSD患者：（1）有听觉言语幻觉的个体的自然录制开放式音频日记（AVH数据集）（Ben-Zeev等人，2020），（2）首次发作精神病患者（FEP）和健康对照组的结构化图片描述访谈（TOPSY数据集）（Van Dyken等人，2024），以及（3）SSD患者的梦境叙述访谈（PsyCL数据集）（Tang等人，2023）。这些任务代表了生态有效性和认知需求的不同方面。这种系统变化使我们能够研究言语紊乱在不同情境中的表现差异，以及时间特征（如停顿动态）是否与临床症状表现出一致或任务依赖的关系。我们使用WhisperX模型（Bain等人，2023）生成了同时捕捉语言内容和停顿间隔的时间对齐转录文本。然后，我们测试了多种预测策略，包括单模态模型、通过特征串联的早期融合以及通过事后平均模型结果的晚期融合，以确定如何最好地合并时间（停顿）和文本（连贯性）特征。

我们测试了三个主要假设：（i）从ASR时间戳中提取的停顿特征可以独立预测临床FTD评分；（ii）将停顿特征和连贯性指标结合使用可以产生比仅使用语义特征更稳健的预测；（iii）多模态融合策略的相对效用取决于时间和语义信息的组合方式。通过分析在临床阶段、任务结构和生态有效性方面不同的三个数据集，这项工作进一步探讨了用于引发言语的任务与用于量化连贯性的测量之间的关系。最终，通过这些努力，我们旨在开发用于精神病中客观言语分析的可扩展多模态工具。

**6. 主要贡献**
本研究的主要贡献如下：
a) 我们系统地评估了从ASR提取的停顿特征在三个不同数据集中预测临床FTD评分的效用，证明了它们的独立预测能力。
b) 我们展示了将停顿动态与语义连贯性指标结合使用可以一致地提高预测性能。这一发现尤其令人信服，因为临床评分通常仅基于文本转录，这意味着注释者无法获取音频的时间信息。因此，性能的提升表明暂停特征能够捕捉到思维混乱的独特非语义信号，这些信号与语义分析相辅相成。c) 我们比较了多种多模态整合策略，发现通过模型级聚合的晚期融合在各个数据集上的表现始终优于早期特征级融合，这表明时间和语义语音特征提供了部分独立的信息，最好在决策层面进行结合。d) 我们分析了暂停和连贯性特征如何随上下文变化，为精神病中的任务和疾病阶段依赖性语音模式提供了证据。

2. 方法
本研究采用了一种模块化分析流程，结合了自动语音识别、语义连贯性和基于暂停的特征提取、单模态建模以及多模态整合，以预测形式思维障碍的严重程度。图1展示了从音频预处理和特征提取到回归建模和评估的完整工作流程。

2.1. 数据集
本研究使用了三个数据集，每个数据集都包含了来自经历精神病相关症状的临床人群的录音语音。每个数据集的特征可以在表1中找到。我们分析的第一个数据集是一个智能手机“音频日记”语料库，最初是为了研究AVH（ auditory verbal hallucinations）在Mobile-RDoC项目中的日常体验而收集的，该项目中，听到声音的成年人使用定制应用程序记录了30天的短篇自由讲话“日记”，描述他们的声音和相关事件（Ben-Zeev等人，2020年）。整个队列包括来自41个美国州的384名参与者。在研究过程中，他们提交了4,809条录音。对于当前的实验，分析仅限于那些有手动临床注释的语音偏离部分的转录本。我们使用了Xu等人（Xu等人，2021年；Xu等人，2022年）开发的包含310条录音的注释集，每名参与者最多有3条随机选择的30秒或更长的录音，数据收集于2019年10月18日之前。在这些录音中，排除了7条没有可解释内容的自动语音转录本，最终得到140名参与者的303条转录本。每条转录本都使用TALD量表进行了手动注释。TALD评分范围从0到4，0表示没有偏离，1-2表示轻度到中度偏离，3表示重度偏离，4表示不连贯。每条转录本由两名注释者独立评分。任何评分差异≥2分的情况都会重新评分，最终得分是两人评分的平均值。评分者间的一致性通过二次加权Kappa得分计算，为0.71。

表1. 数据集特征。TALD = 思维和语言障碍量表；TLI = 思维和语言指数；TLC = 思维、语言和沟通量表。阈值代表重度紊乱病例的临床分界。

2.2. 自动语音识别和说话者标注
所有数据集的语音转录都是使用WhisperX进行的，WhisperX是OpenAI的Whisper自动语音识别（ASR）模型的开源扩展（Bain等人，2023年；Radford等人，2023年）。Whisper是一个基于序列到序列的Transformer的ASR系统，经过大规模、弱监督的多语言语音数据训练。具体来说，我们使用了whisper-large-v3检查点，这是一个经过更新的预训练模型，与早期版本相比，转录的鲁棒性更高，幻觉现象也更少，同时保留了相同的底层架构。WhisperX通过添加强制对齐和说话者标注组件，改进了Whisper模型，使得在段落级别和单词级别上进行更精确的时间戳估计成为可能。特别是，WhisperX通过基于对齐的后处理细化了Whisper的段落边界，并通过Pyannote工具包（Bredin，2023年）实现了说话者标注，从而能够可靠地分离多说话者录音中的参与者和采访者的语音。

对于涉及采访者-参与者互动的TSYPsy和PsyCL数据集，使用标注来识别并仅保留参与者的语音段落。对于由Monologue in naturalistic environment、Conversations in controlled environment和Conversations in controlled environment组成的AVH数据集，由于采访者的语音是自我录制的独白，同样应用了WhisperX流程，尽管不需要标注来分离说话者。ASR流程如下：(i) 使用WhisperX转录原始音频文件；(ii) 生成时间对齐的段落和单词级别的时间戳；(iii) 在适用的情况下应用说话者标注；(iv) 保留仅包含参与者的语音段落以构建时间对齐的转录本。这些时间戳随后用于暂停提取和下游特征提取中的句子分割。

为了评估转录准确性，我们在有手动临床注释的AVH数据集上评估了单词错误率（WER）和字符错误率（CER）。手动生成的TALD转录本作为参考文本，而WhisperX生成的转录本被视为假设。在评估之前，通过小写化和去除标点符号对转录本进行了标准化，以确保可比性。WER和CER是在转录本级别计算的，然后平均到所有录音上；正式定义在补充说明S1中提供。我们还将WhisperX与基础Whisper模型使用相同的评估协议进行了比较。WhisperX产生的错误率更低，WER从21.3%（Whisper）降至14.5%，CER从17.0%降至9.2%。这些值用于记录转录的可靠性，并不用于预测建模分析中的性能指标。WER/CER计算的详细信息在补充材料中提供。

2.3. 综合语义特征提取
2.3.1. 概述和概念框架
语义连贯性特征最初是为了通过测量连续语音单元之间的语义相关性来量化连贯性而开发的（Foltz等人，1998年），较低的连贯性反映了思维组织中的更大混乱。我们的方法遵循了之前的精神病计算工作，其中通过计算相邻或上下文相关语音单元的向量表示之间的相似性来估计语义连贯性，这些向量表示是使用潜在语义分析（LSA）或预训练的神经语言模型（Deerwester等人，1990年；Devlin等人，2019年；Mikolov等人，2013年）派生的。基本思想是，松散连接的语言，反映了思维混乱，应该在分析单元之间的语义连贯性得分较低。实际上，这些得分是通过在高维空间中测量语义向量表示之间的相似性来估计的，通常使用余弦度量（Bedi等人，2015年；Elvev?g等人，2007年；Just等人，2019年；Just等人，2020年；Tang等人，2021年）。

在当前的工作中，语义特征提取流程包括三个阶段：(1) 将转录本分割成语音单元，这些单元定义为基于ASR的标点符号（acoustically-derived WhisperX-split）或基于规则的句子分割（grammatically-derived NLTK-split）得到的类似句子的单元，作为基于暂停分析的基本对齐单元，因为暂停是在处理后的转录本中相邻语音单元之间计算的；(2) 使用神经句子嵌入计算句子级别的语义相似性得分；(3) 使用简单的汇总统计或时间序列特征提取将这些相似性得分聚合为转录本级别的特征。所有语义特征都是使用Comprehensive Coherence Calculator（CCC）计算的，这是一个为精神病相关语音的自动连贯性评估开发的模块化框架（Weizhe Xu，2022年）。

2.3.2. 句子分割和嵌入
转录本使用Natural Language Toolkit（NLTK）（Bird，2006年；Bird等人，2009年）的句子分词器分割成类似句子的单元。由于自发语音并不是自然组织成语法句子的，这种分割代表了一种计算近似，而不是语言上的真实情况。为了评估对分割策略的鲁棒性，我们还评估了另一种分割方案，其中单元边界是根据WhisperX的段落时间戳派生的，这些时间戳包含了声学暂停信息。然后以与使用NLTK得到的类似句子的单元相同的方式处理这些单元。每个语法或声学派生的单元都被嵌入到一个固定长度的语义向量中。在主要分析中，我们使用SimCSE（Simple Contrastive Learning of Sentence Embeddings）报告结果，这是一种基于对比学习的句子嵌入方法，已被证明在语义相似性基准测试中始终优于标准的BERT句子表示（Gao等人，2021年）。SimCSE嵌入是使用预训练的BERT基础模型计算的，没有进一步针对检测思维混乱进行任务特定的微调。在补充材料中提供了与CCC中实现的包括BERT在内的其他嵌入模型的比较。

2.3.3. 句子级别连贯性计算
使用句子嵌入，CCC通过三种互补的公式计算句子级别的语义连贯性得分：(1) 顺序连贯性（局部连贯性）：连续句子嵌入之间的余弦相似性，捕捉局部主题连续性和突然的主题转换（Elvev?g等人，2007年）；(2) 静态质心连贯性（全局连贯性）：每个句子嵌入与转录本中所有句子嵌入的质心（向量平均值）之间的余弦相似性，提供对整体话语主题的固定参考（Xu等人，2021年）；(3) 累积质心连贯性（上下文连贯性）：每个句子嵌入与使用所有先前句子迭代更新的质心之间的余弦相似性，模拟演变的话语背景和累积的主题漂移（Xu等人，2021年）。每种公式都为给定转录本产生一系列句子级别的连贯性得分。

2.3.4. 转录本级别聚合策略
为了从句子级别的连贯性序列中提取转录本级别的语义特征，我们采用了两种聚合策略，反映了先前工作中使用的不同建模假设。因为最小聚合产生一个确定性的转录本级分数，所以它不涉及模型拟合或交叉验证；性能是通过与临床评分的直接相关性来评估的。2.3.4.2. 时间序列特征提取（TARDIS）作为一种替代策略，我们采用了时间序列增强表示用于检测不连贯言语（TARDIS）框架（Xu等人，2022年）。TARDIS不是将连贯性简化为一个单一的总结统计量，而是将连贯性分数的序列视为时间序列，并应用自动化特征提取来捕捉整个话语中的时间模式。具体来说，我们使用了TSFRESH包（Christ等人，2018年）从每个连贯性时间序列中提取了764个统计描述符，包括分布形状、时间结构和频域属性的度量。为了避免将连贯性与转录本长度混淆，我们排除了25个与长度相关的特征，这与TARDIS之前的实现一致（Xu等人，2022年）。结果特征向量代表了转录本级的语义连贯性动态。2.4. 暂停特征提取2.4.1. 暂停持续时间估计暂停持续时间是使用WhisperX生成的时间对齐的语音片段来估计的。只考虑了口语片段之间的暂停；录音开始和结束时的前导和尾随静默被排除在外。WhisperX的时间戳准确性已经通过手动验证的词级对齐进行了验证，精度范围为84.1-93.2%，使用了200毫秒的容忍范围，这为我们的暂停持续时间测量提供了信心（Bain等人，2023年）。这个过程为每个转录本生成了一个暂停持续时间列表，这是暂停特征提取的基础。2.4.2. 聚合暂停特征第一组特征包括六个总结统计量，这些统计量简洁地总结了语音记录中的暂停模式：最大、平均、中位数和最小暂停持续时间，暂停的总数，以及暂停时间相对于总记录时间的比例。这些特征提供了一个紧凑且临床可解释的语音组织表示，使得可以直接与之前关于思维障碍相关标记的工作进行比较。第二组特征使用第2.3节中描述的相同自动化时间序列特征提取框架从TSFRESH包中提取了764个时间特征，以捕捉更高阶的时间结构。所有提取的临床评分、语义连贯性指标和基于暂停的时间特征的完整总结，包括规模、单位和聚合级别，在补充表S1中提供。2.5. 建模策略为了评估时间暂停动态和语义连贯性如何共同贡献于FTD的预测，我们采用了一个建模框架，该框架明确比较了单模态、特征级（早期融合）和模型级（晚期融合）方法，如图1所示。这种设计使我们能够评估（i）每种模态的独立预测价值，（ii）结合时间和语义信息是否可以提高鲁棒性，以及（iii）不同的集成策略如何影响性能和跨数据集的泛化能力。此外，我们比较了多个回归模型，以将性能置于上下文中，并减少对单一建模假设的依赖。2.5.1. 单模态模型作为基线，我们使用（i）仅语义连贯性特征和（ii）仅暂停相关特征训练了单模态模型。语义特征包括最小聚合的连贯性分数和使用TARDIS框架提取的时间序列派生特征。暂停特征包括总结统计量和TSFRESH派生的时间描述符。2.5.2. 早期融合在早期融合方法中，暂停特征和语义连贯性特征被合并成一个单一的特征向量，用于每个转录本。然后使用这个组合特征向量作为输入到一个回归模型中，以预测注释者分配的偏离分数。2.5.3. 晚期融合在晚期融合方法中，首先分别独立训练暂停特征和语义连贯性特征。每个转录本的最终预测是通过平均两个单模态模型的预测得到的。这种策略保留了每种模态的独特结构，并减少了由于规模或维度差异导致一个特征集主导学习过程的风险，这在之前的多模态语音分析工作中已被证明可以提高鲁棒性（Hansen等人，2023年）。2.5.4. 模型选择和训练程序我们的主要回归模型是支持向量回归（SVR），采用径向基函数（RBF）核，选择它是基于其在自动评估思维障碍中的先前使用及其在高维空间中建模非线性关系的能力（Xu等人，2022年）。我们还评估了岭回归和偏最小二乘（PLS）回归，它们提供了具有不同偏差-方差权衡和维度处理特性的线性基线。我们将预测任务表述为回归而不是分类，因为目标临床评分是序数严重性尺度。所有回归模型都是使用Python版本3.9的scikit-learn实现的。所有模型都使用留一受试者外交叉验证（LOSO-CV）进行训练和评估，以防止参与者级别的数据泄露。在每个折叠中，一个参与者的所有转录本被留出用于测试，模型仅在剩余参与者的数据上训练。预测是在转录本级别生成的。2.5.5. 特征维度控制为了减轻高维TSFRESH特征可能导致的过拟合，我们在每个LOSO折叠的训练数据内使用单变量F统计量（f_regression）进行了特征选择敏感性分析。主手稿中报告的结果基于使用前200个选定特征的模型，这些特征在跨数据集的预测性能和鲁棒性之间提供了良好的平衡。在不同特征维度下评估模型性能的敏感性分析显示在补充图S1中。2.6. 评估本研究中使用的数据集采用了不同的评分系统来测量思维和语言的组织混乱。贡献于AVH数据集的评分者使用了TALD尺度，TOPSY数据集的评分者使用了TLI，PsyCL数据集的评分者使用了TLC尺度。为了考虑这些尺度结构和范围的不同，所有模型都在每个数据集内分别进行训练和评估。2.6.1. 评估指标在所有三个数据集的转录本级别评估了性能。我们使用三个互补的指标来评估模型性能。首先，使用Spearman等级相关系数（ρ）作为主要评估指标，以量化预测分数和临床评分之间的单调关联，而不假设仪器之间的线性或可比的尺度间隔。其次，我们报告平均绝对误差（MAE），以量化原始评分空间中的绝对预测误差，提供了一个可解释的预测准确性度量。第三，为了评估模型在类别不平衡情况下识别高度混乱言语的性能，我们报告了精确度-召回曲线下面积（AUPRC）。选择AUPRC而不是ROC AUC，因为在阳性（严重）类别相对罕见的情况下，它更具信息性，这在临床语音数据集中是典型的。2.6.2. 严重混乱的定义由于TALD、TLI和TLC在尺度范围和结构上有所不同，并且因为没有普遍接受的临床截止值，我们采用了基于分布的严重混乱定义。在每个数据集中，临床评分落在分数分布前20%内的转录本（或参与者）被标记为“严重”，其余80%被标记为“非严重”。这种方法在数据集之间提供了统一的严重性普遍性，并减少了由特定尺度阈值引入的任意性。AUPRC对不同分位数阈值（50%–95%）的敏感性在补充图S2中报告。2.7. 辅助分析除了预测建模之外，我们还进行了两项辅助分析，以表征时间暂停动态、语义连贯性和任务结构之间的关系。这些分析旨在探究提取特征中的潜在关联，并将跨任务的变异性置于上下文中，而不是评估预测性能。2.7.1. 暂停-连贯性关联为了评估较长的暂停是否倾向于先于更大的语义不连续性，我们检查了暂停持续时间和句子间语义连贯性在转录本级别上的关联。对于每个转录本，我们将句子间的暂停持续时间与相邻句子单元之间计算的序列连贯性分数对齐。然后在每个转录本内计算Spearman等级相关系数，以量化暂停持续时间和局部语义连贯性之间的单调关系。这项分析是针对每个数据集单独进行的，用于表征时间犹豫与话语中的语义变化共现的程度。2.7.2. 任务依赖的变异性为了量化语义连贯性模式在语音引发上下文中的变化，我们检查了句子级连贯性度量的任务依赖性变异性。具体来说，我们计算了三种度量类别中句子级连贯性的变异系数（CV）（Abdi，2010）：（1）所有句子连贯性，（2）序列连贯性（局部转换），以及（3）累积质心连贯性（全局上下文聚合）。这种方法使得能够标准化地比较不同任务需求、记录长度和话语结构下的连贯性变异性。2.8. 统计方法所有统计分析都是在Python版本3.9.6中进行的。模型性能使用Spearman等级相关系数（ρ）、平均绝对误差（MAE）和精确度-召回曲线下面积（AUPRC）进行评估，如第2.6节所述。模型之间的统计比较使用Wilcoxon符号等级检验进行，该检验适用于跨交叉验证折叠获得的配对性能估计。由于性能指标的非正态分布和比较的配对性质，选择了这种非参数检验。3. 结果3.1. 基线性能：仅语义模型与仅暂停模型我们首先独立比较了语义连贯性特征和暂停派生特征的预测性能，建立了单模态基线，用于评估多模态集成策略。仅语义模型是从使用句子嵌入计算的转录本级连贯性度量中得出的，而仅暂停模型仅依赖于从ASR派生的语音片段中提取的时间暂停特征。所有回归模型都使用留一受试者外交叉验证进行评估，以确保评估的独立于说话者并防止说话者内部信息的泄露。3.1.1. 表现最好的仅语义模型我们使用NLTK-split ASR转录本系统地评估了三个数据集中的仅语义模型，遵循Xu等人（Xu等人，2022年）提出的框架。具体来说，我们比较了八种不同的句子嵌入模型与三种连贯性聚合策略——序列、静态质心和累积质心——每个数据集产生了24种语义连贯性变体。对于每种变体，使用TARDIS框架构建了转录本级表示，并使用SVR进行训练。详细的相关性在补充材料表S2中报告。在所有三个数据集中，SimCSE被认为是表现最好的嵌入模型。使用SimCSE嵌入，最佳聚合策略因数据集而异：在AVH数据集中，累积质心聚合产生了最强的相关性（ρ = 0.544 vs. 0.513序列，0.526静态）和PsyCL数据集（ρ = 0.349 vs. 0.261序列，0.233静态），而在TOPSY数据集中，静态质心聚合表现最好（ρ = 0.345 vs. 0.159序列，0.275累积）。因此，这些表现最好的基于SimCSE的连贯性指标被用于所有后续的语义和多模态分析。为了将这些结果与之前的工作相对比，我们将基于TARDIS的SVR模型与使用相同表现最好的SimCSE嵌入的广泛使用的最小聚合基线进行了比较（图2）。在所有三个数据集中，基于TARDIS的模型始终优于最小聚合，表明建模句子间语义动态比依赖于单一极端值提供了更有信息量的形式思维障碍严重性表示。我们还将支持向量回归（SVR）与两种替代回归模型——岭回归和偏最小二乘（PLS）的性能进行了比较，使用相同的表现最好的语义特征（图2）。SVR在所有数据集中始终获得了最高的相关性，因此被保留为后续分析的主要回归模型。下载：下载高分辨率图像（169KB）下载：下载全尺寸图像图2. 比较了不同聚合和回归策略下的仅语义预测性能。性能（Spearman相关性）显示了最小聚合、SVR、岭回归和偏最小二乘（PLS）使用每个数据集中表现最好的语义连贯性特征的情况。为了评估转录本分割对语义连贯性估计的影响，我们进一步比较了基于NLTK的句子分割和基于WhisperX的话语分割。如表2所示，基于NLTK的分割在所有三个数据集中始终优于基于WhisperX的分割。这表明，在这种设置中，ASR派生的话语边界对于语义连贯性建模并没有比基于标点符号的句子分割提供额外的好处。因此，基于NLTK的分割被用作所有融合模型的语义特征输入。表2. 使用SVR对三个数据集的FTD严重性进行单模态和多模态模型的平均性能比较。所有结果都是使用留一受试者外交叉验证获得的，特征选择在每个训练折叠内进行（前200个特征）。性能使用Spearman等级相关系数（ρ；主要评估指标）、平均绝对误差（MAE – 与其他指标不同，较低的值表示更好的性能）和精确度-召回曲线下面积（AUPRC）进行报告。?累积质心聚合。?静态质心聚合。粗体值表示每个数据集中最高的Spearman ρ。三个数据集的平均性能Spearman RhoMAEAUPRCSemantic-only modelsNLTK-split0.4130.5380.512WhisperX-split0.3480.5470.507Pause-only modelssummary statistics0.3670.5510.528TSFRESH-based0.3150.5680.511Fusion modelsEarly fusion0.4180.5340.528Late fusion0.4550.5240.5533.1.2. 仅暂停模型的性能与仅语义模型相当仅暂停模型在数据集之间显示出一致的预测价值，性能取决于特征表示。表2总结了数据集中的单模态仅语义和仅暂停性能。在AVH中，暂停摘要统计量的相关性达到ρ = 0.498（MAE = 0.558，AUPRC = 0.498），而更高维度的暂停表示（基于TSFRESH）也显示出类似的相关性（ρ = 0.487，MAE = 0.561，AUPRC = 0.491）。在TOPSY中，暂停摘要统计量的相关性较弱（ρ = 0.286，MAE = 0.298，AUPRC = 0.561），而基于TSFRESH的暂停特征显著提高了性能（ρ = 0.402，MAE = 0.277，AUPRC = 0.621），并且在该数据集中优于仅使用语义信息的基线（表2）。在PsyCL中，暂停摘要统计量的相关性为ρ = 0.316（MAE = 0.798，AUPRC = 0.524），而基于TSFRESH的暂停特征表现不佳（ρ = 0.057，MAE = 0.865，AUPRC = 0.422），这表明更高维度的暂停表示在该任务中泛化能力不强。值得注意的是，不同暂停特征表示的有效性因数据集而异，这可能反映了语音任务要求和疾病阶段的差异。基于这些单模结果，在AVH和PsyCL数据集中选择了时间摘要统计量进行融合模型，而在TOPSY数据集中保留了基于TSFRESH的时间特征。总的来说，仅使用语义信息和仅使用暂停信息的基线都表明，这两种模式都能独立编码与思维障碍严重程度相关的有意义信号。这些发现为评估将语义连贯性与暂停动态结合是否以及如何提高后续多模分析的预测性能提供了清晰且可解释的基础。

3.2 多模整合提高了FTD严重程度的预测
接下来，我们评估了将语义连贯性与从暂停中提取的特征结合是否能够提高对正式思维障碍严重程度的预测，相对于单模基线而言。在所有数据集中，多模模型取得了最强的整体性能，其中晚期融合的平均Spearman相关性最高（ρ = 0.455），而仅使用语义信息（ρ = 0.413）和仅使用暂停信息（ρ = 0.367）的模型则较低。图3展示了各数据集中单模和多模模型的性能。这表明，结合语义连贯性和暂停动态可以提供比单独使用任何一种模式更稳健的正式思维障碍严重程度信号。表2中提供了全面的评估指标。根据第3.1节中报告的单模结果，我们在AVH和PsyCL数据集中选择了暂停时间摘要统计量，在TOPSY数据集中选择了基于TSFRESH的暂停表示。对于每个数据集，我们评估了两种多模整合策略：通过特征级连接进行早期融合，以及通过模型级聚合进行晚期融合，使用相同的留一受试者排除评估协议。

3.3 任务和嵌入依赖的暂停时长与语义连贯性之间的关联
使用WhisperX衍生的分割方法，每个连续话语对都有两个测量值，从而可以评估这些模态之间的相关性。因此，我们评估了每个句子前的暂停时长与该句子与前一句子之间的语义相似性之间的关联，跨越了不同的数据集和嵌入方法。如表3所示，在AVH和PsyCL数据集中，暂停时长与序列连贯性之间存在轻微的负相关。这表明较长的暂停与句子间连贯性的降低有关，表明在开放式语言中，较长的暂停伴随着语义上的变化。值得注意的是，TOPSY数据集没有显示出暂停时长与连贯性测量之间的显著相关性，这表明图片描述任务可能会改变语言模式和/或思路的流畅性，从而掩盖了语言时间和语义之间的联系。这些弱相关性直接证明了暂停特征和语义连贯性捕捉到了语言组织中部分独立的方面，它们的整合通过互补而非冗余的信息一致提高了预测性能。

3.4 任务和嵌入依赖的暂停时长与语义连贯性之间的关联
使用WhisperX衍生的分割方法，每个连续话语对都有两个测量值，从而可以评估这些模态之间的相关性。因此，我们评估了每个句子前的暂停时长与该句子与前一句子之间的语义相似性之间的关联，跨越了不同的数据集和嵌入方法。如表3所示，在AVH和PsyCL数据集中，暂停时长与序列连贯性之间存在轻微的负相关。这表明较长的暂停与句子间连贯性的降低有关，表明在开放式语言中，较长的暂停伴随着语义上的变化。晚期融合取得了最高的整体性能，Spearman相关性为ρ = 0.545（MAE = 0.539，AUPRC = 0.487），略优于仅使用语义信息的基线（ρ = 0.544），并且比仅使用暂停信息的基线（ρ = 0.498）有更大的改进。早期融合也改善了仅使用暂停信息的模型（ρ = 0.537，MAE = 0.543），但未超过晚期融合。这些结果表明，在AVH日记叙述中，暂停动态和语义连贯性提供了互补的信息，模型级整合带来了最稳定的提升。

3.5 任务和嵌入依赖的暂停时长与语义连贯性之间的关联
使用WhisperX衍生的分割方法，每个连续话语对都有两个测量值，从而可以评估这些模态之间的相关性。因此，我们评估了每个句子前的暂停时长与该句子与前一句子之间的语义相似性之间的关联，跨越了不同的数据集和嵌入方法。如表3所示，在AVH数据集中，将暂停时长统计量与语义连贯性结合使用，与单模模型相比有适度但一致的提升。晚期融合取得了最高的整体性能，Spearman相关性为ρ = 0.545（MAE = 0.539，AUPRC = 0.487），略微优于仅使用语义信息的基线（ρ = 0.544），并且比仅使用暂停信息的基线（ρ = 0.498）有更大的改进。早期融合也改善了仅使用暂停信息的模型（ρ = 0.537，MAE = 0.543），但未超过晚期融合。这些结果表明，在AVH日记叙述中，暂停动态和语义连贯性提供了互补的信息，模型级整合带来了最稳定的提升。

在TOPSY数据集中，晚期融合模型的性能相当（ρ = 0.403，MAE = 0.282，AUPRC = 0.602），显著优于仅使用语义信息的模型（ρ = 0.345），并且略微超过仅使用暂停信息的模型（ρ = 0.402）。早期融合也优于仅使用语义信息的基线（ρ = 0.368，MAE = 0.285），但仍然不如晚期融合。在TOPSY数据集中观察到的更大提升表明，将语义连贯性与更丰富的时间暂停表示结合在结构化图片描述任务中特别有效。

在PsyCL数据集中，当暂停时长统计量与语义连贯性结合使用时，多模整合再次提高了预测性能。晚期融合的Spearman相关性为ρ = 0.417（MAE = 0.752，AUPRC = 0.571），优于仅使用语义信息（ρ = 0.349）和仅使用暂停信息（ρ = 0.316）的模型。相比之下，早期融合并没有超出仅使用语义信息的基线（ρ = 0.349，MAE = 0.773），这突显了在这个数据集中模型级整合相对于特征级整合的一致优势。

在所有三个数据集中，多模模型始终匹配或超过了最佳的单模基线，如图3所示，晚期融合在每种情况下都优于早期融合。除了这里报告的最佳配置外，融合模型在所有24种嵌入模型和连贯性聚合策略的组合中都提高了Spearman相关性，跨数据集观察到一致的提升（见补充表S3），表明晚期融合的优势对嵌入和聚合选择具有鲁棒性。这种模式表明，暂停动态和语义连贯性捕捉了与思维障碍严重程度相关的部分独立的语言组织方面，这些方面在决策层面整合效果最佳，而不是通过直接的特征连接。为了评估跨任务的鲁棒性，我们进一步通过在两个数据集上训练模型并在第三个保留的数据集上进行测试来评估跨数据集的泛化能力。如补充表S4所示，晚期融合在跨数据集分割中仍然取得了最高的平均Spearman相关性，优于单模模型。

3.5 任务和嵌入依赖的暂停时长与语义连贯性之间的关联
使用WhisperX衍生的分割方法，每个连续话语对都有两个测量值，从而可以评估这些模态之间的相关性。因此，我们评估了每个句子前的暂停时长与该句子与前一句子之间的语义相似性之间的关联，跨越了不同的数据集和嵌入方法。如表3所示，在AVH和PsyCL数据集中，暂停时长与序列连贯性测量之间存在轻微的负相关。这表明较长的暂停与句子间连贯性的降低有关，表明在开放式语言中，较长的暂停伴随着语义上的变化。值得注意的是，TOPSY数据集没有显示出暂停时长与连贯性测量之间的显著相关性，这表明图片描述任务可能会改变语言模式和/或思路的流畅性，从而掩盖了语言时间和语义之间的联系。这些弱相关性直接证明了暂停特征和语义连贯性捕捉到了语言组织中大部分独立的方面，支持了它们的整合通过互补而非冗余信息一致提高预测性能的发现。

此外，表3还表明，暂停-连贯性关联的强度取决于语义相似性的计算方式。即使在同一数据集中，不同嵌入模型之间的相关性强弱也有所不同，这突显了句子级连贯性估计对表示选择的敏感性。这种嵌入依赖性与最近的研究结果一致，即不同实现的语义连贯性可能会产生不同的结果，并强调了需要根据其计算公式来解释基于连贯性的测量（Parola, Lin等人，2023年）。为了将这些发现置于上下文中，我们分析了基于SimCSE句子嵌入的三种连贯性指标类别的CV（变异系数）：序列连贯性、静态质心和累积质心方法。如表4所示，TOPSY在所有连贯性指标类型中表现出最低的变异，尤其是对于序列连贯性（28.79%）和静态质心（18.15%），这与图片描述任务的结构化格式一致，该格式限制了话题的多样性。相反，AVH和PsyCL由于采用开放式提示，表现出更高的变异性。在AVH中，序列连贯性的CV为40.46%，而其累积质心方法的变异性较低（28.49%）。在PsyCL数据集中，我们发现了介于两者之间的CV值，考虑到梦描述任务比音频日记任务更具约束性，但又不如图片描述任务那么严格。就方法论差异而言，累积质心方法在所有数据集中始终显示出较低的CV值。在AVH中，累积质心方法减少了11.97%的变异性，在PsyCL中减少了13.84%，在TOPSY中减少了10.64%。这种模式表明，累积质心方法通过减轻局部中断来稳定连贯性测量，从而解释了它们在检测思维障碍方面的明显优势。

这些发现强调了任务结构在塑造暂停时长与连贯性测量关系中的关键作用。结构化任务，如TOPSY的图片描述，抑制了自然语言的变异性，降低了连贯性测量对中断的敏感性。相反，非结构化任务，如音频日记和梦描述，放大了变异性，并增强了与思维障碍相关的连贯性中断的检测。这些模式强烈依赖于数据集，每个任务的数据都显示出暂停时长与连贯性指标之间的不同关系。对于临床应用而言，这强调了调整任务设计和分析框架的重要性，以加强与感兴趣的构建相关的信号。

3.4 暂停时间摘要统计量与临床评分之间的关联
为了探索各个特征与临床评分之间的关联程度，我们进一步分析了六个暂停摘要统计量与FTD评分之间的Spearman相关性，跨越了三个数据集，揭示了任务依赖的模式，如表5所示。这些发现进一步通过句子级连贯性的变异性得到了补充（表4）。在AVH数据集中，TALD评分与暂停次数（ρ = 0.507，p < 0.05）和转录长度（ρ = 0.437，p < 0.05）有很强的相关性，因为评分较高的参与者通常有更长的转录文本。关于其他特征，TOPSY数据集（来自FEP队列的结构化图片描述）显示出矛盾的模式：虽然暂停次数与TLI评分呈正相关（ρ = 0.524，p < 0.05），但平均暂停时长（ρ = -0.271，p < 0.05）和暂停比例（ρ = -0.200，p < 0.05）则表现出相反但较弱的相关性。这可能反映了结构化任务中的补偿行为——在精神病的早期阶段，尽管存在组织障碍，参与者仍可能更频繁地暂停，但会缩短单个暂停的持续时间以保持连贯性，这一点得到了TOPSY的累积质心连贯性低变异性的支持（CV = 14.99%），这稳定了全局连贯性的测量。在PsyCL数据集中，所有暂停特征与TLC评分的相关性都较弱且不显著（例如，暂停次数：ρ = 0.126，p > 0.05），可能是由于样本量有限（n = 43），但仍与AVH数据集的方向一致。

3.5 暂停时间摘要统计量与临床评分之间的关联
为了探索各个特征与临床评分之间的关联程度，我们进一步分析了六个暂停摘要统计量与FTD评分之间的Spearman相关性，跨越了三个数据集，揭示了任务依赖的模式，如表5所示。这些发现进一步通过句子级连贯性的变异性得到了补充（表4）。在AVH数据集中，TALD评分与暂停次数（ρ = 0.507，p < 0.05）和转录长度（ρ = 0.437，p < 0.05）有很强的相关性，因为评分较高的参与者往往有更长的转录文本。关于其他特征，TOPSY数据集（来自FEP队列的结构化图片描述）显示出矛盾的模式：虽然暂停次数与TLI评分呈正相关（ρ = 0.524，p < 0.05），但平均暂停时长（ρ = -0.271，p < 0.05）和暂停比例（ρ = -0.200，p < 0.05）则表现出相反但较弱的相关性。这可能反映了结构化任务中的补偿行为——在精神病的早期阶段，尽管存在组织障碍，参与者仍可能更频繁地暂停，但会缩短单个暂停的持续时间以保持连贯性。在PsyCL数据集中，所有暂停特征与TLC评分的相关性都较弱且不显著（例如，暂停次数：ρ = 0.126，p > 0.05），这可能是由于样本量有限（n = 43），但仍与AVH数据集的方向一致。**使用ASR代替手动转录**

我们评估了使用WhisperX包的ASR与手动转录的性能，以AVH数据集作为基准。通过计算WER（错误率）和CER（错误百分比）来评估ASR生成的转录文本的准确性和一致性。WER为14.5%，CER为9.2%。这些比率相比直接在同一数据上使用基础OpenAI Whisper模型获得的21.3%的WER和17.0%的CER有了显著提高。WhisperX实现的这些降低的错误率反映了转录准确性的显著提升以及较少的错误幻想，这对于我们关注语义连贯性和停顿时间动态的下游分析的完整性至关重要。尽管ASR错误对下游临床分类的影响可能很复杂，一些研究表明某些错误模式甚至在痴呆症检测等任务中可能包含有用的诊断信号（Li等人，2024年），但我们的目标是尽量减少转录不准确性的影响，并评估内在的语音特征与临床评估的思想紊乱之间的关系。为了分析语义连贯性和精确的停顿时间，通常认为更高的转录保真度是有益的。为了进一步研究ASR性能与思想紊乱之间的关系，我们评估了WER与TALD（思维紊乱评分）分数之间的相关性。观察到一个统计学上显著的正相关（ρ = 0.24，p < 0.01），这表明较高的思想紊乱程度与更多的转录错误相关。这一发现与预期一致，即混乱的语音模式（如偏离主题或不连贯）可能对ASR系统构成更大的挑战。这些结果表明，基于Whisper的ASR提供了比手动转录更可靠的替代方案，其转录准确性足以用于量化思维紊乱。

**讨论**

本研究表明，当将停顿特征与语义连贯性指标结合使用时，可以显著提高自动检测思维紊乱的能力。我们的发现揭示了停顿特征能够独立预测临床FTD（思维紊乱）分数，并补充了语义连贯性测量，提供了一个多模态框架，提高了与人类评分的一致性，适用于各种语音环境。这些结果阐明了标志着精神病患者中混乱语音的临床特征，并为改进临床评估工具提供了可行的见解，这与在临床精神病学中应用计算语言学的新兴趋势相一致（Corona Hernández等人，2023年）。一个关键发现是，包括摘要统计信息（最大、平均、中位数、最小停顿持续时间、停顿频率和停顿时间比例）以及基于TSFRESH的高维特征在内的停顿特征，在所有三个数据集中都能稳健地预测FTD分数。重要的是，TALD（针对AVH数据集）和TLI（针对TOPSY数据集）的评分是由没有停顿信息的人手转录文本得出的。这表明停顿不仅仅是语音产生的副产品，而是反映了与人类观察者在检查转录语音输出时能察觉到的思维紊乱表现相关的内在认知障碍。Lesh和Sharpe的研究（Lesh等人，2011年；Sharpe等人，2025年）表明，受损的上下文处理能力——即无法维持和利用与任务相关的信息——是精神分裂症中认知障碍的基础。这种缺陷可能表现为更多的停顿，因为个体难以将先前的上下文与正在进行的语音整合，从而导致输出片段化（Hart & Lewine，2017年）。这种机制上的重叠表明，停顿频率捕捉到了认知控制与语言产生之间动态互动的紊乱，这是思维障碍的一个标志。

有趣的是，在TOPSY数据集中，平均停顿持续时间（ρ = -0.271）与停顿时间比例（ρ = -0.200）与TLI之间的负相关可能表明了补偿机制：未经治疗的精神病患者由于思维紊乱更为明显，可能会更频繁地停顿，但会缩短单个停顿时间以适应任务要求，从而掩盖了明显的不连贯性。尽管这看起来可能违反直觉，但Matthews等人（Matthews等人，2014年）的研究支持了这一发现，他们证明在最小工作记忆维持需求的条件下，精神分裂症患者表现出增强的视觉空间想象能力（通过更快的反应时间得到证实），尽管总体上存在工作记忆维持缺陷。将停顿特征与语义连贯性指标结合使用，与仅使用任一特征类型的单模模型相比，一致提高了与人类判断的一致性，尤其是在晚期融合策略中，该策略平均了两个独立模型的输出。在AVH数据集中，表现最佳的多模模型达到了ρ = 0.545的Spearman相关性，超过了之前使用相同数据集和评估框架的研究中报告的最高相关性ρ = 0.465（Xu等人，2022年）。同时，最近的研究强调，连贯性-症状相关性的绝对大小对数据集特征、任务结构和连贯性测量的具体实现非常敏感（Parola, Lin等人，2023年）。与此观察一致，我们发现不同数据集中的绝对相关值有所不同，而多模态增益的方向和一致性在三个具有不同任务和临床人群的独立数据集中是一致的。总体而言，这些结果表明，多模态整合的主要优势不在于绝对性能的大幅提高，而在于提供了一个稳健的框架，该框架能够一致地匹配或超过最佳的单模配置，而无需事先知道哪种特征集在给定任务或数据集中最具信息量。

这些结果表明，停顿特征和转录文本的语义特征捕捉了紊乱的互补方面。这种协同作用可能源于它们不同的机制起源：连贯性指标反映了语义规划缺陷，而停顿指标则反映了语音运动控制或认知负荷的紊乱。平均两个模型的结果保留了每个特征集的可解释性，同时利用了它们的联合预测能力。重要的是，性能改进并不局限于单一的嵌入选择或连贯性公式。在评估的所有24种语义配置中（8种嵌入方式×3种连贯性计算方法），整合停顿特征在所有三个数据集中都提高了Spearman相关性（见表1），并且通过Wilcoxon符号秩检验得到了统计学上的显著改进。这些一致且得到统计支持的增益验证了将停顿时间特征与仅使用语义特征相结合的附加价值。鉴于连贯性估计中的嵌入依赖性变异性，这种稳健性尤其值得注意，表明基于停顿的时间特征提供了一个稳定的信号，对表示选择不那么敏感。

此外，我们的结果强调，停顿模式和连贯性指标高度依赖于任务，并可能反映参与人群中精神疾病阶段的差异。例如，TOPSY数据集主要包含首次发作的精神病患者，而AVH和PsyCL数据集则涉及患有更成熟的精神分裂症谱系障碍的参与者。这种疾病轨迹的差异，加上任务结构，可能导致观察到的语音模式变化。在TOPSY中使用的图片描述任务中，对图片的关注往往限制了说话者的回答，导致连贯性测量的变异性较小。相比之下，像开发AVH和PsyCL数据集时使用的开放式任务提供了更多的语义连贯性变异性。这些叙述的非结构化性质允许更自发的表达思维紊乱，语义连贯性的波动更大，可能更详细地反映了潜在的认知障碍。这些任务依赖性和可能与疾病阶段相关的差异表明，语音引出的方式以及临床人群的临床特征可以显著影响思维紊乱的表现和检测（Cohen等人，2016年；Parola, Lin等人，2023年）。因此，对任务特定效应的解释应谨慎进行，并旨在激励未来的研究，在同一临床人群中应用多种语音任务，以更好地区分任务结构和与疾病相关的因素。虽然结构化任务有助于标准化评分和控制外部变量，但它们可能会无意中掩盖与形式思维障碍相关的内在变异性。另一方面，开放式任务揭示了语言的自然流动，可能在不太受限制的环境中引发思维紊乱的完整谱系。在未来的分析中利用这些叙述数据可以提高自动诊断工具的敏感性和生态有效性，最终提高我们检测和描述临床人群中思维紊乱的能力。

**局限性和未来方向**

有几个局限性需要考虑。首先，FTD分数（TALD、TLI、TLC）的异质性使得跨数据集的直接比较变得复杂，尽管我们的任务特定分析在某种程度上缓解了这个问题。未来需要在多个语音任务中使用统一的评分标准来隔离这些因素。其次，所有三个数据集的小样本量可能会限制发现的普遍性，并阻碍对模型性能差异的稳健统计验证。特别是，尽管置信区间（CIs）常用于量化不确定性并展示性能改进，但转录文本的数量有限——尤其是正类例子的数量较少——导致置信区间宽泛且不稳定，使得此类统计比较不可靠。需要在更大的数据集中进行复制，以支持基于CI的正式比较。第三，我们的方法依赖于OpenAI的Whisper生成的带有元数据的转录文本。虽然Whisper ASR的错误率较低，但在严重紊乱的情况下其性能会下降，这突显了需要进行针对精神分裂症的特定微调。最后，我们使用的整合策略——事后平均来自单独的停顿和基于语义的模型的预测——可能简化了时间和语义特征之间的复杂互动，表明更复杂的融合方法可能会进一步提高预测性能。虽然我们的模型预测的临床评分FTD分数显著高于随机水平，但分数的一部分方差仍然无法解释。这很可能是因为FTD是一个多方面的综合征，受到除停顿动态和语义连贯性之外的因素的影响（Andreasen & Grove，1986年；Roche等人，2015年）。例如，其他未在模型中明确建模的语音特征，如已知与认知和思维障碍相关的各种句法、词汇或韵律特征，也可能起作用（Elleuch等人，2025a，2025b；Voleti等人，2019年）。此外，未测量的临床因素，包括药物或心理治疗状态，可能会调节语音产生和症状表达，但这些因素在数据集之间并不一致。此外，未测量的个体因素，包括其他同时存在的临床症状（如言语贫乏或不同的认知特征），也可能起作用（Berenbaum等人，2008年；Cohen等人，2014年）。最后，应用临床评分标准的固有主观性和这些评分标准本身的结构限制也可能解释了部分未解释的方差。未来研究探索这些更广泛的因素可能会提高预测准确性。

未来的方向还应侧重于增强对紊乱语音的时间和语义建模。特别是，研究可以从基于变压器的模型或其他能够捕捉停顿模式与句子级连贯性之间动态实时互动的深度学习架构中受益。需要纵向研究来评估这些增强模型在跟踪思维障碍严重程度变化方面的实用性。此外，将这项工作扩展到包括不同语言和文化背景的说话者将至关重要，以确保这些诊断工具的广泛适用性。最后，如果有足够大的数据集，通过针对精神分裂症的特定微调来改进ASR系统，可以提高严重紊乱语音的转录准确性，从而提高临床环境中多模态评估的性能和可靠性。

**结论**

本研究表明，将ASR生成的停顿特征与句子级连贯性指标结合使用，可以显著提高临床人群中思维紊乱的自动预测能力。我们的结果显示，停顿特征，特别是简单、可解释的停顿时间摘要统计信息，是临床紊乱的稳健预测因子，当与语义连贯性测量结合使用时，提供了一个可扩展的多模态框架，用于客观评估。重要的是，多模态整合的好处在所有数据集和连贯性计算方法中都是一致的，支持了这一框架的稳健性，超出了任何单一建模配置。我们的发现进一步揭示了任务依赖的模式，这些模式也可能与数据集中代表的疾病阶段相互作用。在AVH数据集中（具有稳定精神分裂症诊断的参与者），非结构化言语中较长的或更频繁的停顿直接与思维紊乱相关联，而在TOPSY研究中使用的结构化图片描述任务（具有短暂精神分裂症诊断的参与者）似乎会引发补偿策略，表现为更频繁但更短的停顿。这些差异不仅可能反映了任务的认知要求，还可能反映了精神疾病不同阶段的言语特征或应对机制的变化。总体而言，这项工作为改进针对形式性思维障碍的自动化、任务适应性诊断工具提供了有希望的路径，有望帮助更早地检测出即将发生的心理发作，从而改善精神分裂症谱系障碍患者的健康结果。

**作者贡献声明：**
- Lena Palaniyappan：撰写、审稿与编辑、监督、资源管理、数据整理、概念化。
- Michael Mackinley：撰写、审稿与编辑、研究调查、数据整理。
- Trevor Cohen：撰写、审稿与编辑、初稿撰写、监督、方法论、资金获取、概念化。
- Dror Ben-Zeev：撰写、审稿与编辑、监督、资源管理、资金获取、数据整理。
- Simran Bhola：撰写、审稿与编辑、研究调查、数据整理。
- Alex Cohen：撰写、审稿与编辑、监督、方法论、研究调查、概念化。
- Sunny X Tang：撰写、审稿与编辑、资源管理、研究调查、数据整理。
- Sandy Yin：撰写、审稿与编辑、研究调查、数据整理。
- Weizhe Xu：撰写、审稿与编辑、软件开发、方法论、概念化。
- Feng Chen：初稿撰写、数据可视化、项目管理、方法论、正式分析、数据整理、概念化。
- Serguei Pakhomov：撰写、审稿与编辑、监督、概念化。
- Changye Li：撰写、审稿与编辑、概念化。

**未引用的参考文献：**
- El Boukkouri等人，2025a；Parola等人，2023。

**代码可用性：**
特征提取和模型训练的代码可在以下链接找到：
https://github.com/chenfeng1234567/pause_coherence

**利益冲突声明：**
- SXT持有North Shore Therapeutics的股份，并在该公司担任董事会成员及顾问；同时担任Winterlight Labs的顾问；是Psyrin的顾问委员会成员并持有该公司股份；还担任Catholic Charities Neighborhood Services和LB Pharmaceuticals的顾问。
- LP因担任《Canadian Medical Association Journals》的主编而获得个人费用；从Janssen Canada和Otsuka Canada获得演讲酬金；从Oxford University Press获得书籍版税；在过去5年中，还从Otsuka Canada获得了与本研究无关的研究资助。

**关于写作过程中生成式AI和AI辅助技术的声明：**
在准备本工作时，作者使用了Claude Sonnet 4（Anthropic）来辅助手稿的撰写。该AI工具仅用于提高可读性、清晰度以及符合期刊格式要求。所有科学内容、数据分析、结果解读及结论均为作者本人的工作成果。使用该工具/服务后，作者对内容进行了必要的审阅和编辑，并对出版物的内容承担全部责任。

热点排行