自动化临床精神病学中的系统性文献综述：领域专家与基于自然语言处理（NLP）的文本挖掘方法之比较 Cyril S. Ku、 Daniel Weiner、 Meera Wells、 Andrew Huang 以及 Morgan R. Peltier

《Information》：Automating Systematic Reviews in Clinical Psychiatry: Comparing Domain Experts and NLP-Based Text Mining Cyril S. Ku, Daniel Weiner, Meera Wells, Andrew Huang and Morgan R. Peltier

【字体：大中小】 时间：2026年05月10日 来源：Information 2.9

编辑推荐：

　　**摘要** **目的**：本研究探讨了自然语言处理（NLP）和文本挖掘在临床精神病学领域自动化系统评价过程的潜力。传统上，这一领域依赖领域专家，不仅耗时，还容易受到人为偏见和错误的影响。本研究将领域专家对評論文章的分类结果与机器算法的分类结果进行了比较。 **方法**

　　**摘要**
**目的**：本研究探讨了自然语言处理（NLP）和文本挖掘在临床精神病学领域自动化系统评价过程的潜力。传统上，这一领域依赖领域专家，不仅耗时，还容易受到人为偏见和错误的影响。本研究将领域专家对評論文章的分类结果与机器算法的分类结果进行了比较。

**方法**：利用PubMed的数据，选取了160篇与“经颅磁刺激”（transcranial magnetic stimulation）和“自闭症”（autism）相关的摘要，由人类评审者和计算机算法分别将其分类为“治疗”（Treatment）和“非治疗”（Non-Treatment）两类。计算机算法采用文本挖掘中的主题建模（topic modeling）技术，并与包括两位精神科医生、一位生物统计学家和一名医学生在内的四个人类评审者进行了对比。

**结果**：人类评审者的分类准确率在68%到85%之间，评分者间一致性（Kappa统计量）介于0.40（中等）到0.64（较高）之间；三个月后重新评估的评分者内一致性在0.38到0.82之间。

**结论**：研究结果表明，与人类分类相比，计算方法具有一致性和可重复性，而人类分类则表现出评分者间和评分者内的变异性。虽然观察到评审者之间的表现存在差异，但需谨慎解释这些差异，因为本研究并未直接评估认知或决策过程。

**1. 引言**
評論文章是临床精神科医生的重要资源，它们整合了已发表的文献，帮助构建概念模型，识别主流趋势、风险因素、疾病机制以及有效治疗精神疾病的策略。在过去二十年里，这些文章的重要性显著增加，这与互联网普及推动的科学出版物激增密切相关。然而，传统評論文章的一个持续局限性在于作者偏见的可能性——作者可能会选择性地引用与其预设假设或概念框架一致的研究。为缓解这一问题，系统评价规定了查询文献数据库的预定义协议，并通过手动筛选来确定文章的相关性。尽管如此，在研究纳入/排除决策中仍存在主观性，可能会引入隐性偏见。

自然语言处理（NLP）和文本挖掘已成为分析大规模非结构化文本数据的强大工具[1,2]。文本挖掘技术之一——主题建模[3]（包括潜在狄利克雷分配LDA[4]）能够从大量文本语料库中自动发现潜在的主题结构，从而便于探索、分类和总结大量文本数据。

尽管取得了这些进展，但仍存在关键的研究空白。现有研究主要集中在应用NLP技术分析精神病学文献上，很少有研究系统地评估基于NLP的方法仅基于摘要信息对研究文章进行分类的能力，并将其性能与不同专业水平的评审者进行直接比较。此外，人类评审者之间的差异及其对系统评价可靠性的影响尚未得到充分探讨。

为填补这一空白，本研究调查了利用文本挖掘中的主题建模技术将涉及经颅磁刺激和自闭症的精神病学研究文章分类为治疗和非治疗类别的方法。具体而言，本研究旨在回答以下研究问题（RQs）：
- RQ-1：人类评审者在分类精神病学研究文章时的一致性如何？
- RQ-2：基于NLP的分类方法在一致性方面与人类评审者相比如何？
- RQ-3：评审者的背景如何影响分类性能？

通过评估不同专业背景和经验的人类评审者的分类性能，以及他们之间的一致性和变异性，我们为NLP在支持和部分自动化系统评价过程中的作用提供了新的见解。

本文的其余部分安排如下：第2节回顾相关研究；第3节描述研究方法和结果；第4节解释研究结果；第5节讨论研究的局限性；第6节提出结论和未来研究方向。

**2. 背景与文献综述**
NLP已在多个学科中得到广泛应用，包括社交媒体内容的情感分析[5,6]、医学文献分析[7]以及商业环境中的客户反馈评估[8]。这些多样化的应用突显了NLP将复杂文本数据集转化为可操作知识的能力。LDA是一种概率模型，它将文档表示为潜在主题的混合体，其变体被广泛用于各种目的，如社交媒体分析、数字人文学科和科学文献的系统评价[9]。NLP和文本挖掘越来越多地辅助精神病学和生物医学研究，以分析大量文本数据并支持临床决策[10]、文献综述和情感分析[11]。目前在该领域的文本挖掘应用包括医疗保健和生物信息学，从中提取有意义的见解[12]。然而，尽管使用日益普遍，但系统评估NLP分类与人类评审者相比的研究仍然有限，特别是在临床精神病学领域。应用研究中关于主题建模的方法学指导和评估也较为缺乏[13]。很少有研究系统地评估NLP工具仅基于摘要内容对研究文章进行分类的能力，并将其性能与传统手动评审进行比较。

我们特别关注自闭症谱系障碍（ASD）相关文章。ASD是一种神经发育障碍，其发病率持续上升[14]，对公共健康有重要影响[15]。关于ASD治疗的文献不断增多[16]。截至本文撰写时，在PubMed（https://pubmed.ncbi.nlm.nih.gov/，2022年8月20日访问）中搜索“autism spectrum disorder”可得到超过30,000条结果。随着需要临床护理的ASD患者人数不断增加，临床医生需要高效工具来导航庞大而复杂的文献以获取相关信息。

迄今为止，机器学习在ASD研究中的应用主要集中在基因分析和诊断分类上。相比之下，较少有研究探讨其在评估新治疗方法（如经颅磁刺激[17]）方面的潜力。因此，本文旨在通过探索机器学习和文本挖掘技术来识别与治疗和临床实践相关的ASD相关出版物，将其与专注于遗传学、诊断或基础生理学的出版物区分开来。

在系统评价的背景下，一些研究探讨了使用NLP技术支持文献筛选和分类的方法。这些方法旨在减少手动评价所需的时间和努力，同时提高一致性。然而，大多数现有工作集中在需要标记数据集的监督机器学习模型上，例如支持向量机（SVM）[18]、逻辑回归和基于神经网络的方法。相比之下，较少有研究考察在缺乏标记数据的情况下使用无监督方法（如主题建模）进行系统评价分类。此外，很少有研究系统地比较了基于机器的分类方法与不同背景、经验和专业水平的评审者之间的差异。

另一个重要的研究方向是文本分类中的概率和不确定性估计方法，这些方法旨在量化预测置信度并提高可解释性[19,20,21]。这些方法强调了自动化系统中的可靠性和变异性的重要性，特别是在临床研究等高风险评估领域。尽管取得了这些进展，但仍缺乏联合研究（1）人类变异性、（2）机器一致性以及（3）评审者专业技能与分类结果之间相互作用的研究。本研究通过提供临床精神病学背景下人类和基于NLP的分类方法的比较分析，解决了这些空白。

**3. 方法与结果**
选择PubMed作为数据来源，是因为它涵盖了广泛的生物医学和精神病学文献，确保了检索到的文章的相关性和质量。搜索词为“transcranial magnetic stimulation”和“autism”，共获得了170篇文章。这些文章使用R项目的RISmed包（https://www.r-project.org/，2022年8月20日访问）提取，生成了一个包含PMID（PubMed唯一标识符）和摘要的数据框。其中9篇文章没有摘要，1篇文章是对现有文章的更正，因此共有160篇摘要可供分析。每篇PMID及其对应的摘要通过计算机算法（基于主题建模）和4位评审者（2位精神科医生MW和DW、1位生物统计学家MP以及1名医学生AH）进行分类，这些评审者对计算机算法和彼此的分类结果均不知情。文本挖掘和研究细节由计算机科学家CK监督。

所有纳入本研究的文档均使用SAS? Enterprise Miner [22]和Text Miner [23]版本15.2进行处理和分析，以从文本数据中提取主题和主题。主题建模采用SAS Text Miner实现，该方法基于LDA进行潜在主题结构的识别。选择这种无监督方法是为了无需标记训练数据进行分类。该软件能够根据文档内外的术语频率对相似文档进行聚类，从而有意义地分组内容[24]。术语频率作为预处理的一部分，用于捕获文档内和文档间的术语相对重要性。这个工作流程包括几个预处理步骤：文本解析、文本过滤和主题提取。在解析过程中，识别了不同的词性、名词短语和多词表达式。进行分词处理以将文本拆分为单独的单元。同时，应用了标准NLP技术，如词干提取、词形还原、同义词标准化和停用词去除，以减少噪声和冗余。调整了术语权重和频率，以简化特征集。最后，使用主题建模来识别非结构化文本语料库中的主要主题。

先前的研究[25]表明，摘要可以充分代表整篇文章的内容。基于这一发现，我们使用这160篇摘要作为文本挖掘软件的输入，生成用于分析的语料库主题。默认参数作为基准配置。默认情况下，软件生成了25个主题；然而，许多主题包含重叠的术语。因此，我们通过迭代调整参数（根据术语权重调整顶级关键词）重新运行SAS Text Miner，直到获得4个独特的主题集合，以提高可解释性并实现清晰的二元分类（表1），每个主题都有一组独特的关键词且没有重叠术语。根据主题关键词的语义解释，将主题分配到相应的类别中。包含与治疗干预、临床程序或治疗结果相关术语的主题（例如rTMS、session、patient）被归类为“治疗”。相反，关注机制、神经生理学或理论构建的主题（例如mirror、system、plasticity）被归类为“非治疗”。

**表1. 主题和主题**
一旦将四个主题分配给“治疗”或“非治疗”，我们就根据每个摘要关联的主题对其进行分类。如果摘要与主题1或2相关，则将其归类为“治疗”；如果与主题3或4相关，则归类为“非治疗”。当摘要与多个主题相关时，我们遵循多数规则：将其分配给关联主题数量较多的那个主题。例如，如果摘要与主题1、3和4都相关，那么它被归类为“非治疗”。

在出现平局的情况下（例如摘要与“治疗”和“非治疗”主题数量相等时），我们使用SAS Text Miner生成的术语权重来确定分类结果。将摘要分配给累积主题权重较高的那个主题。例如，如果主题1和2的权重总和为0.5，主题3和4的权重总和为0.3，则该摘要被归类为“治疗”。主题分类还由四位评审者完成：两位精神科医生（DW和MW）、一位研究生物统计学家（MP）和一名医学生（AH）。整个研究设计和文本挖掘的使用由计算机科学家CK监督。

**4. 结论与未来研究方向**将计算机算法称为参考模型的理由在于其具有确定性和可重复的分类过程，这一过程消除了评估者之间的差异，并为人类审稿人之间的比较提供了统一的基线。Cohen’s Kappa统计量被用来衡量计算机生成的分类与人类标注的分类之间的评估者间可靠性（见表3）。图1直观地展示了人类审稿人与参考模型之间的一致性水平，显示了审稿人之间的一致性存在差异，但始终高于随机水平。Kappa统计量（也称为Cohen’s Kappa）是一种常用的指标，用于在调整了偶然一致性后，评估两名评估者（本例中为计算机算法和人类专家）之间的一致性[26]。Kappa值的范围是从-1到1，其中1表示完全一致，0表示与随机水平相当的一致性，负值表示低于随机水平的一致性。通常，大于0.60的值被认为是显著的，而大于0.80的值则表明接近完美的一致性。

在最初对160篇摘要进行分类大约3个月后，我们随机选择了25篇摘要进行重新评估。选择这25篇摘要作为实际和探索性样本，以评估随时间变化的评估者间可靠性，同时尽量减少审稿人的负担并确保重新分类的可行性。每位人类审稿人被要求将这些摘要重新分类为“治疗”或“非治疗”。然后我们使用Cohen’s Kappa统计量来评估评估者间的可靠性，衡量每位审稿人分类的一致性。本质上，这项分析比较了在3个月间隔后大家对相同摘要的分类的一致性。请参见表4的第二行（评估者内相关性）。在表4中，我们突出了评估者间和评估者内的一致性，以及表3中一位审稿人与其他审稿人之间的一致性。

表2. 人类审稿人与计算机算法（参考模型）的验证。
表3. Kappa矩阵。
图1. 人类审稿人与参考模型之间的一致性。

结果显示，AH（医学生）的评估者内可靠性最高，Kappa得分为0.82。DW（精神科医生）随着时间的推移表现出中等水平的一致性，Kappa得分为0.43，而MP（生物统计学家）和MW（儿童精神科医生）的一致性略低，分别为0.40和0.38。在评估者间方面，Kappa统计量显示AH和DW具有最高的一致性（0.73），反映了显著的一致性。相比之下，MP和MW与人类审稿人和计算机的一致性较低，表明他们的分类存在更大的变异性。

除了报告Cohen’s Kappa统计量外，我们还计算了每位人类审稿人与参考模型之间一致性的大约95%置信区间（CIs），以评估估计一致性的准确性。由于没有保留完整的列联表来进行精确的方差估计，我们采用了基于观察到的一致性（）和推断的预期一致性（）的Wald型近似方法。具体来说，Kappa值是根据报告的Kappa值使用某种关系得出的，Kappa的标准误差则进行了近似计算，其中表示摘要的数量。然后计算出95%置信区间。这些区间应被视为近似估计值。审稿人与参考模型之间Kappa值的95%置信区间如下：AH为0.517–0.763；DW为0.576–0.804；MP为0.297–0.583；MW为0.264–0.536，表明审稿人之间的一致性从中等到显著不等，但始终高于随机水平。

4. 结果解读
本研究评估了人类审稿人与基于自然语言处理（NLP）的分类方法在临床精神病学领域系统评价任务中的一致性和变异性。总体而言，结果表明，尽管人类审稿人可以与参考模型达到中等至显著的一致性，但在不同审稿人之间以及同一审稿人随时间的变化中都存在明显的变异性。

表2中呈现的性能指标表明，所有人类审稿人的准确率都高于随机水平，范围从0.68到0.85。同样，Cohen’s Kappa值也显示了与参考模型之间中等至显著的一致性，表明人类分类的表现是有意义的，而非随机的。然而，审稿人之间的变异性突显了分类行为的差异，这可能受到训练、经验和个人解释策略等因素的影响。

为Kappa统计量提供大约95%置信区间可以进一步了解一致性估计的精度和稳定性。AH和DW的置信区间主要位于中等至显著一致性的范围内，表明分类表现相对稳定。相比之下，MP和MW的置信区间倾向于较低的一致性范围，表明变异性更大。重要的是，所有置信区间都高于零，证实了人类审稿人与参考模型之间的一致性始终优于随机水平。评估者间可靠性分析进一步表明，不同审稿人之间的一致性存在差异。某些审稿人（例如AH和DW）之间较高的一致性表明他们在分类标准或解释上更一致，而其他审稿人之间的较低一致性则反映了判断或分类方法的差异。这些发现强调了在进行系统评价时考虑人类决策变异性的重要性。

评估者内可靠性结果进一步揭示了分类一致性随时间的变化。值得注意的是，AH与其他审稿人相比表现出更高的评估者内可靠性，而DW、MP和MW的一致性较低。这种模式表明，即使是同一个审稿人，其分类决策也可能不够稳定，尤其是在基于有限摘要级别信息的情况下。

这些发现的一个可能的解释是，审稿人在解释摘要时可能采用了不同的决策策略。经验较少的审稿人可能依赖更简单和更一致的启发式方法，而经验更丰富的审稿人可能结合了更广泛的背景知识，从而引入了额外的变异性。然而，需要强调的是，这些解释只是假设性的，不应被视为确定的因果关系。研究设计并未直接测量认知过程，需要进一步的研究来系统地探讨专业知识、偏见和决策策略在分类表现中的作用。

总体而言，研究结果表明，虽然人类审稿人可以实现有意义的分类表现，但他们的决策存在变异性。相比之下，基于NLP的方法提供了确定性和可重复的分类，具有一致性和可扩展性的优势。这些结果支持将计算方法作为系统评价工作流程中的补充工具，尤其是在涉及大量文献的情境中。同时，重要的是要认识到参考模型并不是绝对的真实标准，不能保证正确性，它仅作为一个统一的比较基线。因此，结果应从相对一致性和一致性角度进行解释，而不是绝对的分类准确性。

5. 限制
本研究有几个优点，包括使用了广泛可用的分析工具、多学科的研究团队以及明确定义且实际相关的分类任务。这些特点增强了研究设计的普适性，表明该框架可能适用于各种研究环境。同时，也应承认几个方法上的限制。首先，分析基于文章摘要而非全文内容。虽然摘要提供了简洁的总结，但它们可能会省略影响分类决策的重要背景细节。这一限制可能导致人类和机器分类的变异性。未来的研究应包括全文分析，以提供更全面的评估基础，并更好地评估自动化方法的能力。

其次，缺乏外部验证的真实标准限制了对分类性能的解释。在本研究中，计算模型仅作为参考模型，而不是绝对的正确性基准。因此，报告的指标应从相对一致性和一致性的角度进行解释，而不是绝对准确性。第三，评估者内可靠性分析是在相对较少的摘要子集上进行的，这限制了这些发现的统计稳健性和普适性。此外，为一致性测量报告的置信区间是近似的，反映了缺乏完整的列联表数据。因此，这些结果应被视为探索性的。未来的研究应使用更大的重新分类样本并保留完整的列联数据，以实现更精确的统计估计。

第四，关于审稿人表现差异的解释，如专业知识的潜在影响、认知偏差或启发式决策，是基于观察到的模式推断出来的，而不是直接测量的变量。因此，这些解释应被视为假设性的，并应谨慎解读。未来的工作应采用控制实验设计或认知评估方法来更严格地研究这些因素。最后，尽管计算方法在一致性和可重复性方面具有优势，但它们也有局限性。在训练不完整或有偏的数据上训练出的模型可能会复制或放大现有的偏差。因此，持续的评估、验证和完善对于确保自动化系统保持其优势而不引入意外的误差源至关重要。

6. 讨论、结论和未来研究
本研究展示了NLP和文本挖掘技术在临床精神病学领域系统评价过程中的潜力。这项工作强调的不是分类准确性，而是分类决策的一致性和变异性评估，为传统的基于性能的评估提供了补充视角。结果表明，即使在受过训练的专业人士中，人类审稿人也存在可测量的评估者间和评估者内变异性。虽然一致性水平通常高于随机水平，在某些情况下甚至相当显著，但观察到的变异性突显了个体解释和决策策略的影响。相比之下，基于NLP的方法产生了确定性和可重复的分类，从而在一致性和可扩展性方面具有优势。

重要的是，本研究中的计算模型被解释为参考模型，而不是绝对的真实标准，因为没有可用的外部验证基准。因此，报告的性能指标应从相对一致性和一致性的角度进行理解，而不是绝对的分类准确性。这一区别对于正确理解结果和避免过度解读至关重要。

本研究的一个关键贡献是表明人类审稿人之间的变异性不可忽视，并可能对系统评价的可靠性产生实际影响。研究发现表明，审稿人的背景和经验差异会影响分类结果，强调了结构和可重复方法在证据整合中的重要性。同时，结果突显了基于NLP的工具在提高一致性和减少大规模文献筛选中的变异性方面的潜力。对这些差异的解释，包括专业知识、认知偏差和启发式决策的潜在影响，应谨慎对待。这些因素在本研究中并未直接测量，而是从数据中的观察模式推断出来的。因此，这些解释应被视为假设性的，而不是确定的解释。未来的研究应采用控制实验设计或认知评估方法来更严格地研究这些效应。

需要承认这项研究的几个限制。首先，使用摘要而非全文文章可能会限制背景信息的深度，并导致人类和机器审稿者的分类变异性。其次，缺乏外部验证的真实标准限制了对分类性能的结论。第三，用于评估者内可靠性的样本量相对较小，限制了这些发现的统计稳健性和普适性。此外，为一致性度量报告的置信区间是近似的，反映了缺乏完整的列联表数据。因此，这些结果应被视为探索性的。未来的研究可以朝几个方向扩展：首先，结合全文分析可能会提高分类性能并减少歧义；其次，探索多种主题建模配置和系统超参数调整可能会增强模型的稳健性和可解释性；第三，引入额外的共识度量（如Fleiss’ Kappa或Krippendorff’s Alpha）可以对多审稿人一致性进行更全面的评估；第四，整合监督学习方法并将其与无监督方法进行比较可能会提供有关分类性能的更多见解。最后，整合可视化工具（如自然语言处理（NLP）流程的工作流图）可以提高分析过程的可解释性和透明度。新兴的方法，包括具备不确定性感知能力的模型和大型语言模型（LLMs），例如ChatGPT [27]，为改进自动化文献综述流程提供了有前景的途径。这些方法可能提供更好的上下文理解和概率置信度估计，从而克服了传统主题建模技术的一些局限性。总体而言，本研究支持将NLP作为系统综述工作流程中的辅助工具。自动化方法并非取代人类专业知识，而是能够提升效率、一致性和可扩展性。将计算方法与专家判断相结合，是提高临床精神病学及相关领域系统综述可靠性和可重复性的一个有前景的方向。通过系统地考虑人类的变异性和机器的一致性，本研究为将计算方法整合到系统综述工作流程中提供了实用且可扩展的框架，有助于在数据密集型研究领域实现更加可重复和可靠的证据综合。

热点排行