《Scientific Reports》:Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS
编辑推荐:
本研究聚焦于AI在诊断病理学中的应用潜力。为解决AI模型在复杂口腔病理切片诊断中的准确性、一致性及与专家共识的契合度问题,研究人员开展了一项比较性诊断研究。结果显示,三种多模态大语言模型(LLM)——ChatGPT (GPT-4-turbo)、Grok与MANUS——均表现出强大的诊断能力,其中Grok准确率最高(97%),ChatGPT内部一致性最佳(κ=0.918),MANUS与人类专家诊断最吻合。该研究为AI整合进数字病理学以提供诊断支持、教学和质量保证奠定了证据基础。
病理诊断是临床医学的基石,尤其是在癌症等重大疾病的诊疗决策中,其准确性至关重要。传统的病理诊断高度依赖训练有素的病理医生在显微镜下对组织切片进行观察和判读,这个过程既耗时费力,又可能存在主观差异和人为错误。随着数字病理技术的发展,将玻片扫描为高分辨率数字图像已成为现实,这为人工智能(AI)的介入打开了大门。近年来,以大型语言模型(LLM)为代表的多模态AI系统展现出理解和生成文本、图像的强大能力,但它们能否像人类专家一样,精准地解读复杂的组织形态学图像,特别是在充满细微差别的口腔病理学领域,仍是一个待解的问题。口腔病变种类繁多,从常见的炎症到良恶性肿瘤,其组织学特征有时十分相似,诊断颇具挑战。那么,当前的尖端AI模型在处理这些任务时表现如何?它们彼此之间、以及与人类“金标准”相比,孰优孰劣?这正是本研究试图回答的核心问题。
为了系统评估AI在口腔病理诊断中的潜力,研究团队设计了一项严谨的比较诊断研究。他们从一本经过验证的教科书中精选了100张代表多种口腔病变的高分辨率组织病理学切片数字图像,构成了本研究的核心测试集。为确保诊断“标准答案”的可靠性,所有切片均由两位委员会认证的口腔病理学家进行独立审阅并达成共识诊断。评估对象选定了三款具有代表性的多模态LLM:ChatGPT (GPT-4-turbo)、Grok (xAI)和MANUS。研究采用标准化的提示词,让每个模型对每张切片进行两轮独立分析,以评估其诊断表现。主要的技术方法包括:利用经过验证的公开数字病理图像库构建测试队列;采用标准化的提示工程(Prompt Engineering)引导AI模型进行分析;通过计算诊断准确率、Cohen‘s kappa系数(用于评估模型自身在两轮分析中的内部一致性,即“重测信度”)、模型间诊断一致性以及与人类专家诊断的一致性等指标,并运用McNemar’s检验和卡方(chi-square)分析进行统计学比较,从而全面量化AI模型的诊断性能。
结果
1. 诊断准确性
所有三种AI模型均展现了较高的整体诊断准确率。在第二轮分析中,Grok取得了最高的准确率(97%),紧随其后的是MANUS(96%)和ChatGPT(94%)。作为对比,人类病理学专家在本测试集上的共识诊断准确率为98%。
2. 内部一致性(重测信度)
这是衡量模型诊断稳定性的关键指标。ChatGPT在两轮独立分析中表现出了“几乎完美”的内部一致性(Cohen‘s κ = 0.918)。MANUS和Grok也显示出“高度一致”的内部一致性,κ值分别为0.790和0.740。
3. 与人类专家诊断的一致性
将AI模型的诊断结果与人类专家的共识诊断进行比较,可以发现AI与人类之间达到了“中度”到“高度”的一致水平。其中,MANUS模型的诊断结果与人类专家最为吻合,显示出最高的对齐度。
4. 模型间诊断一致性
不同AI模型对同一病例的诊断也存在较高的一致性,表明顶尖模型在多数情况下能够达成相似的诊断结论。
5. 错误分析
大多数诊断错误或分类分歧发生在组织学特征模糊、不典型的疑难病例中。统计分析表明,不同AI模型之间的错误率没有显著差异。
结论与讨论
本项研究清晰地表明,以ChatGPT、Grok和MANUS为代表的多模态大型语言模型(LLM)在口腔组织病理学的图像解读任务中,已经具备了强大的诊断能力、出色的稳定性(内部一致性)以及与人类专家推理过程相当程度的对齐性。研究发现,Grok在本次测试中诊断最为精准,ChatGPT的重复诊断结果最稳定可靠,而MANUS则最贴近人类病理学专家的诊断思路。这些AI模型展现出的性能,足以支持它们作为辅助工具整合到数字病理学的工作流程中。
其重要意义在于多个层面:在临床诊断支持方面,AI可以作为“第二双眼”,帮助病理医生快速筛查、复核诊断,尤其在处理大量病例或罕见病例时提供参考,有望提升整体诊断效率与准确性。在医学教育领域,这些模型可以充当智能教学助手,为学生和初级医生提供即时的病例分析和学习反馈。在质量控制环节,AI的一致性可作为参考标准,帮助发现和减少诊断过程中的主观偏差。
需要指出的是,本研究也存在一定局限性,例如测试集来源于教科书图像,可能与真实世界临床病例的复杂性和多样性存在差距。大多数诊断错误集中在组织学不明确的病例上,这恰恰也是人类病理医生感到棘手的领域,提示未来AI发展的重点应是增强对疑难病例的辨别能力。作者在讨论中强调,尽管结果令人鼓舞,但仍需在更大规模、更具代表性的临床患者数据集上进行进一步验证,并开展前瞻性研究,以最终评估这些AI工具在真实医疗环境中的效能、可靠性及对患者结局的实际影响。总而言之,这项研究为人工智能赋能病理学,迈向更精准、高效和可及的诊断未来,提供了扎实的实证依据和明确的发展方向。