一种用于指导甲状腺细针穿刺活检的人工智能模型的临床验证：在智利一家公立医院与TI-RADS系统及人类专家的对比研究

《Frontiers in Endocrinology》：Clinical validation of an artificial intelligence model for thyroid fine-needle aspiration biopsy indication: comparison with TI-RADS systems and human specialists in a Chilean public hospital

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Endocrinology 4.6

编辑推荐：

　　摘要引言：超声评估甲状腺结节时观察者间的差异显著，这导致了细针穿刺活检（FNA）的过度使用。像TI-RADS这样的标准化系统旨在减少这种差异；然而，它们在现实临床实践中的表现仍然存在差异。人工智能（AI）作为一种潜在工具，已被提出用于支持这一领域的临床决策。目的：评

　　摘要
引言：超声评估甲状腺结节时观察者间的差异显著，这导致了细针穿刺活检（FNA）的过度使用。像TI-RADS这样的标准化系统旨在减少这种差异；然而，它们在现实临床实践中的表现仍然存在差异。人工智能（AI）作为一种潜在工具，已被提出用于支持这一领域的临床决策。

目的：评估一种人工智能模型在推荐甲状腺结节进行FNA方面的临床性能，并将其与由专家应用的ACR TI-RADS和Horvath TI-RADS分类方法进行比较。

材料与方法：本研究是一项回顾性横断面研究，评估了2021年1月至12月期间接受甲状腺超声检查和FNA的成年患者中，该人工智能模型在推荐FNA方面的临床性能。人工智能模型生成的FNA建议与由专家放射科医生和内分泌科医生使用ACR TI-RADS和Horvath TI-RADS系统给出的建议进行了比较。参考标准是依据Bethesda系统的细胞学结果，将Bethesda分级≥III视为阳性结果，这一操作定义与进一步诊断评估的临床决策相一致。计算了诊断性能指标和一致性。

结果：共有101名患者纳入研究（89.1%为女性），中位年龄为61岁，结节中位大小为2.3厘米（四分位数范围[IQR]：1.6–3.3厘米）。人工智能模型的敏感性为0.88，特异性为0.41。由专家放射科医生应用的Horvath TI-RADS的敏感性为0.82，特异性为0.69。人工智能模型与基于TI-RADS的方法之间的一致性为中等。

结论：在现实临床环境中，人工智能模型在推荐甲状腺结节进行FNA方面的表现与人类专家相当。这些发现支持其作为辅助决策工具的潜力，特别是在超声解读存在差异的情况下。

引言
甲状腺结节在临床实践中很常见，据报道在成人中的发病率高达67%，尤其是在女性和老年人中（1）。尽管大约95%的结节是良性的，但影像学检查（尤其是超声）的广泛使用显著提高了它们的偶然发现率（2, 3）。这种现象导致细针穿刺活检（FNA）的次数持续增加，对患者和医疗系统产生了重要的临床、心理和经济影响，但并未相应降低甲状腺癌的死亡率（4）。
尽管国际或国家临床指南不推荐系统性甲状腺超声筛查，但甲状腺超声在常规临床实践中仍被广泛使用（5–8）。其解读高度依赖于操作者，并且即使在受过培训的专家之间也存在显著的观察者差异，尤其是在评估关键超声特征（如边缘、回声性质和微钙化存在）方面（9）。这些关键特征的准确评估有助于估计甲状腺结节的癌风险，并对管理产生重大影响（10）。这种解释的多样性导致对相似超声表现的FNA指征存在显著差异，从而增加了不必要的程序和医疗资源的使用（11, 12）。
标准化超声分类系统（如TI-RADS）已被开发出来以减少这种差异，并通过结构化标准支持活检指征的决策。然而，即使在应用这些系统的情况下，特别是在现实临床实践中，观察者间的差异仍然存在。在这方面，人工智能系统越来越多地被评估其支持信息解读和临床沟通的能力（13），特别是在甲状腺结节方面，AI可以用于标准化超声解读和FNA指征，但它并不构成甲状腺恶性肿瘤的确诊方法（14, 15）。尽管如此，关于其在现实医疗环境中临床性能的证据仍然有限（16, 17）。因此，本研究的目的是评估一种人工智能模型在推荐细针穿刺活检（FNA）方面的临床性能，并将其与智利医疗系统内由人类专家应用的ACR TI-RADS和Horvath TI-RADS系统进行比较。本研究重点关注这些工具在FNA指征临床决策中的应用，而不是使用Bethesda细胞学（Bethesda ≥ III）作为确诊甲状腺恶性肿瘤的参考标准。

材料与方法
研究设计与人群
研究是在智利医疗系统的一家三级公立医院进行的回顾性横断面诊断准确性研究。该研究得到了机构科学伦理委员会（Servicio de Salud Metropolitano Sur Oriente Comité ético-Científico）的批准，由于研究的回顾性质和使用编码数据，因此免除了知情同意的要求。样本的选择基于方便性，这符合研究的回顾性质以及完整超声记录和相应细胞学结果的可用性。纳入标准是：2021年1月至12月期间通过颈部超声检查诊断为甲状腺结节并接受了细针穿刺活检（FNA）的成年患者（≥18岁）。排除了超声图像不完整或质量差的患者、无法被人工智能模型处理的图像、重复记录的患者，以及经过多次评估后Bethesda细胞学结果仍为I级的患者。所有检查均按照标准化的国际采集协议进行（包括纵向和横向平面以及彩色多普勒成像）。这些检查使用了高质量的超声系统（Philips iU22），所有图像均以高质量的DICOM格式存储和分析，保留了完整的图像分辨率。患者纳入和排除流程在STROBE图中展示（图1）。本研究符合STROBE观察性研究指南。

图1 STROBE图。研究队列来源于2021年进行的193例甲状腺活检。共有122例符合纳入标准（完整的超声和细胞学结果）。Bethesda细胞学结果为I级的病例被排除，最终用于主要分析的结节队列为101个，其细胞学结果为II–VI级。

超声检查和FNA
甲状腺超声检查作为常规临床实践的一部分，使用高分辨率设备和高频线性探头进行。细针穿刺活检（FNA）按照当前机构协议使用21G针头进行。鉴于研究的临床性质，操作者具有不同的经验水平，反映了真实的临床实践场景。

专家的超声评估
超声图像由一名具有甲状腺病理学经验的放射科医生和一名接受过颈部超声培训的内分泌科医生独立评估。每位评估者根据各自的系统（ACR TI-RADS和Horvath TI-RADS）的原始建议对结节进行分类（后者仅由放射科医生应用）。评估者对细胞学结果、人工智能模型的建议以及彼此的评估结果盲法处理。

人工智能模型
该卷积神经网络人工智能模型之前在科罗拉多大学进行了训练，旨在分析甲状腺超声图像（20）。该模型未经额外训练即直接应用于实际临床环境，构成了外部验证。训练数据集包括各种类型的甲状腺和非甲状腺病变，主要为不同亚型的甲状腺癌，还包括来自神经内分泌肿瘤的2例转移灶、慢性淋巴细胞白血病的2例、乳腺癌的2例、结直肠癌的1例、甲状旁腺癌的1例以及甲状腺淋巴瘤的1例。对于每个结节，研究人员根据预定义的质量标准（ adequate focus、无伪影以及结节的完整可视化）选择了代表性的横向和纵向超声图像，系统根据这些图像生成是否进行FNA的建议。超声图像评估者对细胞学结果以及彼此的分类和建议结果均不知情。

参考标准
参考标准是通过细针穿刺活检（FNA）获得的细胞学结果，根据Bethesda系统进行分类（21）。在分析临床性能时，将Bethesda分级III级或更高级别的结节视为阳性。这一定义作为操作参考标准，与进一步诊断评估和管理决策一致，而不是作为恶性肿瘤确诊的替代指标。这种方法反映了研究的目的，即在现实临床环境中评估FNA指征策略。Bethesda分级I级的结节由于不具备诊断意义而被排除在主要分析之外。

统计分析
对临床和超声特征进行了描述性分析。计算了每种活检指征方法的敏感性、特异性、阳性和阴性预测值以及阳性概率比。这些性能指标基于预定义的操作参考标准（Bethesda ≥ III）进行计算，应理解为识别需要进一步诊断评估的结节的性能指标，而不是恶性肿瘤诊断的准确性指标。使用Gwet的AC1系数评估不同方法（AI、放射科医生和内分泌科医生）之间的一致性。分析使用标准统计软件进行，显著性水平为p < 0.05。由于研究的回顾性质，未进行正式的样本量计算。

研究人群
最终分析共纳入了101名接受甲状腺结节细针穿刺活检（FNA）的成年患者。队列中包括90名女性（89.1%）和11名男性（10.9%），中位年龄为61岁（范围：18–88岁）。结节中位大小为2.3厘米（四分位数范围[IQR]：1.6–3.3厘米）。
在最初的122例活检中，根据Bethesda系统的细胞学分类如下：21例（17.2%）为Bethesda I级，66例（54.1%）为Bethesda II级，5例（4.1%）为Bethesda III级，12例（9.8%）为Bethesda IV级，2例（1.6%）为Bethesda V级，14例（11.5%）为Bethesda VI级。Bethesda I级的病例被排除在主要分析之外。在最终队列（n = 101）中，33个结节（32.7%）被分类为细胞学阳性（Bethesda ≥ III级），68个结节（67.3%）为细胞学阴性（Bethesda II级）。

评估策略的临床性能
不同FNA指征策略的性能根据预定义的细胞学参考标准（Bethesda ≥ III级，反映需要进一步诊断的结节）进行评估，结果见表1。

表1 诊断性能
| TI-RADS | Horvath（专家放射科医生） | ACR TI-RADS（专家放射科医生） | ACR TI-RADS（专家内分泌科医生） | AIS |
| --- | --- | --- | --- | --- | --- |
| 敏感性 | 0.82 (0.64–0.92) | 0.85 (0.67–0.94) | 0.82 (0.64–0.92) | 0.88 (0.71–0.96) |
| 特异性 | 0.69 (0.57–0.79) | 0.40 (0.28–0.52) | 0.19 (0.11–0.31) | 0.41 (0.30–0.54) |
| 阳性预测值 (PPV) | 0.56 (0.41–0.70) | 0.41 (0.29–0.53) | 0.33 (0.23–0.44) | 0.42 (0.30–0.55) |
| 阴性预测值 (NPV) | 0.89 (0.76–0.95) | 0.84 (0.66–0.94) | 0.68 (0.43–0.86) | 0.88 (0.70–0.96) |
| 阳性概率比 (LR+) | 2.65 (1.79–3.91) | 1.41 (1.11–1.79) | 1.01 (0.83–1.23) | 1.49 (1.18–1.89) |
| 阴性概率比 (LR-) | 0.26 (0.13–0.55) | 0.38 (0.16–0.90) | 0.95 (0.40–2.28) | 0.29 (0.11–0.77) |

FNA指征策略的临床性能指标（n = 101）。
细胞学阳性定义为Bethesda分级III级或更高级别（Bethesda ≥ III）。数值以95%置信区间表示。

虚拟甲状腺活检（VTB）人工智能模型的敏感性为0.88（95% CI：0.71–0.96），特异性为0.41（95% CI：0.30–0.54）。由专家放射科医生评估的Horvath TI-RADS系统的敏感性为0.82（95% CI：0.64–0.92），特异性为0.69（95% CI：0.57–0.79）。ACR TI-RADS的相应指标，以及每种策略的阳性和阴性预测值和阳性概率比详见表1。

根据细胞学类别的FNA建议分布
人工智能模型根据细胞学类别发布的FNA建议分布如下：该模型在所有Bethesda V级病例中建议进行FNA，并在14例Bethesda VI级病例中的13例中建议进行FNA。然而，在一例Bethesda VI级病例中，两种系统都建议进行活检。该模型在所有5例Bethesda III级病例中建议进行FNA，其中4例最终病理学确诊为恶性，1例失访。在Bethesda IV级类别中，模型在12例中有9例建议进行FNA，其中4例进行了甲状腺切除术，3例被报告为恶性。在未推荐手术的8例中，7例进行了分子检测，显示癌症风险低且在超声随访中保持稳定，1例失访。在Bethesda II级结节中，模型在66例中建议进行FNA，其中包括该类别中唯一一个确诊为癌症的患者。

方法间一致性
表2展示了人工智能模型发布的FNA建议与人类专家进行的超声分类之间的一致性。比较结果显示一致性在60%到63%之间（p < 0.001）。Gwet的AC1系数显示人工智能模型与由专家内分泌科医生评估的ACR TI-RADS之间有一致性（AC1 = 0.41；95% CI：0.22–0.61）。模型与ACR TI-RADS系统在专家放射科医师评估下的一致性为AC1 = 0.30（95%置信区间：0.09–0.51），而与Horvath TI-RADS系统在专家放射科医师评估下的一致性为AC1 = 0.29（95%置信区间：0.09–0.48）。

表2方法一致性（%）95%置信区间p值
Gwet的AC1 95%置信区间p值
ACR TI-RADS（内分泌学专家）与AI对比 0.63 0.54–0.73 <0.001 0.41 0.22–0.61 <0.001
ACR TI-RADS（放射科专家）与AI对比 0.60 0.50–0.70 <0.001 0.30 0.09–0.51 0.004
Horvath TI-RADS与AI对比 0.63 0.54–0.73 <0.001 0.29 0.09–0.48 0.005
AI（VTB）与基于TI-RADS的方法之间的一致性。一致性以带有95%置信区间的比例表示。一致性使用Gwet的AC1系数进行评估。

讨论
在本研究中，我们评估了人工智能模型在支持甲状腺结节细针穿刺活检（FNA）指示方面的临床性能，并将其与人类专家在现实世界临床环境中使用的超声分类系统进行了比较。结果显示，该AI模型在敏感性方面达到了与专家评估者相当的性能指标，这在公共医疗系统常见的操作异质性和观察者间变异性的背景下尤为重要。尽管不建议将甲状腺超声作为系统性的筛查策略，但其广泛的应用已经促进了结节偶然发现的持续增加，从而增加了FNA的指示需求，其中许多结节实际上是良性的（3）。在这种情况下，即使在受培训的专家中，超声解读的变异性也是一个重要挑战，这促使了如TI-RADS（6, 15）等标准化系统的开发。然而，先前的研究已经表明，即使使用这些系统，评估者之间的变异性仍然显著存在（8）。
本研究的发现表明，结合基于AI的工具可能有助于标准化超声解读，并在FNA指示方面实现更大的同质性。与在受控环境中或使用前瞻性选择的图像评估AI模型的先前研究不同（11, 14），本研究在现实世界的临床条件下检查了模型的性能，无需额外重新训练，并使用了常规实践中获得的图像，从而增强了其外部有效性（12, 13）。在解释这些结果时需要考虑的一个重要因素是AI模型在敏感性和特异性之间的权衡。虽然模型表现出高敏感性，但其较低的特异性可能导致更多的活检建议。然而，在本研究设计的背景下，所有纳入的结节都已经接受了FNA。如果回顾性地应用AI模型，将导致69次活检建议，可能避免32次不必要的手术。这一发现表明，当AI模型作为分诊支持工具使用时，仍可有助于减少不必要的活检。这些结果强调了将AI输出与临床和放射学评估相结合以优化决策并在现实世界实践中平衡敏感性和特异性的重要性。
在将本研究中观察到的Bethesda分类分布与国际文献进行比较时，发现了一些差异（19, 20）。非诊断样本的比例（17.2%）高于高度专业化中心通常报告的≤10%的比例。然而，这一发现处于现实世界临床实践中的变异范围内，其中非诊断率可能在大约6%到36%之间（22）。这种变异性反映了细针穿刺的已知局限性，因为样本的适当性可能受到多种因素的影响，包括结节特征（例如，囊性或异质性组成）、操作者经验的差异以及细胞病理学解读的变异性，以及细胞学评估的固有限制。尽管我们机构常规处理凝块标本和传统细胞学切片——这种做法旨在提高样本的适当性——但观察到的比率可能反映了常规实践中细胞学结果的多元性质。
同样，良性结果的比例较低（54.1%）可能与选择高风险结节有关，这也可能解释了Bethesda VI类别的相对较高频率（11.5%），高于通常报告的比例。相比之下，不确定类别的总体比例（13.9%）保持在预期范围内（根据文献为10–20%），表明尽管采样条件存在差异，但细胞病理学实验室的解读性能是适当的。
从方法学的角度来看，使用Bethesda分类系统作为参考标准是一个重要的限制，这在解释结果时应仔细考虑。Bethesda细胞学有助于指导临床决策，但不构成恶性肿瘤的最终诊断，特别是在不确定类别（如Bethesda III和IV）中。这些类别由于它们的恶性肿瘤风险和有限的区分能力而被广泛认为是主要的诊断挑战（23）。Bethesda ≥ III被定义为阳性结果，因为它是一个与进一步诊断评估的临床决策相一致的操作终点，而不是恶性肿瘤的确切标志。因此，报告的性能指标（包括敏感性、特异性和预测值）应被视为衡量每种方法识别需要进一步检查的结节的能力，而不是甲状腺癌真实诊断准确性的估计。重要的是，并非我们队列中的所有结节都接受了手术切除，这反映了现实世界临床实践中的选择性手术指示。因此，并非所有病例都有组织病理学确认，这限制了确定整个队列中真实恶性肿瘤状态的能力。因此，报告的准确率指标应在基于细胞学的参考标准和临床决策框架内进行解释。在此背景下，排除了Bethesda I类别的结节，以避免纳入对临床决策或性能估计无意义的非诊断结果。
尽管Bethesda I传统上与低恶性肿瘤风险相关联，但其非诊断性质和变化的风险估计（0-20%）可能会在性能分析中引入不确定性和噪声（21, 24）。当临床目标是评估活检指示时，细胞学是一个适当的参考标准，但重要的是要认识到细胞学并不等同于确定的组织病理学。特别是不确定类别（Bethesda III和IV），它们与最终手术结果存在显著不一致，这可能直接影响特异性、阳性预测值和基于超声的风险分层系统及人工智能模型的似然比，如文献中先前所述（25）。
在一个具有Bethesda VI细胞学的单一癌病例中（图2），AI没有建议进行活检，这代表了一个临床上相关但频率较低的假阴性。在这种情况下，ACR TI-RADS和Horvath TI-RADS都建议进行FNA，无论是由放射科医师还是内分泌学专家评估。这个案例强调，不常见或非典型的恶性表型可能不会强烈激活AI的决策阈值。研究的结节是一个小的椭圆形、主要呈等回声的结节，包含微小的、定义不清的低回声区域和点状回声焦点，提示可能存在微钙化。AI程序在分析小于1厘米的结节方面存在局限性，而定义不清的边缘对程序的识别构成了挑战。

图2 由虚拟甲状腺活检（VTB）模型生成的代表性超声图像及其对应的Grad-CAM显著性图。(A) 甲状腺结节的横截面超声图像。(B) 强调横截面中支持良性预测的图像区域的Grad-CAM显著性图。(C) 强调横截面中支持恶性预测的图像区域的Grad-CAM显著性图。(D) 同一结节的纵截面超声图像。(E) 强调纵截面中支持良性预测的图像区域的Grad-CAM显著性图。(F) 强调纵截面中支持恶性预测的图像区域的Grad-CAM显著性图。Grad-CAM图示出了最强烈影响模型决策过程的超声图像区域。较暖的颜色表示对模型预测贡献较大的图像区域。在这个例子中，模型将结节分类为良性，恶性概率为0.277。
值得注意的是，模型正确地识别了一个随后被诊断为淋巴瘤的病例（图3）。最初的FNA细胞学结果为Bethesda II。在这种情况下，AI模型和人类专家应用的不同的方法都建议进行FNA，这促使进行了核心活检并确认了最终诊断。这个案例说明了任何严格操作定义的固有局限性，并强调了临床判断在解释细胞学结果和指导后续管理决策中的不可替代作用。重要的是，AI模型成功克服了这个挑战。

图3 随后被诊断为淋巴瘤的甲状腺超声图像。图像显示甲状腺有弥漫性增大，特征是明显异质性和低回声的声质地，边缘平滑。无法清晰地识别出单独的甲状腺结节。
总之，对不一致病例的分析突出了AI模型和传统超声分类系统固有的局限性。模型没有建议对Bethesda VI细胞学结节进行FNA的情况，以及甲状腺淋巴瘤病例，反映了复杂的临床情况，其中超声特征可能不符合典型模式。这些发现强调了将自动化工具生成的推荐作为临床决策支持而非替代全面临床判断的必要性。
重要的是，本研究旨在评估模型在细针穿刺建议的临床决策过程中的性能，而不是评估甲状腺恶性肿瘤的最终诊断准确性。因此，应谨慎地将本研究与使用手术组织病理学作为参考标准的研究进行直接比较，因为这些方法解决了不同的临床问题。
本研究有几个相关的优点，包括在资源有限的现实世界临床实践中评估AI模型、直接与人类专家进行比较，以及使用了稳健的一致性指标，如Gwet的AC1系数。然而，也必须承认某些局限性。其回顾性设计和方便抽样可能会引入偏倚，相对较小的样本量限制了发现的普遍性。
从方法学的角度来看，在诊断准确性研究中解释样本量不应仅依赖于参与者的总数，还应考虑用于估计敏感性和特异性的病例和对照的分布。如Flahault等人（26）所强调的，研究设计和解释应基于这些指标的预期精度，而不仅仅是样本量本身。
在本队列中，纳入了33个细胞学阳性的结节和68个阴性病例，从而能够在现实世界的临床环境中估计关键的性能指标。置信区间的宽度虽然反映了一定程度的不确定性，但仍然足够窄，以便对结果进行临床上有意义的解释，特别是对于敏感性估计而言，考虑到可用的阳性病例数量。
鉴于研究的回顾性质，没有进行正式的样本量计算。尽管如此，相对有限的样本量仍可能影响估计的精确度和某些指标的稳定性，特别是特异性，因此这些发现应被视为探索性和假设生成的。需要进一步的前瞻性、多中心研究，拥有更大的样本量，以确认这些结果。
总体而言，这些结果表明，人工智能模型可能在甲状腺结节的超声评估中发挥补充作用，特别是作为在高需求医疗环境中FNA指示的决策支持工具。需要进行前瞻性、多中心的研究，拥有更大的样本量，以进一步评估其临床影响和在常规临床工作流程中的安全整合。

结论
在现实世界的临床实践中，所评估的人工智能模型在指示甲状腺结节的细针穿刺活检（FNA）方面的临床性能与人类专家相当。其敏感性指标和与常用超声分类系统的一致性表明，这样的工具可能有助于临床决策并帮助减少观察者间的变异性。然而，它们的使用应被视为对临床判断的补充，未来的前瞻性研究将有必要确定它们对临床实践的影响。

热点排行