《Frontiers in Medicine》:Comparison of three commercial AI tools for detection and malignancy assessment of incidental lung nodules
编辑推荐:
摘要目的:偶然发现的肺结节在计算机断层扫描(CT)中常见,管理通常依赖于大小和体积。基于人工智能(AI)的工具在结节检测和风险评估方面显示出前景,但其临床效用仍不确定。本研究旨在评估基于AI的软件在检测和预测偶然发现肺结节恶性方面的准确性。材料与方法:这项回顾
摘要目的:偶然发现的肺结节在计算机断层扫描(CT)中常见,管理通常依赖于大小和体积。基于人工智能(AI)的工具在结节检测和风险评估方面显示出前景,但其临床效用仍不确定。本研究旨在评估基于AI的软件在检测和预测偶然发现肺结节恶性方面的准确性。材料与方法:这项回顾性研究纳入了从2015年至2024年间接受胸部CT并符合纳入标准的1,138名个体队列中选出的患者。研究人员将患者分为良性组和恶性组。恶性通过组织病理学或至少2年随访确定。结节位置、大小和类型通过放射学报告和AI工具进行评估。评估了三种商业工具(AI-I、AI-II和AI-III)在结节检测和恶性风险预测方面的表现。使用Cohen's kappa和组内相关系数(ICC)评估一致性,并使用受试者工作特征(ROC)分析评估诊断性能。结果:评估了374名患者(平均年龄66±9岁;范围37-88岁;231名男性)的胸部CT扫描,这些患者至少有一个实性或部分实性结节。AI-I和AI-II在结节定位方面与放射学报告表现出极好的一致性(κ=0.95,p<0.001),在结节类型方面表现出中等一致性(κ=0.46,p<0.001)。大小评估显示出极好的一致性,AI-I的ICC值为0.93 [95%CI=0.92-0.94],AI-II为0.89 [95%CI=0.86-0.91]。AI-II和AI-III在恶性预测方面存在差异,AUC分别为0.77 [95%CI=0.72-0.81]和0.89 [95%CI=0.85-0.92]。此外,AI-II的PPV(65.57%对比87.20%,p<0.001)和准确性(72.1%对比82%,p<0.001)显著低于AI-III。结论:基于AI的工具在偶然发现肺结节检测方面表现出高准确性;然而,它们在恶性风险分层方面的性能存在显著差异。
本研究聚焦于偶然发现肺结节(incidental pulmonary nodules)的临床管理挑战,此类结节在计算机断层扫描(CT)中常见,传统管理依赖于结节大小和体积。尽管基于人工智能(AI)的工具在结节检测和风险评估方面展现出潜力,但其临床效用仍不确定,且不同工具因算法、训练数据集和评估指标的差异,直接比较存在困难。为此,研究人员开展了一项回顾性研究,旨在评估三种商业AI工具在检测和恶性风险预测中的准确性,该论文发表在《Frontiers in Medicine》。研究背景指出,准确检测和风险分层是胸部放射科医师工作量的重要组成部分,现有指南虽被广泛使用,但日益增长的医院工作负荷和临床信息获取困难可能导致评估错误。AI工具虽能辅助经验不足的放射科医师,但不同软件可能在临床管理决策中引发差异,这一假设推动了本研究的开展。
研究人员从2015年至2024年间接受胸部CT的1,138名患者队列中,筛选出374名至少有一个实性或部分实性结节的个体(平均年龄66±9岁,231名男性),排除纯磨玻璃结节(GGO)、钙化结节及尺寸<5mm或>30mm的结节。使用三种商业AI工具:Siemens AI-Rad Companion(AI-I)、Aview LCS(AI-II)和Virtual Nodule Clinic(AI-III),分别进行检测和恶性风险评估。以原始放射学报告作为结节检测和测量的参考标准,以组织病理学或至少2年随访结果作为恶性判断的金标准。主要技术方法包括:采用Cohen's kappa和组内相关系数(ICC)评估AI工具与放射学报告之间的一致性;通过受试者工作特征(ROC)分析计算曲线下面积(AUC)来评估诊断性能;并运用决策曲线分析(DCA)和校准曲线评估临床效用及概率准确性。所有统计检验均以p<0.05为显著水平。
研究结果分为三个部分:
**良性和恶性结节表现出不同的定位和性质**:通过比较良恶性结节的特征,发现恶性结节更常见于上叶(p=0.004),且尺寸显著更大(p<0.001)。结节类型在两组间无显著差异(p>0.05),临床因素如性别和年龄亦无差异。
**基于AI的工具自动检测和测量偶然发现肺结节的尺寸**:与放射学报告相比,AI-I和AI-II在结节定位上达到几乎完全一致(κ=0.95,p<0.001),但在结节类型判断上仅表现出中等一致性(κ=0.46,p<0.001)。检测灵敏度方面,AI-I为93.8%,AI-II为96.2%,但有六个结节(位于膈面或纵隔旁)均未被检测到。结节尺寸测量方面,AI-I的ICC为0.93(95%CI=0.92-0.94),AI-II为0.89(95%CI=0.86-0.91),两者之间的一致性亦为优秀(ICC=0.92,95%CI=0.91-0.94)。
**基于AI的工具在偶然发现肺结节的恶性风险预测方面存在差异**:以良性/恶性分类为参考标准,AI-II利用Lung-RADS分类进行风险评估,其AUC为0.77(95%CI=0.72-0.81),而AI-III采用连续恶性评分,AUC达到0.89(95%CI=0.85-0.92)。AI-III的准确性(82%)、阳性预测值(PPV,87.20%)均显著优于AI-II(72.1%和65.57%,p<0.001)。决策曲线分析显示,AI-III在大多数临床相关阈值概率下提供更高的净获益,校准曲线和Brier评分也证实其概率准确性更优。亚组分析表明,无论在增强CT还是非增强CT中,AI-III均保持优势。
在讨论部分,研究人员指出,AI-III的优越性能可能源于其采用连续风险评分系统,而AI-II依赖基于结节属性的Lung-RADS分类,后者更侧重管理类别而非真实癌症风险估计。此外,研究存在以下局限:严格的排除标准导致队列中良恶性结节比例几乎为1:1(缺乏纯GGO),这扭曲了预测值;对比增强CT的纳入可能限制直接可比性;仅分析单个最可疑结节未能反映多结节临床实践;良性判断部分基于随访而非病理,可能遗漏缓慢生长的癌症。最终,研究人员翻译的研究结论为:总之,偶然发现肺结节的表征和恶性预测对于早期诊断和治疗至关重要,也有助于避免假阳性导致的不必要干预和治疗。基于AI的软件工具在检测方面表现出高准确性,但恶性风险预测的差异可能源于其不同的输出结构(分类风险评分与连续风险评分),而非严格的临床优越性。