三种商业AI工具用于偶然发现肺结节检测和恶性评估的比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Medicine》：Comparison of three commercial AI tools for detection and malignancy assessment of incidental lung nodules

【字体：大中小】 时间：2026年06月03日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　摘要目的：偶然发现的肺结节在计算机断层扫描（CT）中常见，管理通常依赖于大小和体积。基于人工智能（AI）的工具在结节检测和风险评估方面显示出前景，但其临床效用仍不确定。本研究旨在评估基于AI的软件在检测和预测偶然发现肺结节恶性方面的准确性。材料与方法：这项回顾

摘要目的：偶然发现的肺结节在计算机断层扫描（CT）中常见，管理通常依赖于大小和体积。基于人工智能（AI）的工具在结节检测和风险评估方面显示出前景，但其临床效用仍不确定。本研究旨在评估基于AI的软件在检测和预测偶然发现肺结节恶性方面的准确性。材料与方法：这项回顾性研究纳入了从2015年至2024年间接受胸部CT并符合纳入标准的1,138名个体队列中选出的患者。研究人员将患者分为良性组和恶性组。恶性通过组织病理学或至少2年随访确定。结节位置、大小和类型通过放射学报告和AI工具进行评估。评估了三种商业工具（AI-I、AI-II和AI-III）在结节检测和恶性风险预测方面的表现。使用Cohen's kappa和组内相关系数（ICC）评估一致性，并使用受试者工作特征（ROC）分析评估诊断性能。结果：评估了374名患者（平均年龄66±9岁；范围37-88岁；231名男性）的胸部CT扫描，这些患者至少有一个实性或部分实性结节。AI-I和AI-II在结节定位方面与放射学报告表现出极好的一致性（κ=0.95，p<0.001），在结节类型方面表现出中等一致性（κ=0.46，p<0.001）。大小评估显示出极好的一致性，AI-I的ICC值为0.93 [95%CI=0.92-0.94]，AI-II为0.89 [95%CI=0.86-0.91]。AI-II和AI-III在恶性预测方面存在差异，AUC分别为0.77 [95%CI=0.72-0.81]和0.89 [95%CI=0.85-0.92]。此外，AI-II的PPV（65.57%对比87.20%，p<0.001）和准确性（72.1%对比82%，p<0.001）显著低于AI-III。结论：基于AI的工具在偶然发现肺结节检测方面表现出高准确性；然而，它们在恶性风险分层方面的性能存在显著差异。

本研究聚焦于偶然发现肺结节（incidental pulmonary nodules）的临床管理挑战，此类结节在计算机断层扫描（CT）中常见，传统管理依赖于结节大小和体积。尽管基于人工智能（AI）的工具在结节检测和风险评估方面展现出潜力，但其临床效用仍不确定，且不同工具因算法、训练数据集和评估指标的差异，直接比较存在困难。为此，研究人员开展了一项回顾性研究，旨在评估三种商业AI工具在检测和恶性风险预测中的准确性，该论文发表在《Frontiers in Medicine》。研究背景指出，准确检测和风险分层是胸部放射科医师工作量的重要组成部分，现有指南虽被广泛使用，但日益增长的医院工作负荷和临床信息获取困难可能导致评估错误。AI工具虽能辅助经验不足的放射科医师，但不同软件可能在临床管理决策中引发差异，这一假设推动了本研究的开展。

研究人员从2015年至2024年间接受胸部CT的1,138名患者队列中，筛选出374名至少有一个实性或部分实性结节的个体（平均年龄66±9岁，231名男性），排除纯磨玻璃结节（GGO）、钙化结节及尺寸<5mm或>30mm的结节。使用三种商业AI工具：Siemens AI-Rad Companion（AI-I）、Aview LCS（AI-II）和Virtual Nodule Clinic（AI-III），分别进行检测和恶性风险评估。以原始放射学报告作为结节检测和测量的参考标准，以组织病理学或至少2年随访结果作为恶性判断的金标准。主要技术方法包括：采用Cohen's kappa和组内相关系数（ICC）评估AI工具与放射学报告之间的一致性；通过受试者工作特征（ROC）分析计算曲线下面积（AUC）来评估诊断性能；并运用决策曲线分析（DCA）和校准曲线评估临床效用及概率准确性。所有统计检验均以p<0.05为显著水平。

研究结果分为三个部分：

**良性和恶性结节表现出不同的定位和性质**：通过比较良恶性结节的特征，发现恶性结节更常见于上叶（p=0.004），且尺寸显著更大（p<0.001）。结节类型在两组间无显著差异（p>0.05），临床因素如性别和年龄亦无差异。

**基于AI的工具自动检测和测量偶然发现肺结节的尺寸**：与放射学报告相比，AI-I和AI-II在结节定位上达到几乎完全一致（κ=0.95，p<0.001），但在结节类型判断上仅表现出中等一致性（κ=0.46，p<0.001）。检测灵敏度方面，AI-I为93.8%，AI-II为96.2%，但有六个结节（位于膈面或纵隔旁）均未被检测到。结节尺寸测量方面，AI-I的ICC为0.93（95%CI=0.92-0.94），AI-II为0.89（95%CI=0.86-0.91），两者之间的一致性亦为优秀（ICC=0.92，95%CI=0.91-0.94）。

**基于AI的工具在偶然发现肺结节的恶性风险预测方面存在差异**：以良性/恶性分类为参考标准，AI-II利用Lung-RADS分类进行风险评估，其AUC为0.77（95%CI=0.72-0.81），而AI-III采用连续恶性评分，AUC达到0.89（95%CI=0.85-0.92）。AI-III的准确性（82%）、阳性预测值（PPV，87.20%）均显著优于AI-II（72.1%和65.57%，p<0.001）。决策曲线分析显示，AI-III在大多数临床相关阈值概率下提供更高的净获益，校准曲线和Brier评分也证实其概率准确性更优。亚组分析表明，无论在增强CT还是非增强CT中，AI-III均保持优势。

在讨论部分，研究人员指出，AI-III的优越性能可能源于其采用连续风险评分系统，而AI-II依赖基于结节属性的Lung-RADS分类，后者更侧重管理类别而非真实癌症风险估计。此外，研究存在以下局限：严格的排除标准导致队列中良恶性结节比例几乎为1:1（缺乏纯GGO），这扭曲了预测值；对比增强CT的纳入可能限制直接可比性；仅分析单个最可疑结节未能反映多结节临床实践；良性判断部分基于随访而非病理，可能遗漏缓慢生长的癌症。最终，研究人员翻译的研究结论为：总之，偶然发现肺结节的表征和恶性预测对于早期诊断和治疗至关重要，也有助于避免假阳性导致的不必要干预和治疗。基于AI的软件工具在检测方面表现出高准确性，但恶性风险预测的差异可能源于其不同的输出结构（分类风险评分与连续风险评分），而非严格的临床优越性。

联系信箱：

粤ICP备09063491号

热点排行