《Physics and Imaging in Radiation Oncology》:Comparative analysis of artificial intelligence-based contouring of cardiac substructures on computed tomography scans for radiation therapy
编辑推荐:
本文针对AI自动勾画心脏亚结构存在解决方案间差异的问题,研究人员对7款商业、3款开源及1款自研方案进行了比较研究。评估了其在增强与非增强CT上的勾画结果,揭示了不同方案间,尤其是冠状动脉勾画存在显著变异。结果表明,大多数方案对CT对比剂变化的敏感性较低,凸显了对模型透明化和标准化的迫切需求。
在放射治疗领域,心脏并发症是影响患者长期生存质量的重要因素。传统的风险评估主要依赖于对整个心脏的平均剂量进行评估,但越来越多的证据表明,精确评估照射到心脏内各个精细亚结构(如特定心腔、冠状动脉、大血管等)的剂量,对于揭示更具体的剂量-效应关系、更精准地预测和预防特定心脏损伤至关重要。然而,手动勾画这些结构极其耗时耗力,且不同医生间存在主观差异,难以在大规模临床研究或日常实践中广泛应用。近年来,基于人工智能(AI)的自动勾画工具应运而生,为快速、一致地勾画心脏亚结构带来了希望。但随之而来的问题是:市面上不同AI解决方案给出的勾画结果是否一致?它们在面对临床上常见的、无造影剂增强的CT扫描图像时,表现是否稳定?解答这些问题,对于评估AI工具在临床和科研应用中的可靠性与可比性,推动相关剂量学研究的发展,具有基础性的重要意义。
为此,以Alexandra Moignier和Lo?g Vaugier为主要贡献者的研究团队在《Physics and Imaging in Radiation Oncology》上发表了一项研究,系统比较了多种AI方案在心脏亚结构自动勾画上的表现差异,并评估了CT图像是否使用造影剂增强对勾画结果的影响。该研究的主要技术方法包括:1)数据集构建:使用20例肺癌患者在同一成像序列中依次采集的吸气性屏气对比增强(CE)与非增强(NCE)胸部CT扫描数据,确保了患者体位和解剖结构的高度可比性。2)AI解决方案评估:选取了截至2024年可用的11种AI解决方案,包括7种商业方案(如Limbus Contour, GBS/Contour+等)、3种开源方案(TotalSegmentator, PlatiPy, STOPSTORM)和1种自研方案(MDANDERSON)。3)量化评估指标:在CE-CT上,使用戴斯相似性系数(Dice Similarity Coefficient, DSC)和豪斯多夫距离95百分位数(95thpercentile of Hausdorff distance, HD95)来量化不同解决方案两两之间的勾画差异;在NCE-CT与CE-CT之间,则通过计算体积比(Volume Ratio, VR)来评估同一方案对对比剂变化的敏感性。
研究结果揭示了不同AI方案在勾画心脏亚结构时存在广泛而显著的差异:
- •
整体心脏与心腔:对于整个心脏、左右心房和左右心室,不同方案间的勾画一致性相对较好。约45%的结构-解决方案对的平均中位DSC高于0.8,约38%的平均中位HD95低于10毫米。但仍观察到明显差异,例如在心脏上界、心尖部以及与上下腔静脉等大血管的分界处。个别方案(如RAYSEARCH)对心脏上界的勾画范围更大,而TOTALSEGMENTATOR仅勾画心腔和肺动脉,导致其与其他方案的DSC较低(0.75),HD95较高(29毫米)。
- •
大血管:主动脉、肺动脉、上下腔静脉和肺静脉的勾画也存在变异,主要体现在与相应心腔的连接过渡区域。例如,对于主动脉,PLATIPY、RADFORMATION和THERAPANACEA三个方案的勾画与其他方案差异显著,尤其在主动脉瓣附近区域。
- •
冠状动脉:这是差异最为显著的区域。不同方案对冠状动脉(如左主干/前降支A_LM_LAD、左冠状动脉A_Coronary_L、回旋支A_Cflx、右冠状动脉A_Coronary_R)的勾画一致性非常低,平均中位DSC范围仅为0.03到0.50,平均中位HD95范围高达19到70毫米。差异源于勾画的轴向尺寸、长度以及解剖定位的不同。例如,RAYSEARCH和MDANDERSON方案倾向于勾画出更大的冠状动脉轮廓,而PLATIPY和STOPSTORM方案在某些冠状动脉上的勾画定位差异导致DSC极低。
- •
对比剂影响:通过比较同一患者在NCE-CT和CE-CT上的勾画体积,研究发现大多数解决方案对是否使用造影剂并不敏感。在123个结构-解决方案对中,有84对(68%)的体积差异低于10%。然而,个别方案对某些结构表现出较高的敏感性,例如MDANDERSON方案对左右心室、肺静脉、冠状动脉和二尖瓣的勾画受对比剂影响较大,体积变化明显。
研究的结论和讨论部分强调了几个关键点。首先,这项研究并非旨在对现有AI解决方案进行排名,而是为了揭示和量化不同方案在自动勾画心脏亚结构时存在的“解决方案间变异”。这种变异的程度,对于大多数结构和方案而言,与之前文献报道的“观察者间变异”相当。其次,研究表明,除了少数例外,大多数AI方案对于CT扫描是否使用造影剂具有较好的稳健性,这对于在常规使用非增强CT进行放疗计划的临床环境中应用AI工具是一个积极信号。然而,对于冠状动脉等细小且对比度不明显的结构,不同方案的勾画结果差异巨大,这可能对基于这些勾画结果进行的剂量评估和后续的剂量-效应关系研究产生不可忽视的临床影响。
因此,研究者强烈呼吁需要更大的模型透明度和标准化。他们指出,不同解决方案的差异可能源于训练数据所使用的勾画规则、模型本身的算法特性以及训练数据集的成像特征(如是否包含增强CT)不同。为了推动该领域的发展,亟需通过国际共识和共享数据集,建立心脏亚结构勾画的统一标准和更透明的模型报告规范(如采用“模型卡片”Model Card)。ESTRO(欧洲放射治疗与肿瘤学学会)的相关工作组已就此启动倡议。最终,只有通过协同努力,建立由多中心专家验证的、高质量的标注数据集,才能使所有开发者在一个共同的基础上构建和改进模型,从而确保AI自动勾画工具在心脏毒性研究和临床实践中的可靠性与可比性,真正助力于精准放疗时代的心脏保护。