预测寡转移性疾病患者对消融放疗的早期反应：基于放射组学的机器学习和深度学习模型的综述

《European Radiology》：Predicting early response to ablative radiotherapy in oligometastatic disease: a scoping review of radiomics-based machine learning and deep learning models

【字体：大中小】 时间：2026年05月02日 来源：European Radiology 4.7

编辑推荐：

　　**摘要** **目的** 寡转移性疾病是癌症的一个中间阶段，通常通过手术或消融性放射治疗（ART）进行治疗。本综述旨在系统地总结当前关于使用放射组学（包括机器学习和深度学习方法）来预测对ART反应的证据。我们还旨在评估已发表研究的方法学质量和报告透明度，识别未来研究的空

　　**摘要**
**目的**
寡转移性疾病是癌症的一个中间阶段，通常通过手术或消融性放射治疗（ART）进行治疗。本综述旨在系统地总结当前关于使用放射组学（包括机器学习和深度学习方法）来预测对ART反应的证据。我们还旨在评估已发表研究的方法学质量和报告透明度，识别未来研究的空白和机会。

**材料与方法**
在PubMed、Web of Science、Scopus、Embase、Cochrane和Google Scholar中进行了系统性搜索，以识别使用放射组学预测ART反应的研究。两名审稿人独立使用放射组学质量评分（RQS）和方法学放射组学评分（METRICS）来评估方法学质量。此外，还使用放射组学研究评估清单（CLEAR）来评估报告透明度。本综述遵循系统评价和荟萃分析优先报告项目（PRISMA）扩展指南。

**结果**
系统性搜索共识别出9463条记录，其中29项研究（3946名患者）被纳入分析。大多数研究使用了基于MRI的特征，其中24项研究关注脑转移。基于放射组学的模型表现出不同的预测性能（曲线下面积AUC：0.69–0.95），深度学习模型取得了最高的准确性（AUC：0.85–1.00）。研究的方法学质量为中等水平（平均RQS：13；METRICS：64.2–78%）。

**结论**
基于放射组学的模型在识别可能无法从ART中受益的患者方面显示出潜力，但其临床应用仍然有限，尤其是在颅外转移的情况下。未来的研究应侧重于多中心、前瞻性研究，并采用标准化方案，结合临床和剂量学数据以促进更广泛的临床应用。

**关键点**
- 放射组学模型能否可靠地评估寡转移性疾病患者对消融性放射治疗的治疗反应？目前支持其使用的 methodological 证据有多可靠？
- 结果表明，基于放射组学的模型在预测脑转移方面表现出令人鼓舞的性能，但方法学的异质性和有限的验证限制了其临床转化。
- 需要进一步的前瞻性、多中心、方法学标准化的研究，以便在临床应用之前进行验证。

**引言**
癌症仍然是全球主要的死亡原因之一，2022年估计有970万人因此死亡[1]。寡转移性疾病（OMD）的概念由Hellman和Weichselbaum在1995年提出[2]，它代表了局部癌和广泛癌之间的中间状态。根据欧洲和美国放射治疗与肿瘤学会的定义，OMD涉及一到五个可安全治疗的转移灶，这些转移灶的大小小于5厘米。在这种情况下，根治性局部治疗可能实现长期控制，最终可能导致治愈[3]。
OMD的管理主要依赖于局部治疗方法，如手术和消融性放射治疗（ART）[4, 5]。虽然手术仍是首选方法，但许多患者不适合进行手术；在这种情况下，ART提供了一种非侵入性的、精确的替代方案，能够消除小肿瘤灶同时保护周围组织。成像和计划的进步使ART成为OMD治疗的关键组成部分。立体定向技术包括用于脑转移的放射外科手术（SRS）和分次放射治疗（SRT）。同时，颅外病变（如骨骼、肺、肝脏和淋巴结）通常采用立体定向体部放射治疗（SBRT）。技术的选择取决于病变的大小、位置、与关键结构的接近程度以及机构协议[4,5,6,7,8,9,10,11,12,13,14]。
尽管技术有所进步，但ART在脑转移中的失败率仍高达30%[6]，在颅外病变中为30–40%[15, 16]。因此，识别局部治疗失败风险较高的患者对于制定个性化策略至关重要。放射组学从MRI、CT和PET等成像模式中提取定量特征，已成为捕捉反映肿瘤生物学特征的有希望的方法[17]。人工智能（AI），特别是机器学习（ML）和深度学习（DL）技术，可以分析这些高维数据以预测结果并支持决策制定[17,18,19]。基于神经网络的DL能够自动提取特征，并通常实现更优的预测性能[18]。将放射组学与临床数据结合使用可能会进一步提高模型的稳健性和准确性[20, 21]。
尽管基于放射组学数据的ML和DL模型在预测转移性病变的早期治疗反应方面显示出潜力，但大多数可用研究都是单中心的且方法学上存在异质性，这限制了它们的普遍性和临床适用性。为了解决这一差距，我们进行了本综述，主要目的是：（1）系统地评估使用单独的放射组学数据或结合临床变量预测接受ART治疗的OMD患者早期治疗反应的ML和DL模型的性能；（2）使用经过验证的放射组学质量评分（RQS）[22]和方法学放射组学评分（METRICS）[23]来评估方法学质量，并使用放射组学研究评估清单（CLEAR）[24, 25]来分析报告透明度。我们的方法为当前证据及其潜在的临床适用性提供了坚实的框架。

**方法**
本综述已在Open Science Framework下注册，注册链接为https://doi.org/10.17605/OSF.IO/FAWYE，并按照系统评价和荟萃分析优先报告项目（PRISMA）扩展指南[26]进行准备。由于仅分析了已发表的数据且未使用任何患者个人信息，因此不需要伦理批准和知情同意。

**搜索策略**
使用患者、干预措施、比较对象和结果（PICO）策略在六个电子数据库中进行了系统性文献搜索：PubMed、Web of Science、Scopus、Embase Ovid、Cochrane Library和Google Scholar。使用关键词、受控术语（MeSH）和布尔运算符来提高搜索灵敏度。为每个数据库准备了搜索策略，关键词包括“寡转移性疾病”、“脑转移”、“骨转移”、“肺转移”、“肝转移”、“立体定向放射外科手术”、“SRS”、“SRT”、“立体定向消融性放射治疗”、“SABR”、“SBRT”、“放射组学”、“机器学习”和“深度学习”。搜索始于2024年1月4日。使用Systematic Review Accelerator?的Polyglot软件将搜索策略跨数据库翻译。在各个数据库中保存了搜索策略，并设置了新发布的月度警报（截止日期为2025年6月12日）。整个搜索策略详见补充表1。

**资格标准**
没有对发表日期的限制。仅纳入用英语、法语或西班牙语撰写的文章。

**纳入标准**
1. 接受SRS/SRT、手术+SRS/SRT或单独SABR以及其他肿瘤治疗的脑、骨、肺或肝转移患者。
2. 基于CT、MRI或PET的放射组学特征的ML或DL模型，用于预测ART后2–6个月内的早期放射学治疗反应（仅有一项研究在ART后12个月进行了评估）。
3. 报告了模型的性能指标，包括准确性、特异性、敏感性和ROC曲线的AUC。
4. 队列研究、横断面研究或病例对照研究。

**排除标准**
1. 非人类研究、涉及孕妇的研究或18岁以下患者的研究。
2. 没有放射组学数据的研究，或不旨在预测早期治疗反应的ML和DL模型。
3. 临床实践指南、摘要、致编辑的信件、研讨会、病例系列、系统评价和叙述性综述以及荟萃分析。

**研究选择**
在去除重复项后，两名审稿人根据预定义的纳入和排除标准独立筛选了从文献搜索中获取的研究。首先通过标题和摘要评估文章，然后进行全文评估。通过共识解决分歧。评审过程使用了在线软件工具Rayyan?[28]。

**数据提取**
数据提取使用Microsoft Excel?电子表格进行，包括：
1. 研究和患者特征：作者、发表年份、国家、研究设计、研究目的、患者数量和年龄、一般患者状况、原发肿瘤类型、转移灶的位置和数量、转移灶的大小、放射治疗类型（SRS、SRT或SABR）、总剂量、放射学反应评估和随访。
2. 模型评估：成像模式、人工智能软件、特征数量、感兴趣区域、使用的算法、包含的特征以及性能指标。

**放射组学方法学质量评估**
使用两个经过验证的框架（RQS和METRICS）评估每项放射组学研究的方法学质量。RQS包含16个项目，总分为-8到+36分，通过非线性尺度转换为百分比（负分设为0%）。METRICS是一个全面的质量评估框架，包含30个项目，分为九个类别，涵盖手工制作和DL放射组学方法。它包括偏差评估，评分以百分比（0–100%）的形式报告，基于选定的条件使用线性缩放方法。评估通过METRICS的专用在线平台进行，该平台便于根据共识得出的权重进行评分。此外，CLEAR清单包含58个项目，概述了临床放射组学研究透明报告的最低要求。它旨在作为标准化工具，而不是质量评分。

**结果**
文献搜索在所有电子数据库中识别出9463条记录。在去除5100条重复项并根据标题和摘要筛选出4238项研究后，对125篇全文文章进行了资格评估。其中29项符合PICO框架定义的纳入标准[15, 16, 18, 20, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53]。完整的研究选择过程如图1所示，29项纳入研究的详细数据见补充表2和表3。

**图1**
本图像的替代文本可能是使用AI生成的。

**系统评价和荟萃分析优先报告项目（PRISMA）的流程图。**
**ART**：消融性放射治疗；**OMD**：寡转移性疾病

**研究的一般特征**
表1提供了29项入选研究的患者的人口统计学和临床特征总结。所有研究均为回顾性研究，发表时间在2018年至2025年之间，样本量未计算，共包含3946名患者（四分位数范围（IQR）：68–172），Karnofsky Performance Status（KPS）评分为70分或更高，转移灶数量为6081个（IQR：112–274）。然而，由于一些研究由同一作者进行，无法排除患者队列和转移灶在多个出版物中的重叠可能性（图2）。报告最多的原发肿瘤是肺癌（n=2146例），其次是黑色素瘤（n=453例）、乳腺癌（n=428例）、结直肠癌（n=179例）和肾癌（n=136例）。此外，有两项研究（6.3%）不仅纳入了转移性病变的图像，还纳入了同一器官的原发肿瘤图像到他们的预测模型中。在治疗方法方面，基于直线加速器（LINAC）的立体定向放射治疗使用最为频繁（n=12；37.5%）。这种技术利用LINAC来传递高度聚焦的放射束。伽玛刀SRS使用多个钴源（最多60个）以亚毫米级的精度针对颅内病变，有八项研究报道了这一方法（27.5%）。CyberKnife在3项研究中有描述（9.4%），它是一个能够对颅内和颅外部位进行SRT治疗的机器人系统[54]。有六项研究（19.4%）没有具体说明治疗方法。放射学反应在治疗后2到6个月内进行评估。只有一项研究在治疗后12个月进行了评估（见表2）。施加的剂量范围从12到60 Gy不等，反应评估分别使用了神经肿瘤脑转移反应评估（RANO-BM）[54]或实体瘤反应评估标准（RECIST）[55]，有的进行了修改，有的没有[56]。

表2 选定研究的方法学细节

预测治疗反应
29项选定研究的主要方法学特征如表2所示。最常用的成像方式是MRI，有24项研究使用（82.7%），主要用于脑转移（n=22例）。CT图像也在五项研究中使用（15.6%），尽管脑转移仅用非对比CT进行评估，而对于非脊柱骨骼和肺转移，CT的类型没有具体说明。在数据分割方法上，大多数作者采用了随机化技术[36,37,38,39,40,41,46,53]，只有少数作者采用了手动方法[42,45]或未指定方法[29,30,32]。

由于大多数研究面临类别不平衡问题，因此普遍应用了过采样方法，其中合成少数派过采样技术（SMOTE）使用最为频繁[18,29,30,40]。大多数研究（n=15；51.7%）使用PyRadiomics进行放射组学特征提取，其次是自定义Python脚本（n=4；13%）和其他软件（n=8；25.0%）。两项研究（6.3%）没有报告所使用的软件。在各研究中，每个感兴趣区域平均提取了256个特征（IQR：107–1651个）。特征提取最常从肿瘤区域及其周围水肿进行（n=11，37.9%），尽管有10项研究（34.4%）仅关注肿瘤区域，六项研究（18.8%）还将肿瘤水肿纳入分析。有一项研究（3.1%）从切除腔提取特征，另一项研究（3.1%）未指定提取区域。

手工制作的放射组学特征的使用占主导地位（n=22；75.8%），而深度学习（DL）衍生的特征较少（n=5；15.6%），只有两位作者结合了这两种方法。没有一项研究对颅外转移使用DL。有八项研究（27.5%）纳入了临床变量，但只有两项研究（6.8%）考虑了放射剂量信息。为了降低模型过拟合的风险，大多数研究（n=24；82.7%）应用了特征降维技术，其中最小绝对收缩选择算子（LASSO）[45]、最小冗余—最大相关性（mRMR）[29,38,40]或两者结合[34,35,53]是最常用的方法。两项研究（6.3%）没有进行任何降维，三项研究（10.3%）没有提供足够的方法学细节。应用了多种机器学习（ML）算法，支持向量机（SVM）使用最为频繁（n=8；25.0%），其次是随机森林（RF）（n=6；20.6%）和卷积神经网络（CNN）（n=5；15.6%）。在模型验证方面，最常用的方法是k折交叉验证[15,16,18,36,37,40,42,45,57]，其次是自助法[18,36]。

在预测脑转移对ART的反应时，放射组学模型的预测性能差异很大，报告的AUC值范围从0.69到0.95不等。DL模型显示出更高的准确性，AUC值在0.85到1.00之间，并且F1分数更好。纳入临床变量一致提高了模型的预测性能。这些模型中纳入的关键特征包括KPS、肿瘤组织学类型、转移部位、病变大小或体积、转移数量、既往治疗和患者年龄。

对于非脑转移，由于研究数量较少，预测性能数据有限。尽管如此，报告的准确性水平相似，骨转移的中位AUC值为0.80，肺转移的中位AUC值为0.85。

方法学和报告质量
各项研究的平均RQS得分为13分，最高得分为22分[29]。大多数研究报告了详细的成像方案（n=16；55.1%），并对预测模型进行了内部验证（n=24；82.7%）。然而，在“多个时间点的成像”、“截止分析”和“开放科学和数据共享”方面，超过90%的研究得分较低（只有八项研究（27.5%）分享了他们的代码）。在“所有扫描仪的虚拟研究”、“生物相关性的识别和讨论”、“在试验注册中心注册的前瞻性研究”或“成本效益分析”等类别中无法得分。此外，没有一项研究将其预测模型与普遍接受的金标准进行比较，主要是因为RQS框架内没有定义这样的基准。原则上，转移灶的活检将为评估治疗反应提供最可靠的参考，但这在临床实践中很少进行。

因此，较低的RQS分数不仅反映了方法学上的限制，也反映了放射组学研究中一些不常见的实践。详细的RQS结果见补充表4。

大多数研究被归类为“中等”质量，METRICS得分范围从40.2到59.5%。五项研究被评为“低”质量（21–37%），而六项研究获得了“良好”质量评分（64.2–78%）。值得注意的是，所有高质量的研究都发表于2023年至2024年之间。完整的METRICS评估见补充表5。

METRICS领域的分析显示，大多数放射组学研究的方法学严谨性相对较强，特别是在性能评估指标的报告、内部验证的使用和预处理技术的描述方面。相比之下，对于临床应用和普遍性的关键方面发展不足，这体现在对放射组学指南的遵守程度低、多中心设计的有限使用、临床可转移性的降低以及数据或模型的可用性受限等方面。

CLEAR得分范围从27[38]到47[18,29,35]分（满分58分），最高得分对应于2023年后发表的研究，这些研究在报告透明度方面有所改进。完整的CLEAR检查表见补充表6。

讨论
这项范围性综述评估了结合放射组学和机器学习（ML）与深度学习（DL）来预测接受ART治疗的脑、骨、肺和肝转移的早期放射学反应的研究。方法学质量使用RQS和METRICS进行评估，而预测模型的透明度和报告使用CLEAR进行评估。放射组学是一个有前景的预后工具；然而，主要的方法学缺陷继续阻碍其临床转化。大多数研究是回顾性的、单中心的且高度异质性的，限制了跨研究的可比性。大多数研究关注脑转移，只有六项研究涉及颅外病变[15,16,53,54,57]。这些不平衡的发现可能反映了在这些区域挽救无反应病变相对容易管理。然而，并非所有接受SABR或SRS治疗的患者都能接受手术，因为病变难以触及或患者身体状况较差[4,5]。此外，需要更多大样本量的研究来探讨无法接受手术的患者的ART反应。

患者队列通常规模较小到中等，且往往没有事先的样本量计算，这限制了模型的泛化能力，增加了过拟合的风险，并挑战了模型开发的稳健性。放射组学的工作流程在各研究中差异很大。脑转移研究主要关注MRI衍生的特征，但使用模拟CT特征的模型表现相似，表明它们也适用于预测建模。此外，颅外研究同时关注两种图像来源类型的特征。需要进一步的研究来对比MRI和CT衍生特征在每种类型病变中的预测性能。大多数研究将“早期反应”定义为2-3个月；然而，有一项研究在4个月时进行评估，两项在6个月时进行，一项在12个月时进行（见表1）。这种评估时间的差异导致了终点的不统一，可能部分解释了研究中观察到的模型性能差异。此外，目前还没有关于最佳ROI定义的共识。考虑水肿和肿瘤周围组织可能反映了转移发展及生长的关键微环境过程[37,41,42,43,50]，但它们也可能向模型引入潜在的噪声或冗余特征[37,38]。高质量的脑转移研究包括了水肿[29,34,35,36,47]，并报告了更高的中位AUC值（IQR：77–92.5），而颅外研究通常只关注肿瘤本身。方法学差异突显了进一步研究的必要性。

ROI分割的最佳方法仍不确定。大多数研究，包括高质量的研究，依赖于手动分割，这通常更准确但耗时。只有两项研究应用了自动分割[42,47]，这在效率和可重复性方面具有优势[19]，但可能会引入影响模型结果的错误。此外，关于分割差异的影响仍有争议：Jalalifar等人报告称影响较小[40]，而Jin等人发现对放射组学特征提取有显著影响[54]。未来的研究应侧重于标准化分割方法，并系统地评估方法学差异对预测准确性的影响。尽管大多数研究依赖于手工制作的放射组学特征，但越来越多地倾向于使用DL模型或将DL与手工制作的放射组学结合[18]。DL特征很有前景，因为它们能够捕捉复杂模式，对分割和预处理的变异性不太敏感。此外，结果显示出实现更高模型AUC值的趋势。然而，DL模型更复杂，容易过拟合，且可解释性较低[37]，这强调了未来研究需要确保DL模型的稳健性和临床适用性。

除了特征类型外，纳入临床和剂量学变量可能进一步提高性能。虽然大多数研究包括了临床变量并显示出改进的性能，但只有三项研究[32,52,53]考虑了治疗相关因素，如放射剂量，这突显了进一步提高预测准确性的未探索机会。类别不平衡情况、降维过程和数据分割是在模型开发过程中引入挑战的因素。目前，对于解决这些挑战的方法没有共识。最常见的技术是SMOTE用于类别不平衡，mRMR和LASSO用于降维，k折交叉验证和自助法用于数据分割。

各项研究中使用了多种算法，RF和SVM使用最为频繁，可能是因为它们在小型和高维数据集中表现简单但最优。较新的研究引入了更复杂的架构（DL），通常能获得更高的AUC值，但大多在小型队列和质量较低的研究中进行测试，增加了过拟合的风险。因此，结果应谨慎解释。值得注意的是，高质量的研究通常依赖于传统的ML结合严格的特征降维，而不是复杂的DL模型，这表明方法学的稳健性目前对模型性能的贡献更大。

质量评估显示方法学标准较低到中等，近年来有所改善。平均RQS得分较为温和，持续的差距反映了方法学限制和放射组学研究中不常见的实践。特别是，我们强调了无法将放射组学结果与金标准程序进行比较的问题，因为在临床实践中很少进行转移灶的活检。METRICS得分通常较高，似乎更适合评估早期ART反应的放射组学研究的质量。最近的研究实现了稳健的METRICS评估，表明报告透明度、内部验证和方法学严谨性更强。然而，对于临床转化至关重要的方面，如多中心设计、模型可访问性和泛化能力，仍然发展不足。

应用多种质量框架显示，高RQS分数并不一定对应高METRICS分数，这与Kocak等人的研究结果一致[58]，反映了每种工具评估的不同方面：RQS强调生物学有效性、临床相关性和方法学严谨性，而METRICS侧重于透明报告、可重复性和AI模型开发。重要的是，METRICS提供了一个针对当前放射组学和DL研究的更新框架，解决了RQS的几个局限性。然而，某些RQS（研究查询标准）元素并未被METRICS（测量指标）完全涵盖，例如“虚拟研究”、“多个时间点”、“生物学相关性”和“前瞻性研究”，在评估将影像模式与生物学或纵向过程联系起来的研究时仍可能具有相关性。总体而言，放射组学在早期预测转移性ART（放射治疗）反应和个性化护理方面显示出巨大潜力。未来的研究应优先考虑规模更大、多中心且样本量充足的队列，特别关注颅外病变。影像标准化以及对放射组学流程中不同方法（图像采集和预处理、特征提取、感兴趣区域定义和模型构建）影响的仔细评估仍然至关重要。此外，还应致力于制定策略来限制或评估过拟合现象、管理数据稀缺问题，并提高模型的可解释性。整合多模态变量（如临床数据和剂量学数据），以及采用新兴方法（如放射基因组学和代谢成像[59,60,61]），可能会进一步提升模型的预测性能。遵循METRICS和CLEAR框架，并考虑相关的RQS元素，将有助于提高方法学质量、可重复性和临床转化能力，最终支持个性化的肿瘤治疗并改善患者预后。

结论：基于放射组学的预测模型在预测接受ART治疗的转移性肿瘤的治疗反应方面具有巨大潜力。然而，相关证据仍较为初步，尤其是在骨、肺和肝病变方面。最近的研究在方法学质量上有所提升；不过，临床转化仍需要前瞻性、多中心的验证、标准化的影像协议，以及临床和剂量学变量的纳入。实现这些目标将使放射组学生物标志物从探索性工具发展成为可靠的工具，从而支持个性化放射治疗并改善患者预后。

热点排行