综述：乙型肝炎病毒相关肝细胞癌患者复发风险预测模型：一项系统综述与荟萃分析

《Frontiers in Oncology》：Recurrence risk prediction model for hepatitis B virus-associated hepatocellular carcinoma patients: a systematic review and meta-analysis

【字体：大中小】 时间：2026年03月06日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　本文系统评价了现有HBV-HCC复发预测模型，发现其虽具有一定预测能力（汇总C指数0.73），但普遍存在高偏倚风险，限制了临床应用。未来需加强方法学严谨性、多中心外部验证，并整合肿瘤生物学、肝病活动及宿主免疫等多维生物标志物，以提升模型的可靠性与实用性。

引言：严峻的临床挑战

原发性肝癌是全球第六大常见、第三大致死的恶性肿瘤，其中肝细胞癌 (Hepatocellular Carcinoma, HCC) 是最主要的亚型，与乙型肝炎病毒 (Hepatitis B Virus, HBV) 感染密切相关。在全球范围内，尤其是在亚太地区，超过50%的HCC病例归因于HBV感染。与由脂毒性和氧化应激驱动的代谢性或酒精性HCC不同，HBV相关HCC具有独特的免疫微环境。持续的病毒感染会形成慢性炎症和纤维化的“场效应”，营造出一个富含调节性T细胞和耗竭的细胞毒性T淋巴细胞的免疫抑制生态位。这种独特的生物学背景涉及病毒DNA整合和持续的肝脏坏死性炎症，从根本上区分了HBV-HCC与非病毒病因HCC的复发生物学机制。

尽管肝切除术、肝移植和局部消融等根治性疗法不断进步，但乙型肝炎病毒相关肝细胞癌 (HBV-HCC) 患者的预后仍然不佳。主要原因是术后复发率极高，五年内复发率高达50%至70%。值得注意的是，HBV相关HCC的复发生物学机制与其他病因不同。复发通常表现为两种形式：源于原发肿瘤的肝内转移 (Intrahepatic Metastasis, IM) 和由慢性肝炎及肝硬化背景产生的多中心癌变 (Multicentric Carcinogenesis, MC)。这种双重机制意味着早期复发主要由肿瘤本身驱动，而晚期复发则通常由肝脏背景的促癌“场效应”驱动。因此，准确预测复发风险以指导个体化管理已成为当前临床实践中的重大挑战。

为了应对这一需求，许多预测模型被开发出来。这些模型旨在通过整合临床特征、病理指标和影像学特征等多种因素，量化个体患者的术后复发概率。然而，只有经过全面验证的预测模型才能有效帮助临床医生识别高危个体，促进更精准的治疗和随访，最终降低医疗支出。这些模型的方法学质量和临床适用性尚不明确。因此，本研究旨在系统评估现有针对HBV-HCC患者的复发风险预测模型的性能和方法学严谨性。

方法：系统性的证据整合

本研究方案已在PROSPERO注册。研究严格遵循系统综述和荟萃分析报告规范。为确保检索的精确性和全面性，我们使用PICOTS框架来定义研究问题并构建检索策略。我们检索了PubMed、Web of Science、Embase、Scopus和OVID五个数据库，检索时间从建库至2025年9月12日。检索策略结合了主题词和自由词，重点关注“乙型肝炎病毒相关肝细胞癌”和“预后”两个主要概念。此外，还在Google Scholar上进行了引文检索。

纳入标准包括：年龄≥18岁、经病理诊断为HBV-HCC的患者；关注临床预测模型的研究；预测结局为HCC复发；模型至少包含两个预测因子；研究开发或更新并验证了预测模型。排除标准包括：无法获取全文；基于系统综述开发的预测模型；数据不完整或无法提取关键指标；非英文出版物；综述、信件、会议摘要、书籍或专家意见；仅筛选复发风险因素而未开发模型的研究；诊断模型；以及未经验证的模型。

两位独立评审员筛选所有初步检索到的文章的标题和摘要，然后获取潜在合格文章的全文，并根据纳入和排除标准进行评估以确定最终资格。筛选过程中的任何分歧通过讨论达成共识，若无法达成，则由第三位评审员仲裁。

两位独立研究人员遵循预测模型研究系统综述的批判性评估和数据提取清单 (CHARMS) 提取纳入研究和模型的特征。第一部分关注纳入研究的详细特征，包括第一作者、发表年份、研究设计、入组时间、研究环境、研究区域以及纳入和排除标准。第二部分涉及提取预测模型的具体细节，包括建模方法、开发和验证队列的样本量、事件数、候选和最终预测因子的数量、预测因子选择方法、最终预测因子、预测结局、缺失数据处理、模型验证、模型呈现以及用于评估模型性能的方法。

两位独立研究人员使用预测模型偏倚风险评估工具 (PROBAST) 系统评估所有纳入研究的偏倚风险 (Risk of Bias, RoB) 和适用性。PROBAST工具包含20个信号问题，涵盖四个关键领域：参与者、预测因子、结局和分析。根据研究中报告的信息，每个信号问题的回答为“是”、“可能是”、“否”、“可能否”或“无信息”。根据PROBAST指南，每个领域的偏倚风险被判断为“低风险”、“高风险”或“不清楚”。只有当所有四个领域均被评为“低风险”时，研究的整体偏倚风险才被判断为“低”。

为综合模型的预测性能，我们使用Stata MP 18.0软件对合格研究进行了荟萃分析，以汇总验证队列中的Harrell一致性指数 (C-index)。考虑到研究间预期存在的方法学和临床异质性，我们使用随机效应模型和限制性最大似然法计算汇总C指数及其95%置信区间。使用Cochrane’s Q检验和I²统计量评估异质性。使用meta回归和亚组分析评估异质性来源。使用留一法进行敏感性分析。通过检查漏斗图的对称性并进行Egger回归检验来评估发表偏倚，P值<0.1被视为存在显著偏倚。

结果：现状、性能与局限

文献检索与特征

两位独立研究人员从五个数据库共检索到6,803篇文章。使用EndNote 21.0软件移除4,660篇重复记录后，根据纳入标准，通过筛选标题和摘要排除了2,035篇文章，剩下103篇进行全文审查。通过Google Scholar的引文检索，另外识别出192篇文章；经过评估，其中16篇被选中进行全文审查。最终，22项研究被纳入本综述。文献筛选流程的详细流程图如图1所示。

本系统综述最终纳入了22项研究，发表年份从2016年到2025年。从地域上看，研究主要集中在亚洲，其中21项来自中国，1项来自韩国。在研究设计方面，绝大多数是回顾性研究，包括10项单中心研究和10项多中心研究。此外，有1项研究使用了专业数据库，1项研究结合了前瞻性和回顾性队列。10项多中心研究的数据来源包括两家独立医院 (n=6)、三家独立医院 (n=3) 和四个独立医疗中心 (n=1)。所有纳入研究的详细特征总结在表1和补充表4中。

模型的基本特征与预测因子

纳入的22项研究最终共开发和验证了22个独立的预测模型。其中21个模型基于经典统计方法，包括Cox比例风险回归模型 (n=20) 和逻辑回归模型 (n=1)。只有1项研究使用机器学习 (Machine Learning, ML) 构建模型。在22个模型中，有9个预测复发率，其余13个模型的结局是无复发生存期 (Recurrence-Free Survival, RFS)。在后续分析中，模型而非研究被视作数据综合和统计分析的独立单位。每个模型的详细特征在补充表5中提供。

关于候选预测因子的选择方法，大多数模型 (n=19) 采用了经典的单变量分析 (单变量逻辑或Cox回归)。2个模型使用了Lasso回归，1个模型使用了极限梯度提升 (Extreme Gradient Boosting, XGBoost) 和随机生存森林 (Random Survival Forest, RSF)。对于最终预测因子的选择，13个模型采用了全模型法，其余9个模型使用了逐步选择法 (见图2a, b)。

模型验证、性能与呈现

在模型验证方面，所有22个预测模型都使用了三种类型的验证策略。8个模型 (8/22) 使用拆分样本验证 (n=4)、Bootstrap法 (n=3) 和交叉验证 (n=1) 等方法进行了内部验证。6个模型 (6/22) 进行了外部验证，包括地域验证 (n=3)、时间验证 (n=2) 和外部数据库验证 (n=1)。此外，其余8个模型结合了内部和外部验证，具体是拆分样本与地域验证相结合 (n=6) 以及Bootstrap法与地域验证相结合 (n=2) (见图2c–e)。

模型使用多维性能指标进行评估。区分度主要通过C指数 (n=15) 和AUC (n=16) 来评估。对于校准，16个模型通过校准曲线进行视觉评估，2个模型应用了Hosmer-Lemeshow检验。关于临床实用性，8项研究进行了决策曲线分析 (Decision Curve Analysis, DCA) (见图2f)。

在模型呈现方面，列线图是最常见的格式 (18/22)。值得注意的是，一项研究进一步将其列线图开发为在线计算器，以增强临床可及性。其他呈现格式包括风险评分公式 (1/22) 和评分系统 (3/22) (见图2g)。

关键预测因子与样本量

所有模型共使用了78个不同的预测因子。最常出现的预测因子是微血管侵犯 (Microvascular Invasion, MVI) (n=8)、甲胎蛋白 (Alpha-fetoprotein, AFP) (n=8)、肿瘤大小 (n=7)、肿瘤数量 (n=6)、HBV-DNA水平 (n=5)、天冬氨酸氨基转移酶 (n=4) 和巴塞罗那临床肝癌 (Barcelona Clinic Liver Cancer, BCLC) 分期 (n=3) (见图2h)。

本综述纳入的22个预测模型共涉及11,534名HBV-HCC患者。关于样本量报告，有4个模型仅报告了总体样本量，没有明确区分开发队列和验证队列。在其余18个明确区分报告的模型中，开发队列和验证队列的中位样本量 (最小值, 最大值) 分别为345.5 (86, 675) 和212.5 (38, 516)。在预测因子数量方面，候选预测因子的中位数 (最小值, 最大值) 为15 (5, 31)，而模型中包含的最终预测因子的中位数 (最小值, 最大值) 为4.5 (3, 8) (见图3)。

质量评估与偏倚风险

质量评估显示，所有研究普遍存在高偏倚风险，系统性源自分析领域。主要的偏倚来源包括使用完整病例分析处理缺失数据 (n=17) 和使用单变量筛选进行预测因子选择 (n=19)，这两者都损害了模型的稳定性。此外，连续变量的不当分类 (n=12) 和经常省略校准评估 (n=6) 进一步削弱了方法学的严谨性。有两项研究因亚组排除而存在选择偏倚。因此，这些模型的预测准确性很可能被高估，限制了其在当前临床实践中的可靠性 (见图4，补充图6)。

荟萃分析结果

对预测模型在验证队列中报告的区分度性能进行了荟萃分析。模型报告的C指数值范围从0.609到0.820。使用随机效应模型计算的汇总C指数值为0.73 (95% CI: 0.70-0.75)，表明区分度处于中等水平 (见图5)。异质性检验结果为I²= 88.94%。亚组分析显示预测结局是异质性的来源之一。进一步的meta回归表明样本量是异质性的显著来源。敏感性分析显示总效应值是稳健的。为评估潜在的发表偏倚，我们结合使用了Egger检验和漏斗图。结果未检测到C指数存在统计学上显著的发表偏倚或小样本效应。对称的漏斗图进一步支持了这一结论。

讨论：洞见与未来方向

模型性能与异质性

荟萃分析表明，纳入的验证队列汇总C指数为0.73 (95% CI: 0.70-0.75)，总体区分度处于中等水平。然而，观察到了显著的异质性，这反映了各研究间效应估计值的巨大差异。亚组分析和meta回归发现预测结局和样本量是影响异质性的关键因素。C指数在0.61至0.82之间的变化应谨慎解释。这种异质性可能并不完全反映特定建模策略的优越性，而更可能反映了验证队列中疾病严重程度的差异。在疾病分期范围较广的队列中，模型更容易区分复发与不复发的患者，从而导致人为更高的C指数值。相反，在更同质的队列中，区分更具挑战性，无论模型的内在质量如何，通常会产生较低的性能指标。

方法学局限与改进建议

PROBAST评估揭示了一个鲜明的对比：虽然参与者领域通常偏倚风险较低，但分析领域却普遍存在高风险。这种差异突显了一个关键见解：当前肿瘤预测研究的主要瓶颈并非缺乏高质量的临床队列，而是统计素养和方法学严谨性的局限。因此，宝贵的临床数据常常因次优的分析处理而受损，例如缺失数据和连续变量的不当处理。未来的进展更依赖于促进临床医生和方法学家之间更紧密的合作，以确保适当的统计处理。

通过整合建模研究中的偏倚风险因素，我们的批判性评估发现了以下系统性问题：

1.
预测因子评估标准化不足：相当一部分多中心研究没有明确说明不同中心间预测因子的测量和评估方法与标准。这使得标准化和比较不同环境下结果的可靠性变得困难。严格标准化和定义预测因子的评估标准至关重要。
2.
缺失数据处理不当：大多数研究 (17/22) 使用完整病例分析法处理缺失数据。然而，对于以RFS为结局的预测模型，完整病例分析会显著减少样本量。这种方法导致模型开发过程中大量信息丢失。在此类人工选择的子样本集上构建预测模型极有可能给结果带来偏倚。对于处理缺失数据，研究人员应考虑使用插补法。
3.
样本量不足：只有四个模型满足了事件数与变量数比值大于20以及验证集样本量超过100的稳健标准。样本量不足，特别是结局事件数相对于预测因子数量过低，是模型过拟合和性能估计过于乐观的根本原因。
4.
预测因子选择方法过时：在将候选预测因子纳入多变量分析建模之前，大多数研究 (19/22) 仍然依赖单变量分析进行预测因子选择。当事件数相对于预测因子数量较少时，标准回归可能会产生预测不准确的过拟合模型。使用惩罚回归可以提高风险预测的准确性。
5.
验证策略不足且非标准化：尽管所有模型都报告了验证过程，但这些验证的严谨性和质量参差不齐。许多研究采用了拆分样本验证，但这不是一种可靠的内部验证方法，Bootstrap法应是首选方法。虽然14项研究声称进行了外部验证，但大多数是在同一地理区域内进行跨时间或跨机构验证，仅仅测试了可重复性。基于异质性人群的真正独立的外部验证仍然很少，模型的普适性未得到可靠评估。
6.
模型性能指标报告不完整：评估风险预测模型需要一套全面的指标。区分度和校准的评估应被视为基本要求。如果模型旨在支持临床决策，则还必须报告决策分析指标。然而，纳入的研究主要侧重于报告模型的区分度，使用C指数 (n=15) 或AUC (n=16)。但近三分之一 (6/22) 的研究完全省略了对模型校准的评估。如果模型的预测概率与实际的观察结果显著偏离，其临床应用不仅无益，甚至可能产生误导。虽然区分度区分了有结局和无结局的患者，但校准能确保预测概率准确反映观察到的风险。这种区别在临床上至关重要，因为一个区分度好但校准差的模型在实践中可能是危险的。同样，决策曲线分析仅在少数研究中报告 (n=8)，反映了当前模型评估实践的片面性。

预测因子的生物学意义

本综述纳入的22个模型包含了78个不同的预测因子。其中，MVI、肿瘤大小、肿瘤数量、AFP水平和HBV-DNA载量是五个最常用的变量。为了阐明其生物学相关性，我们将最常识别的预测因子归类为三个生物学领域：肿瘤生物学、肝病活动和宿主免疫。

与肿瘤生物学相关的预测因子主要反映肿瘤侵袭性和隐匿转移的潜力，是早期复发的主要驱动因素。MVI是侵袭潜能的直接组织学标志。更高级别的MVI与门静脉循环中播散的肿瘤细胞的存在密切相关，这些细胞是早期肝内转移的种子。AFP水平升高表明肿瘤分化较差、增殖增加、侵袭性更强，复发风险更高。同样，高肿瘤负荷表明活跃的增殖以及对微转移和多中心起源的易感性，导致复发风险显著升高。

肝病活动反映了致癌肝脏背景的“场效应”，这与晚期复发密切相关。HBV-DNA载量和炎症标志物表明活跃的病毒复制和慢性肝脏坏死性炎症。高病毒载量创造了一个促炎微环境，在通过细胞毒性T淋巴细胞耗竭营造免疫抑制生态位的同时，促进了de novo致癌。这种区别解释了为什么权重在肿瘤因素上的模型对晚期复发的预测准确性可能降低，因为它们未能捕捉到底层肝病驱动的de novo致癌风险。

宿主免疫代表了免疫监视和肿瘤免疫逃逸之间的动态相互作用。虽然目前很少有模型明确纳入免疫标志物，但一些研究中全身炎症指数和抗原载量的预测价值凸显了免疫微环境的关键作用。其核心是肝脏独特的抗原加工和呈递机制，涉及库普弗细胞和肝窦内皮细胞，维持免疫耐受和激活之间的平衡。在HBV-HCC中，慢性感染破坏了这些通路，创造了一个免疫逃避的环境，促进了微转移灶的存活。由于传统的形态学预测因子无法捕捉这些复杂的生物学维度，当前模型的中等性能不足为奇。因此，整合抗原呈递活性的标志物来表征肝脏“土壤”可能克服当前的预测瓶颈。

术前与术后模型的区分

必须根据预测因子的获取时机，明确区分术前决策模型和术后预后模型。正如我们的结果所强调的，MVI是最强大的复发预测因子之一；然而，其对术后病理学的依赖限制了其在术前手术规划中的效用。我们在纳入的研究中确定了四个不同的术前决策模型。例如，一项研究构建了“5-8评分”以完善肝移植候选者的选择。他们的模型规定了一个分层管理策略。另一项研究挑战了中期癌症手术的常规禁忌症。他们的DFT评分识别出特定的BCLC B/C亚组患者，低分患者仍能从“积极肝切除术”中获益，而高分患者则建议先进行TACE或肝动脉灌注以使肿瘤降期。值得注意的是，他们提倡术前活检以获得组织学分化，从而将这一病理学预测因子推进到术前决策阶段。类似地，一项研究关注肝脏的“土壤”。通过整合无创肝硬化严重程度评分，他们的列线图允许外科医生在术前权衡肿瘤复发风险与背景肝病的严重程度，帮助在切除范围和肝脏储备保存之间取得微妙平衡。未来的研究应明确界定目标临床窗口，以最大限度地提高临床适用性。

结论与展望

虽然当前针对HBV-HCC的复发预测模型显示出可接受的区分度 (汇总C指数: 0.73)，但其临床实用性因广泛存在的方法学缺陷而受到严重损害，特别是预测因子选择不当和缺失数据处理不当。大多数模型很可能存在过拟合问题，并且缺乏严格的外部验证。鉴于这些局限性，当前模型应被视为探索性工具，而非改变临床实践的仪器。此外，对静态肿瘤负荷标志物的依赖未能捕捉到由肝脏免疫微环境驱动的晚期复发的动态风险。因此，仅使用标准回归开发更多回顾性模型的价值正在递减。未来的研究必须优先考虑方法学的严谨性，整合动态预测工具，并纳入新的生物标志物，以真正弥合统计学意义与临床实施之间的差距。

热点排行

新闻专题