增强肝脏纤维化定量评估：基于深度学习的多中心队列研究及不确定性分析

《Journal of Pathology Informatics》：Enhancing liver fibrosis measurement: Deep learning and uncertainty analysis across multi-center cohorts

【字体：大中小】 时间：2026年03月21日 来源：Journal of Pathology Informatics CS6.3

编辑推荐：

　　本研究针对多中心肝脏活检中PicroSirius Red染色异质性导致的胶原面积比例(CPA)定量结果可比性问题，利用来自4个独立队列、超过20个临床中心的686份样本，开发了一个结合U-Net集成模型与不确定性评估的深度学习框架。该框架不仅能实现高精度胶原分割(Dice 0.83-0.90)，还能生成信息丰富的不确定性图谱，直接识别伪影和分布外区域。研究证实，基于集成的不确定性评估可补充染色标准化工作，通过量化模型输出的预测置信度，显著提升多中心数据集胶原面积测量的可靠性与可解释性，为数字病理纤维化评估提供了更可信、可复现的工作流程。

在临床研究和药物开发的战场上，肝脏纤维化（Liver fibrosis）是一个关键但棘手的对手。它并非一个独立的疾病，而是各种慢性肝病（如代谢相关脂肪性肝病MAFLD、酒精性肝病、自身免疫性肝炎AIH）发展过程中共同的病理学终点，其特征是胶原蛋白在肝脏中过量沉积。准确评估纤维化的程度，对于判断病情、预测预后乃至验证新药疗效都至关重要。传统的“金标准”是肝穿刺活检，但病理医师在显微镜下用肉眼对纤维化进行分级（如Metavir、Ishak系统）存在明显的主观性，评估者之间和评估者自身都可能存在显著差异。

为了更客观、定量地评估纤维化，研究人员引入了胶原面积比例（Collagen proportionate area, CPA）这一指标，即全切片图像（Whole-slide image, WSI）中胶原面积占总组织面积的比例。CPA已被提议作为肝脏疾病的临床试验终点，并与长期预后相关。然而，理想丰满，现实骨感。当研究人员试图开展大规模、多中心的研究，汇聚来自不同医院的病理切片进行分析时，一个巨大的挑战横亘在面前：染色异质性。正如上图所示，即使是用于特异性标记胶原的PicroSirius Red（PSR）染色，由于各医院实验室使用的染色方案、试剂批次、切片厚度、扫描仪器乃至切片保存时间的不同，最终产生的数字切片在颜色、对比度上可能千差万别。这种“五彩斑斓的红”使得基于固定颜色阈值或简单图像分析的自动化胶原定量方法举步维艰，结果在不同中心间缺乏可比性，严重阻碍了CPA作为可靠生物标志物的应用。

那么，在无法统一全球所有病理科染色流程的现实下，我们能否开发一种智能的方法，让计算机模型不仅能“看见”并分割出胶原，还能“自知”其判断的可靠程度，从而在多中心、多样化的数据海洋中，依然能提供可信、可解释的定量结果？这正是由Marta Wojciechowska、Stefano Malacrino、Dylan Windell、Emma L. Culver、Jessica K. Dyson和Jens Rittscher组成的研究团队试图回答的问题。他们的研究成果发表在《Journal of Pathology Informatics》上，题为“增强肝脏纤维化测量：跨多中心队列的深度学习与不确定性分析”。

为了攻克这一难题，研究人员巧妙地组合应用了多种计算病理学（Computational Pathology）和深度学习（Deep Learning）技术。首先，他们汇集了来自四个独立前瞻性或回顾性队列（CALM, HepaT1ca, PREV, UK-AIH）总计686份PSR染色肝活检数字切片，这些样本来自超过20个临床中心，涵盖了混合病因、肝癌、MAFLD和AIH等多种肝病，确保了数据的多样性和代表性。面对巨大的染色差异，研究团队没有急于进行复杂的染色标准化（Stain Normalization），而是先采用颜色空间分析对异质性进行量化表征，例如通过染色反卷积（Stain Deconvolution）和“切片主色”分析，直观且定量地展示了各队列间及队列内部（特别是回顾性的UK-AIH队列）的显著颜色差异。

研究的核心是开发一个基于深度学习的胶原分割与不确定性评估框架。他们选择了经典的U-Net架构，并训练了三种不同规模的变体（U-Net Tiny, U-Net Mini, Attention U-Net）。关键的创新在于采用了深度集成（Deep Ensemble）策略，即为每个训练配置（包括各独立队列和合并队列）训练10个具有不同随机初始化的相同模型。在预测时，集成模型对每个像素输出一个平均预测概率图。更重要的是，他们利用Kwon等人提出的方法，基于这10个模型预测的方差，将总预测不确定性分解为偶然不确定性（Aleatoric Uncertainty） 和认知不确定性（Epistemic Uncertainty）。偶然不确定性捕捉数据固有的噪声（如胶原边界模糊），而认知不确定性反映模型自身因知识不足产生的不确定（如遇到训练中未见的染色或伪影）。通过计算每个像素的这两种不确定性，可以生成对应的“不确定性图谱”。

研究结果

1. 集成模型在多样本上实现了稳健的胶原分割

在由CALM、PREV和UK-AIH队列组成的训练集上，表现最佳的U-Net Mini集成模型在各自的内部验证集上取得了优异的Dice分数（0.852至0.905）。即使在合并了所有三个队列的更具挑战性的“合并队列”上训练后，模型在内部验证集上仍保持了稳健的性能（Dice 0.795-0.864）。这证明了集成模型能够学习跨越不同染色方案的胶原特征。然而，当模型面对完全未见过的HepaT1ca外部验证队列时，性能出现显著下降（Dice 0.555-0.594），这凸显了即使在多样化的训练集下，模型对具有独特染色特征的新数据泛化能力仍存在极限，也强调了外部验证的必要性。

2. 不确定性图谱有效识别不可靠预测区域

研究生成的不确定性图谱被证明具有高度的信息性。如下图所示，偶然不确定性主要集中于胶原纤维的边界区域，这与“部分容积效应”导致的固有模糊性相符。而认知不确定性则像一个“异常探测器”，在图像中出现训练数据中未充分代表的区域时（如气泡伪影、特殊染色模式）会显著升高。例如，在含有气泡的切片区域，认知不确定性图谱清晰地高亮了该区域，表明集成模型内部的预测在此处存在高度分歧，从而向使用者发出了“此区域预测不可靠”的警示。

3. 不确定性量化提供可靠性的实用阈值

对不确定性值的统计分析为实际应用提供了参考。研究发现，在合并队列上训练的U-Net Mini模型，其认知不确定性值通常低于0.002。因此，显著高于此值的认知不确定性可以作为标记不可靠预测区域的实用标准。相比之下，偶然不确定性与图像中胶原的面积高度相关，更适于理解测量固有的模糊性，而非作为剔除标准。

4. 预测图比二值分割图更具信息量

研究还发现，集成模型输出的平均胶原预测概率图与通过阈值化得到的二值分割图高度相关。这些连续的预测图保留了胶原纤维不同厚度的强度梯度信息，视觉上更接近原始图像，甚至类似于更先进的二次谐波/双光子激发荧光显微镜产生的胶原密度图。这提示，向病理学家展示此类“理想化的”胶原概率图，可能比简单的黑白分割图更具生物学意义和实用价值。

结论与讨论

本研究成功证明，在真实世界多中心肝脏活检数据存在显著染色异质性的挑战下，结合深度集成模型与不确定性估计的框架，能够提供高精度的胶原定量和具有高解释性的预测置信度评估。该方法的核心价值在于其可解释性和可靠性的提升：不确定性图谱并非取代传统的质量控制（如HistoQC），而是作为一种补充工具，直接从模型内部提供预测可信度的空间地图。它使得研究人员和病理学家能够一目了然地识别出哪些区域的测量结果是可靠的，哪些区域因伪影、罕见染色或模型认知不足而需要谨慎对待或进行人工复核。

这项工作的重要意义在于，它为实现可信、可复现的计算病理学工作流迈出了关键一步。在无法完全统一前处理流程的多中心研究中，与其追求难以完美实现的染色标准化，不如让模型学会“诚实”地报告其判断的把握。这种“自知之明”使得自动化CPA测量结果更具参考价值，有助于在不同研究中心的数据间进行更有意义的比较和整合。尽管研究也揭示了模型在面对极端分布外数据时泛化能力的局限性，但这恰恰说明了不确定性评估的重要性——它能明确标示出这些局限所在。

未来，将这种不确定性评估框架与更先进的域适应（Domain Adaptation）技术、大规模预训练的基础模型（Foundation Model）结合，有望进一步突破泛化瓶颈。总之，这项研究为肝脏纤维化乃至更广泛的数字病理定量分析提供了一种新范式：在追求更高准确性的同时，让算法具备评估并传达自身置信度的能力，是推动人工智能在临床和科研中更负责任、更深度应用的关键。

热点排行