LazySlide:打通全切片病理图像分析与多组学整合的可及性桥梁

《Nature Methods》:LazySlide: accessible and interoperable whole-slide image analysis

【字体: 时间:2026年03月21日 来源:Nature Methods 32.1

编辑推荐:

  这篇研究针对计算病理学中全切片图像(WSI)分析与现代多模态、单细胞组学工作流分离的瓶颈,开发了开源框架LazySlide。它通过结合视觉-语言基础模型与scverse生态,实现了从预处理、量化到多模态查询、零样本分类的高效分析,并能与转录组学等数据进行整合,从而显著降低了技术门槛,提升了组织病理学在基础研究与临床诊断中的可及性与可解释性。

在生物医学研究和临床诊断领域,组织病理学是探究疾病本质的基石。随着数字病理学的进步,海量的高分辨率全切片图像(WSI)被保存下来,为在组织层面理解人类健康与疾病提供了前所未有的机会。然而,对WSI进行计算分析仍然充满挑战。一方面,现有的大量工具(如QuPath、CLAM、TIAToolbox等)往往存在数据结构碎片化、平台依赖性强、技术门槛高等问题;另一方面,这些工具与现代生物学中日益标准化的多模态、单细胞组学工作流程之间存在鸿沟,使得宝贵的病理学数据与基因组、转录组等其他维度的数据难以有效整合与分析。这极大地阻碍了科研人员从多维度、多模态数据中挖掘生物学新见解的能力。为了解决这些问题,研究人员在《自然-方法》(Nature Methods)上发表了一项研究,介绍了他们开发的LazySlide框架,旨在为全切片图像分析建立一座可访问、可互操作的桥梁。
为了开展这项研究,团队构建了LazySlide,这是一个构建在广泛使用的scverse生态系统之上的开源Python框架。其核心创新是引入了WSIData数据结构,它继承自SpatialData,但针对WSI的多样格式和大规模特性进行了优化,能够高效、直接地读取标准WSI格式,而无需进行可能导致5-10倍磁盘开销的数据序列化。LazySlide整合了先进的基础模型,实现了一整套从组织分割、分块、特征提取、可视化到多组学整合的分析流程,并支持零样本学习、自然语言查询等高级功能。在方法学上,研究主要应用了以下几个关键技术:1. 基于WSIData数据结构的图像高效存取与管理;2. 利用OpenCV或深度学习模型(如GrandQC)进行组织分割;3. 通过预训练视觉模型(包括通用模型如ResNet和病理学专用基础模型如UNI2、TITAN等)进行特征提取;4. 使用PLIP、CONCH等视觉-语言模型实现自然语言查询;5. 通过Leiden算法进行无监督空间域检测;6. 利用RNALinker类整合匹配的转录组测序(RNA-seq)数据;7. 应用Segment Anything Model 2 (SAM2)等技术进行零样本分割。研究使用了来自GTEx项目的人体动脉切片等数据集进行功能验证和性能评估。
研究结果
LazySlide框架概览
LazySlide通过其WSIData结构,支持对全切片图像进行高效预处理,量化细胞、形态和组织微解剖特征,并与深度学习框架进行多模态整合。其框架遵循scverse中AnnData、Scanpy和Squidpy等工具熟悉的API(应用程序编程接口)惯例,显著降低了计算病理学家和基因组学研究人员的入门门槛。
应用展示与基准测试
研究通过三个代表性应用展示了LazySlide将WSI数据与其他模态结合的能力。首先,在零样本视觉-语言查询中,利用来自GTEx项目的人体动脉(包括健康和钙化组织)切片,仅用几行代码即可计算文本到图像的相似性图谱。与“钙化”相关的术语在钙化样本中显示出更高的富集度,而解剖学术语在健康组织中占主导。基于此计算的“钙化评分”能显著区分健康与钙化组织。其次,在多模态整合方面,研究将WSI衍生的特征与匹配的RNA-seq(RNA测序)数据进行整合。分析显示,图像特征在UMAP(Uniform Manifold Approximation and Projection,均匀流形逼近与投影)空间中比单独的RNA-seq数据更能清晰地区分健康组和钙化组。通过MOFA(multi-omics factor analysis,多组学因子分析)进行的整合也捕捉到了这一模式。与仅使用RNA数据相比,WSI与RNA的联合分析能识别出更多与钙化相关的关键通路,如IL-18信号通路。最后,在零样本器官分类中,LazySlide利用视觉-语言模型,仅用一行代码就正确识别了来自九个不同人体器官的大部分WSI来源,并在动脉钙化数据集上也取得了高分类性能,展示了其无需特定训练即可提取有价值见解的能力。
在可用性和性能基准测试中,LazySlide在标准预处理流程(组织分割、分块、为PyTorch准备分块数据集、特征提取)上所需的代码行数、令牌数更少,API更简洁。在分类任务中,除了未在组织图像上训练的ResNet50外,LazySlide使用其他视觉模型(如h0-mini、UNI2、TITAN)提取的特征,其分类性能 consistently outperforms(持续优于)QuPath。此外,LazySlide的组织分割速度也显著快于QuPath的自动或手动工作流程。
结论与意义
总而言之,LazySlide代表了人工智能赋能的组织病理学和组织生物学领域的重大进步。它通过一个模块化、用户友好且开源的框架,在计算病理学与多模态组学之间架起了桥梁。该框架严格采用Zarr格式以最大化互操作性,并通过支持多种后端(如OpenSlide, tiffslide)确保与广泛的图像格式兼容。尽管其分布式文件结构在某些计算环境中可能受限,但其优势是显而易见的。LazySlide支持多种基础模型,并确保与scverse生态系统的无缝互操作,实现了对WSI的整合性、可扩展性和可解释性分析。它赋能计算病理学家和基因组学研究人员,帮助他们从组织生物学和疾病中发现新见解,加速了数据驱动的、具有临床意义模型的发展。这项研究为解决病理学数据孤岛问题、推动多模态整合分析提供了强大而高效的工具,有望深刻改变生物医学研究的实践方式。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号