《Molecular & Cellular Proteomics》:mosna reveals different types of cellular interactions predictive of response to immunotherapies and survival in cancer
编辑推荐:
本文推荐介绍研究人员开发了一个名为mosna的Python软件包,该工具旨在解决整合分析复杂的空间组学数据与临床信息的技术挑战。通过构建空间网络并提取从细胞比例到复杂互作及生态位等多层次特征,并将其与临床结局(如免疫疗法响应、生存)关联建模,该研究在多个癌症数据集(如CTCL、乳腺癌、肝癌)中成功识别出具有预测价值的空间组织模式,证明了超越单纯细胞丰度的空间特征在肿瘤微环境研究和精准医疗中的重要意义。
在生物学和医学研究中,理解细胞在组织中的空间排布及其相互作用,对于揭示器官发育、功能以及疾病(尤其是癌症)进展机制至关重要。单细胞RNA测序等技术虽然揭示了细胞类型的多样性,但组织解离步骤却丢失了宝贵的空间位置信息。近年来,空间分辨组学技术(spatially resolved omics)的兴起,使得在保留样本空间完整性的同时,定量成百上千的蛋白质或转录本成为可能,为研究细胞的空间组织模式开辟了新道路。然而,面对这些技术产生的高度复杂数据集,如何有效地进行分析,特别是如何将其与临床数据(如患者对治疗的反应、生存期)进行整合,从而提取具有生物学或临床意义的信息,仍然是一个巨大的挑战。现有的方法往往功能单一或整合流程繁琐,缺乏一个能够系统地从简单到复杂特征逐步分析、并能直接关联临床结局的综合性工具。
为了解决这一难题,由Alexis Coullomb等人组成的研究团队在《Molecular ...》(注:文档中期刊全称未完整显示,推测为《Molecular ...》期刊)上发表论文,介绍了他们开发的“多组学空间网络分析”(Multi-Omics Spatial Networks Analysis, mosna)Python软件包。该工具提供了一个完整的分析流程,能够处理任何类型的空间组学数据,通过构建空间网络、计算从细胞比例到细胞间优先互作(通过混合矩阵和分选性系数衡量)再到局部细胞生态位(通过邻域聚合统计等方法定义)等一系列日益复杂的特征,并将这些特征与临床数据(如二元响应状态或生存数据)相结合,训练机器学习模型(如逻辑回归、Cox比例风险模型),以识别对临床结局最具预测力的空间变量。研究团队在多个真实数据集上验证了mosna的有效性。
为开展此项研究,作者主要应用了以下几项关键技术方法:首先,利用tysserand库从空间坐标重建高精度的空间网络(节点代表细胞或检测点)。其次,计算了网络分选性系数和混合矩阵来量化细胞类型间的全局互作偏好。第三,开发并应用了“邻域聚合统计”(Neighbors Aggregation Statistics, NAS)方法,通过聚合细胞及其邻域的属性(如平均值、标准差)来定义和发现局部细胞生态位。最后,使用弹性网络惩罚的逻辑回归模型和Cox比例风险模型,对提取的空间特征进行机器学习建模,以预测患者对免疫治疗的响应或生存结局。分析所用的数据集包括来自Phillips等人的皮肤T细胞淋巴瘤(CTCL)CODEX空间蛋白质组数据(含患者免疫治疗响应信息)、Danenberg等人的乳腺癌成像质谱流式(IMC)数据(含生存数据)、Maynard等人的人脑10x Visium空间转录组数据(用于生态位发现方法评估)以及Magen等人的肝细胞癌(HCC)MERFISH空间转录组数据(含免疫治疗响应信息)。
研究结果
2.6. 细胞空间组织模式可预测对免疫疗法的响应
研究人员首先将mosna应用于皮肤T细胞淋巴瘤(CTCL)的CODEX空间蛋白质组数据集。他们发现,仅使用细胞类型比例无法有效区分响应者与非响应者,预测模型的性能等同于随机分类。即使考虑细胞类型比例之间的比值,预测能力依然不佳。然而,当计算细胞类型间的优先互作(通过z-score标准化后的混合矩阵系数衡量)时,发现了五对在两组间存在显著差异的互作关系。基于这些空间互作特征训练的模型取得了高预测性能(ROC AUC = 0.83)。进一步使用NAS方法定义细胞生态位后,将生态位比例与互作特征结合,模型的预测性能达到近乎完美(ROC AUC = 1.0)。深入分析发现,虽然某些由上皮细胞构成的“纯净”生态位在组成上相似,但通过NAS变量进行差异分析,揭示了它们在微环境标记物(如PD-L1、β-连环蛋白)表达水平和异质性上的不同,这些空间微环境的差异与治疗响应相关。
2.7. 对乳腺癌空间蛋白质组学的mosna分析揭示了与生存相关的因素
在包含693个乳腺癌样本的成像质谱流式(IMC)数据集中,研究团队遵循相同的分析流程。仅使用细胞比例训练的CoxPH模型一致性指数为0.64,其中巨噬细胞和CD4+T细胞与不良生存相关,而FSP1+成纤维细胞与较长生存期相关。加入细胞类型间优先互作特征后,模型性能提升(一致性指数0.75),识别出8个与生存显著相关的互作。例如,FSP1+成纤维细胞与CK8-18hiCXCL12hi细胞之间的互作与更长生存期相关,而肌成纤维细胞的自互作及其与巨噬细胞的互作则与更差的预后相关。通过NAS方法发现生态位后,最佳模型(一致性指数0.76)识别出生态位9(主要由CKmedERlo细胞组成)是预测死亡的最显著变量之一,表明ER低表达肿瘤细胞形成特定空间聚集模式与不良预后强烈相关。
2.8. NAS方法从测序型空间转录组学数据中再现了人脑结构
为了评估NAS方法在发现生态位方面的性能,研究团队在Maynard等人提供的人背外侧前额叶皮层(DLPFC)10x Visium数据集上进行了测试,该数据集已由原作者手工标注了6个皮质层和白质区域作为金标准。结果显示,mosna中的NAS方法所定义的生态位能够很好地再现手工标注的脑层结构,其调整兰德指数(Adjusted Rand Index, ARI)和调整互信息(Adjusted Mutual Information, AMI)均值均优于对比方法CellCharter,在与近期一项基准测试中包含的19种生态位发现方法比较中也显示出优越性能。
2.9. 将mosna应用于MERFISH数据集显示肝细胞癌TME中的空间模式可预测免疫疗法响应
在处理Magen等人的肝细胞癌(HCC)MERFISH数据时,研究人员首先根据转录谱定义了6种细胞类型。同样,细胞类型比例本身无法预测治疗响应。但加入细胞类型间的优先互作特征后,逻辑回归模型仅错误分类了2个样本。进一步加入NAS方法定义的生态位组成特征,模型性能得到进一步提升,仅错误分类1个样本。这再次证明,细胞的空间组织模式而非其单纯丰度,是预测免疫治疗响应的关键。
2.10. 探究数据集空间分辨率对预测性能的影响
为了评估空间分辨率对分析的影响,研究团队对MERFISH数据进行了降采样,模拟低分辨率情况。结果发现,当将细胞聚合成50微米大小的六边形“元细胞”时,预测性能已出现显著下降。这表明,虽然单细胞分辨率能捕捉更精细的空间模式,但在较大尺度上定义的组织区域特征也可能具有预测价值,反映了组织结构的跨尺度特性。
研究结论与讨论
本研究提出的mosna工具包,为整合分析空间组学数据与临床信息提供了一个强大且用户友好的综合框架。它通过一个理性的分析流程,引导用户从最简单的细胞比例特征入手,逐步深入到更复杂的细胞间全局互作模式和局部生态位特征,并最终通过机器学习模型评估这些特征对临床结局的预测能力。研究通过对多个不同技术平台(CODEX、IMC、10x Visium、MERFISH)生成的数据集进行分析,实证了在多种癌症类型中,细胞的空间组织模式(如特定细胞类型间的优先互作、特定的局部细胞生态位)是预测患者对免疫治疗响应和生存结局的关键因素,其预测能力往往超越了传统的细胞类型丰度分析。
mosna的创新之处在于其全面的分析能力:它兼容各类空间组学技术;利用tysserand构建精准的空间网络;实现了对非互斥属性(如多种标记物共阳性)的互作分析;提供了灵活的NAS生态位发现方法,其性能经基准测试验证处于领先水平;并集成了与临床数据直接关联的机器学习建模流程。该工具不仅有助于发现新的生物标志物和可靶向的生物学通路,为开发新疗法提供指导,也为利用日益丰富的空间组学数据进行更有效的患者分层和迈向个性化医疗提供了宝贵的分析手段。未来,mosna计划集成更多机器学习模型并深化与现有生态位分析工具的互操作性,以进一步拓展其在生物医学研究中的应用前景。