编辑推荐:
本研究开发了Celcomen模型,旨在解决如何从空间转录组学数据中解耦细胞内与细胞间的基因调控网络,并对组织扰动进行建模的挑战。该研究通过数学因果框架与生成式图神经网络,实现了对实验难以触及样本的虚拟组织扰动模拟与反事实预测。研究成果在人胶质母细胞瘤、人胎儿脾脏及小鼠肺癌样本中得到验证,为理解疾病与治疗诱导的组织空间响应提供了新工具。
在生命科学的前沿,科学家们正致力于绘制组织在健康和疾病状态下的精细“地图”。空间转录组学(Spatial Transcriptomics)技术的出现,使得我们能够同时获取组织中成千上万个基因的表达信息及其精确的空间位置,犹如为生物组织拍摄了一张高分辨率的“分子照片”。然而,这张照片虽然清晰,却难以揭示其动态变化的“因果”机制。具体而言,在复杂的组织微环境中,细胞的基因表达受到两方面调控:一是细胞自身内部的基因调控程序(细胞内调控),二是来自邻近或其他细胞通过信号传递施加的影响(细胞间调控)。这两种效应在观测数据中高度混杂,传统方法难以区分。更重要的是,当组织受到疾病侵袭或药物治疗等“扰动”时,我们迫切希望预测其后续的分子变化,但许多关键的、极端条件下的样本在伦理或技术上难以通过实验直接获取。这就提出了一个核心科学问题:能否从静态的空间转录组学数据中,解析出驱动细胞行为的因果调控网络,并据此预测组织在受到虚拟干预后的状态?
为了回答这一系列问题,一项名为Celcomen的研究应运而生,并发表于《Nature Communications》。这项研究旨在构建一个“虚拟组织”的扰动模型。研究人员开发了Celcomen模型,其核心是运用数学因果框架,通过一个生成式图神经网络(Generative Graph Neural Network),从空间转录组学数据中解耦(disentangle)细胞内与细胞间的基因调控程序。简单来说,该模型试图从一张静态的分子空间“合照”中,分离出每个细胞的“自拍”(内在特性)和“合影”时来自他人的影响(外在作用)。这使得模型能够生成“反事实”的空间转录组学数据,即预测如果对组织施加某种特定干预(如敲低某个基因、施加某种药物),其分子图谱将会如何变化,从而为研究者提供了接触那些实验上无法获取的样本的窗口。
在技术方法上,该研究主要利用了数学因果推断框架构建模型,并采用生成式图神经网络进行实现与训练。模型的验证与分析基于模拟数据以及来自人、鼠的真实空间转录组样本,包括临床相关的人胶质母细胞瘤(Glioblastoma)、人胎儿脾脏和小鼠肺癌样本。
Celcomen实现了空间因果结构的可识别性
通过精心设计的模拟实验,研究证实Celcomen能够从观测数据中准确识别出数据生成过程中预设的因果结构。这证明了该框架在理论上的有效性,为其在真实生物数据中的应用奠定了基础。
模型能够解耦细胞内与细胞间的调控程序
在真实组织样本中的应用显示,Celcomen成功地将基因表达变异分解为细胞内组件和细胞间通讯组件。例如,在胶质母细胞瘤样本中,模型识别出了由特定癌细胞内在程序驱动的基因模块,以及由肿瘤微环境中免疫细胞与癌细胞相互作用所调控的基因模块。这种解耦有助于更精确地理解不同生物学过程对组织状态的贡献。
Celcomen能够生成可信的反事实预测
研究的关键应用在于其预测能力。通过“干预”模型中的特定变量(如模拟敲除一个基因或改变细胞间相互作用强度),Celcomen能够生成对应的、干预后的空间转录组学图谱。研究人员通过多种方式验证了这些预测的合理性,包括与已知生物学知识的一致性,以及在部分可验证的实验设置中的表现。这标志着向构建可进行虚拟实验的“虚拟组织”迈出了重要一步。
模型揭示了疾病相关的空间调控机制
在胶质母细胞瘤等疾病样本的分析中,Celcomen不仅解耦了调控程序,还进一步预测了特定治疗干预(如针对某些信号通路)可能产生的影响。这为理解肿瘤异质性和耐药性,以及探索联合治疗策略提供了新的计算视角。
结论与意义
Celcomen研究提出并验证了一个用于空间转录组学数据因果分析与扰动建模的创新计算框架。其主要结论在于,通过结合因果推理与深度学习,能够从静态空间组学数据中识别可解释的因果结构,成功解耦细胞内与细胞间的基因调控效应,并实现对未来干预下组织状态的预测。这项工作的意义深远。首先,在方法论上,它将因果发现与生成式建模引入空间生物学,为解决观测数据中的混杂问题提供了新思路。其次,在应用层面,其生成的“反事实”样本能够模拟真实实验中难以实施或伦理不允许的扰动场景,加速假说生成与实验设计。最终,该框架有助于在系统层面建模疾病进展和治疗响应,为精准医学中理解组织水平的空间异质性响应开辟了新途径,是通往构建真正可模拟、可预测的“虚拟器官”或“虚拟组织”的关键一步。