
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生命科学学院陈迪俊团队开发一种基于可解释基因程序的单细胞与空间组学数据整合和注释通用分析框架
【字体: 大 中 小 】 时间:2026年01月17日 来源:南京大学生命科学学院
编辑推荐:
以上研究成果近期在《Cell Genomics》(中文名《细胞基因组学》) 国际杂志 上发表
如果玩过拼图,你一定知道最痛苦的事情莫过于:
1. 你有几万块精美的小碎片,却弄丢了盒盖上的原图,不知道每一块该放在哪(单细胞测序数据的困境);
2. 你有一张模糊的原图,虽然知道大概轮廓,却看不清细微的纹理(空间组学数据的困境)。
这就是目前生物医学研究中最前沿、也最头疼的“数据鸿沟”——在生物大数据的汪洋中,我们拥有了最精密的“零件图纸”(单细胞数据)和最壮丽的“组织版图”(空间组学),但如何把单细胞的“高精度”和空间组学的“位置感”完美缝合?
南京大学生命科学学院陈迪俊团队把这场复杂的科研任务变成了一场智能拼图游戏,开发了一款称为SSpMosaic的新神器,采用一种叫“基因模块”的逻辑,打破了数据间的壁垒。

一、困局:散落在地的碎片,与看不清的“组织地图”
在生命科学领域,我们现在面临两套互补但“互不说话”的数据:
单细胞多组学:就像是把组织“绞碎”了看,能精准读出每一个细胞的“职业”(功能)。虽然数据很细,但由于组织被绞碎了,我们失去了它们原有的空间位置。
空间组学:就像是一张航拍地图。它保留了位置,但分辨率往往不够,一个采样点可能挤着好几个细胞,让我们分不清到底是谁在执行功能。
长期以来,这两套数据的集成主要依赖复杂的数学算法(如主成分分析或深度学习)来消除技术产生的“批次效应”。虽然效果显著,但这些方法往往像一个冷冰冰的“黑盒”:数据虽然被强行对齐了,研究者却很难解释对齐背后的生物学逻辑,更看不见基因之间的协同作用。
直观地理解,传统的整合方法就像是在用“蛮力”玩拼图:它强行比对每一个碎片的“边缘锯齿”(即每一个基因的表达数值)。然而,由于实验环境、设备型号的不同,碎片的边缘不可避免地会发生“形变”(即批次效应),导致这些‘拼图碎片’(细胞数据)始终无法精准归位。更糟糕的是,为了强行消除这种‘变形’,有些算法往往不得不把碎片的边缘磨平,结果在去噪的同时也‘误伤’了真正的生物信号。
二、破局:SSpMosaic——不看边缘,看“图案”
SSpMosaic(单细胞与空间马赛克)的精妙之处在于,它不再死磕每一个基因的细微差别,而是寻找碎片上的“规律性图案”。这套图案,专业名称叫做“基因程序”(gene programs)。可以简单把它理解为“基因模块”(gene module):即一组协同调节、共同定义特定细胞状态或生物学过程的基因集合。想象一下,拼图碎片上有的画着“蓝天”,有的画着“草地”,有的画着“树干”。
“蓝天”程序:就是一组负责光合作用或某种特定代谢的基因。
“草地”程序:就是一组负责免疫反应或细胞分裂的基因。
即使两块碎片来自不同的拼图(比如一个是人的组织,一个是小鼠的组织),只要它们上面都画着“蓝天”,我们就能断定它们属于同一个功能区。
SSpMosaic 的“三步走”拼图法:
图案提取(gene programs):首先在每一份数据里,识别出哪些基因总是“成对出现”,形成一个个独有的“基因模块”(局部程序)。
寻找共鸣(network propagation):利用全球生物知识库,看看这些图案背后代表了什么生物学意义。比如,“A模块”和“B模块”虽然基因不完全一样,但它们都是为了“抗击病毒”,那它们就是一类。
合成母版(metaprograms):将所有相似的图案聚类,形成“元模块(metaprograms)”。这就像是为拼图做了一个通用的标准母版,无论你的碎片来自哪里,只要对准母版,就能瞬间找到位置。

图1. SSpMosaic技术流程图
三、实战演练:百万级数据的“暴力美学”
为了验证这个“拼图神器”到底好不好用,研究团队进行了以下两个方面的“极限挑战”。
1. 性能性能优越:PK主流算法
研究团队让 SSpMosaic 和目前市面上最火的 6 种算法进行了“同台竞技”,结果显示:
· 跨物种集成的“翻译官”:在整合人类和老鼠大脑皮层数据时,SSpMosaic 展现了极强的跨物种保守性识别能力,其综合性能评分(Avg score)高达 0.89,显著优于传统方法。
· 跨模态融合的“多面手”:它能完美融合单细胞转录组(RNA)和单细胞染色质可及性(ATAC)数据。在小鼠图谱测试中,它有效消除了模态特异性的假象,同时保留了最精细的细胞亚型特征。
· 百万级数据的“加速器”:得益于其基于程序的降维策略,SSpMosaic 具备极佳的可扩展性,能够轻松应对包含数百万个细胞的大规模数据集。
2. 模型可解释性:解析组织微环境的“空间暗码”
SSpMosaic 的强大不仅体现在跑分数据上,更体现在其对复杂生物学问题的解析力:
· 追踪受损心脏的修复动态:当心脏遭遇心肌梗死,内部就像发生了一场地震,细胞分布极其混乱。研究团队用 SSpMosaic 整合了心脏的单细胞和空间数据,成功拼出了一张“战后修复地图”,精准地定位了 11 个不同的“微环境社区”,并发现了一个叫SPP1 的基因程序。这个程序就像是灾后的“搬运工”,引导巨噬细胞去清理现场并修复组织。
· 没有参考书的空间表征:有些昂贵的临床样本(如胶质母细胞瘤),我们只有空间切片,没有对应的单细胞数据(即只有模糊原图,没有碎片)。 SSpMosaic 展示了它的“盲拼”神技:它能直接从模糊的空间切片中反向推导出内部隐藏的基因程序。它不仅发现了肿瘤内部缺氧的“核心区”,还揭示了肿瘤是如何逃避免疫攻击的。
四、 SSpMosaic的优势
相比于之前的“黑盒算法”,SSpMosaic 的优势非常明显:
看得懂(可解释性):它不给你一堆看不懂的数字,而是直接告诉你,哪些细胞因为执行了“免疫程序”或“代谢程序”才聚在一起。
不怕乱(稳健性):不管是不同批次、不同技术、甚至不同物种,只要生物学本质不变,它就能准确识别。
跑得快(扩展性):面对现在动辄上百万个细胞的巨大“拼图盒”,它依然能高效运转,不会“死机”。
总之,SSpMosaic 通过引入可解释的基因元模块,为单细胞和空间组学研究提供了一个统一、透明且功能强大的计算框架 。它不仅解决了“黑盒”模型难以解释的问题,更在处理异质、多模态数据时展现了极高的精确度和稳健性。同时启发我们:探寻生命的奥秘,不应只局限于盯着孤立的“基因零件”,更应审视它们是如何被编排成一套套精妙的“程序模块”。就像音符化作乐谱,这些模块正有条不紊地指挥着生命这场宏大而璀璨的交响乐。
以上研究成果近期在《Cell Genomics》(中文名《细胞基因组学》) 国际杂志上发表。南京大学生命科学学院博士研究生张月蕾、硕士研究生明文轩为该论文的共同第一作者。南京大学生命科学学院陈迪俊、南京大学医学院附属口腔医院邓润智为该论文的共同通讯作者。相关代码已开源,可供学术界免费使用与扩展。
论文链接:https://www.cell.com/cell-genomics/fulltext/S2666-979X(25)00361-1