生命科学学院陈迪俊团队开发一种基于可解释基因程序的单细胞与空间组学数据整合和注释通用分析框架

【字体: 时间:2026年01月17日 来源:南京大学生命科学学院

编辑推荐:

     以上研究成果近期在《Cell Genomics》(中文名《细胞基因组学》)  国际杂志 上发表

  

【文章导读】

如果玩过拼图,你一定知道最痛苦的事情莫过于:

1.    你有几万块精美的小碎片,却弄丢了盒盖上的原图,不知道每一块该放在哪(单细胞测序数据的困境);

2.    你有一张模糊的原图,虽然知道大概轮廓,却看不清细微的纹理(空间组学数据的困境)。

这就是目前生物医学研究中最前沿、也最头疼的数据鸿沟”——在生物大数据的汪洋中,我们拥有了最精密的“零件图纸”(单细胞数据)和最壮丽的“组织版图”(空间组学),但如何把单细胞的“高精度”和空间组学的“位置感”完美缝合? 

南京大学生命科学学院陈迪俊团队把这场复杂的科研任务变成了一场智能拼图游戏,开发了一款称为SSpMosaic的新神器,采用一种叫“基因模块”的逻辑,打破了数据间的壁垒。

一、困局:散落在地的碎片,与看不清的组织地图

在生命科学领域,我们现在面临两套互补但互不说话的数据:

  • 单细胞多组学:就像是把组织绞碎了看,能精准读出每一个细胞的职业(功能)。虽然数据很细,但由于组织被绞碎了,我们失去了它们原有的空间位置

  • 空间组学:就像是一张航拍地图。它保留了位置,但分辨率往往不够,一个采样点可能挤着好几个细胞,让我们分不清到底是谁在执行功能。 

长期以来,这两套数据的集成主要依赖复杂的数学算法(如主成分分析或深度学习)来消除技术产生的“批次效应”。虽然效果显著,但这些方法往往像一个冷冰冰的“黑盒”:数据虽然被强行对齐了,研究者却很难解释对齐背后的生物学逻辑,更看不见基因之间的协同作用。 

直观地理解,传统的整合方法就像是在用“蛮力”玩拼图:它强行比对每一个碎片的“边缘锯齿”(即每一个基因的表达数值)。然而,由于实验环境、设备型号的不同,碎片的边缘不可避免地会发生“形变”(即批次效应),导致这些‘拼图碎片’(细胞数据)始终无法精准归位。更糟糕的是,为了强行消除这种‘变形’,有些算法往往不得不把碎片的边缘磨平,结果在去噪的同时也‘误伤’了真正的生物信号。 

二、破局:SSpMosaic——不看边缘,看图案

SSpMosaic(单细胞与空间马赛克)的精妙之处在于,它不再死磕每一个基因的细微差别,而是寻找碎片上的规律性图案。这套图案,专业名称叫做基因程序(gene programs。可以简单把它理解为基因模块”(gene module):即一组协同调节、共同定义特定细胞状态或生物学过程的基因集合想象一下,拼图碎片上有的画着蓝天,有的画着草地,有的画着树干

  • 蓝天程序:就是一组负责光合作用或某种特定代谢的基因。

  • 草地程序:就是一组负责免疫反应或细胞分裂的基因。

即使两块碎片来自不同的拼图(比如一个是人的组织,一个是小鼠的组织),只要它们上面都画着蓝天,我们就能断定它们属于同一个功能区。 

SSpMosaic 三步走拼图法:

  1. 图案提取(gene programs首先在每一份数据里,识别出哪些基因总是成对出现,形成一个个独有的基因模块(局部程序)。

  2. 寻找共鸣(network propagation利用全球生物知识库,看看这些图案背后代表了什么生物学意义。比如,“A模块“B模块虽然基因不完全一样,但它们都是为了抗击病毒,那它们就是一类。

  3. 合成母版(metaprograms将所有相似的图案聚类,形成元模块(metaprograms。这就像是为拼图做了一个通用的标准母版,无论你的碎片来自哪里,只要对准母版,就能瞬间找到位置。

图1. SSpMosaic技术流程图

 

三、实战演练:百万级数据的暴力美学

为了验证这个拼图神器到底好不好用,研究团队进行了以下两个方面的极限挑战

1. 性能性能优越:PK主流算法

研究团队让 SSpMosaic 和目前市面上最火的 6 种算法进行了“同台竞技”,结果显示:

·         跨物种集成的“翻译官”:在整合人类和老鼠大脑皮层数据时,SSpMosaic 展现了极强的跨物种保守性识别能力,其综合性能评分(Avg score)高达 0.89,显著优于传统方法。

·         跨模态融合的“多面手”:它能完美融合单细胞转录组(RNA)和单细胞染色质可及性(ATAC)数据。在小鼠图谱测试中,它有效消除了模态特异性的假象,同时保留了最精细的细胞亚型特征。

·         百万级数据的“加速器”:得益于其基于程序的降维策略,SSpMosaic 具备极佳的可扩展性,能够轻松应对包含数百万个细胞的大规模数据集。

2. 模型可解释性:解析组织微环境的“空间暗码”

SSpMosaic 的强大不仅体现在跑分数据上,更体现在其对复杂生物学问题的解析力:

·         追踪受损心脏的修复动态当心脏遭遇心肌梗死,内部就像发生了一场地震,细胞分布极其混乱。研究团队用 SSpMosaic 整合了心脏的单细胞和空间数据,成功拼出了一张战后修复地图,精准地定位了 11 个不同的微环境社区,并发现了一个叫SPP1 的基因程序。这个程序就像是灾后的搬运工,引导巨噬细胞去清理现场并修复组织。

·         没有参考书的空间表征:有些昂贵的临床样本(如胶质母细胞瘤),我们只有空间切片,没有对应的单细胞数据(即只有模糊原图,没有碎片)。 SSpMosaic 展示了它的盲拼神技:它能直接从模糊的空间切片中反向推导出内部隐藏的基因程序。它不仅发现了肿瘤内部缺氧的核心区,还揭示了肿瘤是如何逃避免疫攻击的。 

四、  SSpMosaic的优势

相比于之前的黑盒算法SSpMosaic 的优势非常明显:

  • 看得懂(可解释性):它不给你一堆看不懂的数字,而是直接告诉你,哪些细胞因为执行了免疫程序代谢程序才聚在一起。

  • 不怕乱(稳健性):不管是不同批次、不同技术、甚至不同物种,只要生物学本质不变,它就能准确识别。

  • 跑得快(扩展性):面对现在动辄上百万个细胞的巨大拼图盒,它依然能高效运转,不会死机 

总之,SSpMosaic 通过引入可解释的基因元模块,为单细胞和空间组学研究提供了一个统一、透明且功能强大的计算框架 。它不仅解决了“黑盒”模型难以解释的问题,更在处理异质、多模态数据时展现了极高的精确度和稳健性。同时启发我们:探寻生命的奥秘,不应只局限于盯着孤立的“基因零件”,更应审视它们是如何被编排成一套套精妙的“程序模块”。就像音符化作乐谱,这些模块正有条不紊地指挥着生命这场宏大而璀璨的交响乐。 

以上研究成果近期在《Cell Genomics》(中文名《细胞基因组学》) 国际杂志上发表。南京大学生命科学学院博士研究生张月蕾、硕士研究生明文轩为该论文的共同第一作者。南京大学生命科学学院陈迪俊南京大学医学院附属口腔医院邓润智为该论文的共同通讯作者。相关代码已开源,可供学术界免费使用与扩展。

论文链接:https://www.cell.com/cell-genomics/fulltext/S2666-979X(25)00361-1


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号