《Advanced Science》:PAIR: Reconstructing Single-Cell Open-Chromatin Landscapes for Transcription Factor Regulome Mapping
编辑推荐:
本文介绍了一种名为PAIR的新型概率框架,旨在解决单细胞ATAC测序(scATAC-seq)数据因测序深度低、稀疏性极高和广泛技术性缺失而面临的挑战。该方法通过直接建模染色质可及性的天然细胞-峰点(cell–peak)二分图结构,结合变分隐层和双解码器(定性解码器重建开/闭状态,定量解码器基于负二项式似然建模计数信号),学习细胞和峰点的不确定性感知嵌入,并生成插补后的可及性矩阵。PAIR在模拟和真实数据集上均能显著提升聚类性能、批次校正效果,并支持从峰点嵌入中解析共可及性调控模块和与临床生存相关的基因集,为从稀疏的scATAC-seq数据中可靠推断转录因子调控程序提供了有力工具。
单细胞ATAC测序(scATAC-seq)能够在细胞分辨率下解析染色质可及性,为研究基因调控、细胞身份和组织内异质性提供了直接窗口。然而,实际应用中,scATAC-seq测量受限于每个细胞的测序片段数量有限,导致数据具有极高的稀疏性、高维度和广泛的技术性缺失(dropout),这共同妨碍了稳健的细胞状态划分和转录因子(TF)调控程序的推断。
为了应对这些挑战,本研究提出了PAIR,一个用于scATAC-seq数据分析和重建的概率框架。PAIR的核心创新在于直接利用染色质可及性的天然数据结构——细胞与基因组可及性峰点(peak)之间的二分关系。它将scATAC-seq数据建模为一个细胞-峰点二分图,其中细胞和峰点是两种不同类型的节点,它们之间的边表示在某个细胞中某个峰点是可及的(开放状态)。
方法架构概述
PAIR的流程始于标准的scATAC-seq数据处理,包括质控过滤、计算细胞特异性文库大小因子以及将计数矩阵二值化以构建二分图邻接矩阵。模型的核心是一个基于LightGCN的简化传播二分图编码器,该编码器通过多层归一化邻域聚合,在细胞和峰点节点之间迭代传递信息。为了在严重稀疏性下明确表示不确定性,编码器的输出会通过一个变分隐层,该层为每个细胞和峰点节点参数化一个高斯后验分布,并通过重参数化技巧采样得到随机化的嵌入表示;后验分布通过KL散度被正则化向标准正态先验靠近。
PAIR采用了一个独特的双解码器设计,以共同捕捉数据的定性和定量两个方面:
- 1.
定性解码器:负责重建二值的细胞-峰点可及性结构(开/闭状态)。它通过计算采样自变分隐层的细胞和峰点潜在嵌入之间的兼容性分数(例如内积后经Sigmoid函数转换),来预测每条边存在的概率。
- 2.
定量解码器:负责在负二项式(Negative Binomial, NB)似然下重建观测到的计数矩阵。该解码器预测每个细胞-峰点对的NB分布参数(均值和离散度),其中均值由细胞文库大小因子、可学习的峰点特异性因子以及从潜在嵌入交互中解码出的强度共同调制,从而模拟单细胞计数中常见的过度离散变异。
通过联合优化定性图结构重建目标、定量NB重建目标以及变分正则化项,PAIR能够端到端地训练,并最终输出:(1) 不确定性感知的细胞和峰点低维嵌入;(2) 一个经过校正和插补的可及性信号矩阵。这些输出为下游分析,如细胞聚类、可视化、批次校正以及调控程序推断,提供了质量更高的基础。
仿真与基准测试验证鲁棒性
研究通过包含对照实验的仿真数据,系统评估了PAIR在不同稀疏度、测序深度和噪声水平下的插补与聚类性能。结果显示,在高稀疏度(如0.7-0.8) 和低测序深度(如1000 reads/细胞) 的挑战性场景下,PAIR在恢复定性可及性模式(auROC/auPRC)和定量信号一致性(Pearson相关性)方面均优于基线方法(如PeakVI、SCALE、scOpen、cisTopic)。特别是在低深度下,PAIR学习到的细胞嵌入在UMAP可视化中能更清晰地分离密切相关的细胞状态(如造血系统中的HSC与CMP,CD4与CD8 T细胞),并且聚类指标(ARI, NMI)提升最为显著。在加入不同水平噪声的应力测试中,PAIR也表现出最佳的鲁棒性。
在真实数据集中提升细胞聚类
在九个公开的scATAC-seq基准数据集上,PAIR与cisTopic、EpiScanpy、PeakVI、SCALE、scDEC、SnapATAC2等方法进行了比较。评估结果表明,PAIR在其中8个数据集上取得了最高的聚类精度(以ARI衡量),并且在同质性、完整性、V-measure等综合聚类指标上也表现出最优的中位数性能。例如,在白血病(Leukemia)和大脑前额叶(Forebrain)等异质性明显的数据集中,PAIR的优势尤为突出。可视化分析进一步证实,PAIR产生的嵌入空间具有更紧凑的类内结构和更清晰的类间分离,特别是在区分密切相关的兴奋性神经元亚型(EX1/EX2/EX3)时,能有效缓解因稀疏性导致的亚型混合问题。
实现平衡的批次校正
在一个包含多个供体(批次)的多批次造血系统数据集上,PAIR被评估了其批次整合能力。使用一组互补的评估指标(包括衡量生物结构保存的Leiden ARI/NMI、cLISI、细胞类型轮廓分数,以及衡量批次混合的iLISI、kBET、批次轮廓分数、图连通性)进行量化比较。结果显示,PAIR在生物结构保存和批次校正之间取得了最佳的整体平衡,获得了最高的综合评分。与SCALE、SnapATAC2、PeakVI等基线方法相比,PAIR的整合嵌入在UMAP视图中既实现了不同供体来源细胞的充分混合,又保持了清晰的造血细胞群结构,避免了过度校正导致的生物信号模糊。
支持峰点为中心的调控解析
PAIR的一个关键优势在于其同时学习峰点嵌入,这使得研究能够超越细胞层面的分析,进行以基因座为中心的调控解析。在黑色素瘤scATAC-seq数据集的应用中,利用PAIR衍生的峰点特征进行共可及性分析,成功揭示了围绕关键转录因子SOX10的调控邻域结构。分析发现,与SOX10启动子区域共可及的峰点集合和与SOX10 3‘ UTR区域共可及的峰点集合,在不同细胞状态/处理条件下表现出有结构的、条件依赖的可及性模式,并且这两组共可及峰点集合在追踪细胞状态的一致性上存在差异。
进一步,基于峰点嵌入的相似性构建峰点-峰点网络并进行社区检测,可以定义出共可及性调控模块。这些模块在不同黑色素瘤细胞状态中表现出特异性的活性模式。将模块活性投影回细胞UMAP空间,可见单个模块映射到嵌入空间的离散区域,建立了细胞状态与其活跃调控程序之间的可解释关联。对SOX10启动子共可及峰点关联基因的功能富集分析,揭示了与细胞周期、细胞骨架重组、迁移/侵袭等黑色素瘤生物学相关的通路。更重要的是,从该调控程序中筛选出的候选基因(如ELAPOR1、LOXL4、SMAP2、SSB),在外部黑色素瘤患者队列的生存分析中显示出显著的分层能力,连接了scATAC-seq推断的调控程序与临床意义。
提升细胞类型分辨率与恢复转录因子调控程序
在Forebrain等组织图谱数据上,使用PAIR插补后的矩阵重新进行下游分析,能进一步提升细胞类型分辨率和调控信号检测的灵敏度。与原始数据相比,基于PAIR插补数据的差异可及性分析(Differential Accessibility Analysis) 能够识别出更多细胞类型特异的差异可及峰点,同时与原始数据识别的峰点有大量重叠,表明其在增强信号检测的同时保留了核心调控特征。这些恢复的差异峰点广泛分布于启动子近端和远端调控区域。
对远端差异峰点进行转录因子结合 motif 富集分析,成功回收了与神经元生物学功能已知的TF,例如在第四层兴奋性神经元中富集的RORB motif,在兴奋性神经元谱系中富集的LHX2 motif等,这与这些TF在皮层发育和层状特性中的已知功能一致。通过GREAT工具将远端差异峰点关联到潜在靶基因并进行GO富集,结果显示兴奋性神经元群体富集于突触、神经发生等类别,而抑制性神经元群体则更富集于细胞骨架、核相关过程等类别,与已知的神经元生物学知识相符。
讨论与展望
PAIR通过结合二分图建模、变分隐层和双解码器设计,为scATAC-seq的表示学习和去噪提供了一条新途径。其框架天然适合于从稀疏数据中联合推断离散可及状态和连续计数强度,并在聚类、整合、调控解析等多个下游任务中展现出优势。特别在面向临床的研究中,PAIR生成的不确定性感知嵌入和校正后的可及性谱,有助于提高疾病相关分层的灵敏度和生物标志物发现的可靠性。
当前方法也存在一些局限和未来改进方向,例如可探索更丰富的似然模型(如零膨胀模型)以更好地刻画零值产生机制,或通过子图训练、自适应邻居采样等策略提升对大规模图的计算可扩展性。展望未来,PAIR的框架可扩展至多组学整合,例如通过构建包含多模态节点(如峰点、基因、表观基因组特征)的异质图,或通过潜在空间对齐多模态的细胞嵌入,从而在统一模型下解析更复杂的基因调控网络。
总而言之,PAIR作为一个强大的预处理和特征学习层,增强了从稀疏、嘈杂的scATAC-seq数据中绘制单细胞开放染色质图谱和解析转录因子调控程序的能力,为深入理解细胞异质性和基因调控机制提供了有力的计算工具。