《SCIENCE ADVANCES》:PSGRN: Gene regulatory network inference from single-cell perturbational data through self-training with synthetic gold standards
编辑推荐:
基因调控网络(Gene Regulatory Network, GRN)对理解基因如何协调细胞过程至关重要。大规模单细胞扰动研究为GRN推断提供了强大机遇,然而许多先进方法未能充分利用干预信息。研究人员提出了PSGRN(一种在CausalBench挑战中表现优
基因调控网络(Gene Regulatory Network, GRN)对理解基因如何协调细胞过程至关重要。大规模单细胞扰动研究为GRN推断提供了强大机遇,然而许多先进方法未能充分利用干预信息。研究人员提出了PSGRN(一种在CausalBench挑战中表现优异的方法),该方法通过基于合成金标准的自训练框架整合干预性和观测性单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)数据。在八个数据集和六项评估指标上,PSGRN持续优于现有方法。在使用干预数据时,与近期先进方法相比,PSGRN在K562细胞系中实现了高达43%的Wasserstein距离提升以及最低的假遗漏率(false omission rate)。基于实验验证的调控互作,PSGRN在精确度上提升了高达30%,召回率提升超过100%。这些结果突显了PSGRN的多功能性与可扩展性,确立了其作为从单细胞数据中推断GRN及进行生物学发现的稳健工具。
论文解读文章
一、研究背景与问题提出
基因调控网络(GRN)的解析对于揭示基因表达间的因果关系、理解细胞过程调控机制以及推动治疗设计与药物研发具有重要意义。近年来,单细胞高通量测序技术的快速发展,特别是能够同时分析数千种遗传扰动的大型单细胞实验(如Perturb-seq),极大地扩展了细胞系统中因果推断的研究范围。然而,尽管数据资源日益丰富,但如何从这些结合了观测性(observational)和干预性(interventional)的数据中准确推断GRN结构仍面临挑战。许多现有的GRN推断方法,如基于特征排序的GENIE3/GRNBoost,或基于可微分约束的因果发现方法(如DCDI),在应用于新兴的单细胞扰动基准数据集CausalBench时,表现出了显著的性能差距。这些方法往往难以有效利用干预数据来提升推断性能,甚至在某些情况下,额外的扰动数据并未带来预期中的因果推断能力提升。这种局限性可能源于模型训练依赖于间接的金标准(如基因表达值),或使用不稳定的评估指标(如特征重要性分数)。因此,如何获取能够反映直接基因-基因互作的可靠标注,并在此监督下训练模型,成为提升单细胞扰动研究中GRN推断性能的关键问题。
二、研究内容与总体结论
为此,研究人员开发了PSGRN(Pseudo-Supervised Gene Regulatory Network inference),一个半监督工具,通过结合自训练框架,整合观测与干预数据的相关性信息来推断GRN。该方法的核心是利用基因表达相关性生成合成伪标注(pseudoannotation)作为初始训练目标,然后通过自训练过程迭代地优化初始模型,以捕捉超越简单相关性的高阶调控模式。PSGRN在CausalBench挑战赛中获胜,并在多个数据集和评估指标上证明其性能优于现有方法,包括更高的统计精度、更低的假遗漏率,以及更强的从生物学验证的互作中恢复真实调控关系的能力。该研究发表于《SCIENCE ADVANCES》期刊,其成果为利用单细胞扰动数据进行稳健、可扩展的GRN推断提供了一个强有力的新框架。
三、关键技术方法概述
研究主要基于K562和RPE1两种细胞系的Perturb-seq数据集。数据处理包括两步质量控制:在扰动水平保留至少导致50个差异表达基因、拥有至少25个高质量活细胞且对靶基因敲低效率≥30%的扰动;在单个细胞水平,排除扰动基因表达量高于观测数据中该基因未扰动对照第10百分位数的细胞。处理后的表达矩阵经过细胞总UMI计数归一化及对数转换。PSGRN方法流程主要包括:(1)基于基因对表达相关性生成伪标注;(2)提取基因对的平均观测表达水平及干预后平均表达水平作为特征;(3)使用LightGBM分类器在整个数据集(所有可能基因对及其伪标注)上进行训练,并预测回同一数据生成新的推断得分,最终选择得分最高的Top 1000(PSGRN 1K)或Top 5000(PSGRN 5K)基因对作为预测的调控关系。
四、研究结果
1. 数据收集与利用伪标注自训练推断GRN
研究人员对K562和RPE1的Perturb-seq数据进行了严格质控。结果显示,处理后的K562数据集包含622个独特扰动、132,572个细胞和622个基因;RPE1数据集包含383个独特扰动、101,253个细胞和383个基因。通过参数优化(如相关性阈值T=0.1,z-score归一化),PSGRN在训练集上取得了最佳的AUC-Wasserstein分数,显著优于基线相关性方法、DCDI系列方法及GRNBoost。
2. PSGRN对干预数据比例和总体样本量具有稳健性与可扩展性
通过改变训练数据中干预数据的比例(5%至100%)和总体样本量进行基准测试,发现PSGRN在利用额外干预数据方面表现出优越的可扩展性。随着干预比例增加,PSGRN的统计精度显著提升,Wasserstein距离增大,同时保持较低的假遗漏率。在完整干预数据下,PSGRN在K562中达到了最高的Wasserstein距离,并实现了所有方法中最低的假遗漏率。即使在无干预数据的纯观测场景下,PSGRN也表现出强大的竞争力。
3. PSGRN恢复了更多经实验验证的互作
研究人员从CORUM、STRING数据库(包括STRING Network和STRING Physical)以及细胞类型特异性染色质免疫沉淀测序(ChIP-seq)数据中整合了生物学金标准网络进行评估。结果显示,在完整干预数据下,PSGRN在精确度和召回率上均显著优于其他方法。自训练过程显著提升了经生物学验证的调控互作在预测列表中的排名。PSGRN 5K在K562数据集上的精确度比GRNBoost 5K高出30.2%,召回率高出142.4%。即使仅使用观测数据,PSGRN也在精确度上表现优异。
4. PSGRN恢复了与差异表达分析一致的、具有生物学意义的调控网络
对PSGRN和差异表达分析(DEG)预测的Top 5000互作进行疾病术语富集和网络分析发现,两者在K562数据集中均富集到与造血过程相关的疾病术语(如Diamond-Blackfan贫血)。网络分析显示,两种方法均识别出一个富含核糖体和线粒体基因的密集连接子网络,共享了如RPL8、MRPS22等核心基因。PSGRN还额外纳入了如ACTB、RPL5、HSPA9等可能与细胞骨架重塑、核糖体病及线粒体贫血相关的调控因子,提供了与DEG方法一致的、但可能更全面的网络视角。
5. PSGRN在非干预数据上表现优于其他方法
研究人员在仅包含观测数据的六个外部scRNA-seq数据集(hESC, hHep, mESC, mHSC-E, mHSC-GM, mHSC-L)上,通过BEELINE流程评估了PSGRN。评估使用了三种金标准网络:细胞类型特异性ChIP-seq、非特异性ChIP-seq以及STRING功能互作网络,并以精确度-召回曲线下面积(AUPRC)作为指标。结果显示,PSGRN在人类数据集(如hESC和hHep)上表现优异,在大多数评估场景中性能与GRNBoost相当或更优,证明了其在纯观测数据背景下的稳健性和泛化能力。
五、讨论与结论总结
讨论部分指出,PSGRN的关键成就在于其能够有效利用干预数据,而这是许多现有GRN和因果推断方法的难点。自训练框架通过迭代优化基于表达相关性生成的初始伪标注,使模型能够学习数据中的高阶模式,从而超越了简单的相关性分析。在K562和RPE1细胞系数据集的基准测试中,PSGRN展现了更高的推断效率,在引入更多干预数据时,平均Wasserstein分数提升最高达80%,假遗漏率降低50%。在恢复生物学验证的互作方面,PSGRN同样表现卓越,精确度和召回率提升超过60%。研究还评估了结合三角不等式剪枝的PSGRN变体(PSGRN-prune),发现未剪枝版本在生物学评估中F1分数更高,而剪枝版本可能产生Wasserstein距离略高的互作,建议根据研究目标(最大化生物学相关性或扰动效应强度)选择使用。在纯观测数据上,PSGRN表现稳健,与GRNBoost性能相当。然而,PSGRN在基因数过少的数据集上可能因伪标注不可靠而受限,其性能在基因数或细胞数低于一定阈值时会下降。未来工作方向包括将PSGRN框架扩展至整合多组学数据(如染色质可及性、蛋白质表达),以提供更全面、准确的GRN推断。
研究结论翻译:
本研究开发了PSGRN,一个利用单细胞RNA测序数据推断基因调控网络的半监督框架,并证明了其在广泛的干预性和观测性数据集中的稳健性。该方法整合了干预性和观测性数据,利用伪标注和自训练来推断基因互作。结果突显了PSGRN的可扩展性、准确性和生物学相关性,使其成为一个能够适应不同数据设置、提高推断GRN可靠性的框架。