基于小样本学习的单细胞Hi-C数据大规模基因组结构变异检测框架scCAPReSE

《Genomics & Informatics》:scCAPReSE: detection of large-scale genomic rearrangements from single-cell Hi-C based on few-shot learning

【字体: 时间:2026年03月18日 来源:Genomics & Informatics

编辑推荐:

  【编者推荐】 为破解单细胞Hi-C数据稀缺条件下癌症基因组大规模结构变异检测的难题,研究人员开发了基于小样本学习和CLIP预训练模型的框架scCAPReSE。该框架仅需数百个样本即可有效训练分类器,在sci-Hi-C数据上实现超90%的分类准确率,并在K562细胞中成功识别费城染色体易位,揭示了由结构变异介导的染色质互作存在显著的细胞间异质性,为在单细胞分辨率定量解析癌症三维基因组结构及克隆异质性提供了高效、通用的新工具。

  
癌症基因组中普遍存在大规模基因组结构变异。这些“基因组的巨大动荡”不仅能直接破坏基因,更能深刻“重塑”细胞核内DNA的三维空间排布,即三维基因组结构。这种重构常导致增强子(一种远程调控基因表达的DNA序列)错误地靠近并激活原癌基因,这一过程被称为“增强子劫持”,是癌症发生发展的重要驱动力。重塑后的三维基因组会产生独特的染色质空间接触模式,这为利用基于深度学习的方法进行检测提供了可能。然而,癌症具有高度的克隆异质性,即同一个肿瘤内不同细胞群体的基因组和表型可能各不相同,要真正理解结构变异在癌症演进中的作用,必须将分析推进到单细胞分辨率。但现实是骨感的:单细胞Hi-C技术本身尚未标准化,不同方法产生的数据集有限且差异大,导致可用于训练深度学习模型的样本量严重不足。如何利用极少量的标记数据,构建一个能适应不同实验平台、稳定识别单细胞水平结构变异模式的工具,成为领域内一个亟待突破的挑战。
为此,研究人员在《Genomics》上发表研究,介绍了scCAPReSE这一创新框架。该研究旨在解决单细胞Hi-C数据稀缺对基于深度学习的大规模基因组结构变异检测模型训练的制约。为了回答这一难题,研究团队巧妙地将自然语言与图像多模态预训练模型CLIP的“知识”迁移到生命科学领域。scCAPReSE的核心策略是小样本学习,它从CLIP模型中提取并微调基础权重,从而使得利用仅仅几百个来自单一癌细胞系的大规模结构变异示例,就能高效训练出深度学习分类器,并能将分类任务适配到异质性的单细胞Hi-C数据文库上。
研究中应用了几个关键技术方法。首先是基于小样本学习的模型构建与微调策略,核心是利用预训练的CLIP (Contrastive Language-Image Pre-training) 图像基础模型的表征,将其迁移到单细胞Hi-C接触图谱的分类任务中。其次,研究使用了两种单细胞染色质构象捕获技术产生的数据作为验证和应用的基准:其一是sci-Hi-C数据集,用于评估模型的分类性能;其二是来源于慢性粒细胞白血病细胞系K562的scNanoHi-C数据,用于实际检测结构变异并分析细胞间异质性。模型评估采用标准的分类准确率等指标。
研究结果
1. scCAPReSE框架实现在稀疏单细胞Hi-C数据中的高精度结构变异分类
研究人员首先在sci-Hi-C数据集上对scCAPReSE进行评估。结果表明,该框架仅需数百个训练示例,就能实现对结构变异模式的稳健分类,分类准确率超过90%。这证明了其利用极少量的标记数据,在单细胞分辨率有效识别大规模基因组重排的能力。
2. 在K562细胞中鉴定费城染色体易位并揭示SV介导的互作异质性
将scCAPReSE应用于K562细胞系的scNanoHi-C数据后,模型不仅正确识别了该细胞系中标志性的费城染色体(Philadelphia chromosome)易位(即t(9;22)),更重要的是,它进一步揭示了在结构变异所介导的染色质相互作用(SV-mediated chromatin interactions)的贡献上,存在显著的细胞与细胞之间的变异性(cell-to-cell variability)。这一发现直接凸显了在癌症三维基因组组织中,以前技术手段难以触及的、由结构变异驱动的克隆异质性。
结论与意义
本研究成功开发了scCAPReSE,一个基于小样本学习的计算框架。它通过迁移和微调CLIP等预训练基础模型的表征能力,巧妙地克服了单细胞Hi-C数据稀缺对深度学习模型训练的瓶颈,实现了在单细胞分辨率下对大规模基因组结构变异的高精度检测。该框架在模拟和真实数据中均表现出色,不仅能准确识别如费城染色体易位这样的已知变异,更重要的是,它首次在单细胞层面定量揭示了由结构变异导致的染色质空间互作具有高度细胞异质性。这为了解癌症三维基因组结构的克隆多样性提供了前所未有的新视角。综上所述,scCAPReSE为在单细胞水平检测结构变异驱动的三维基因组重组提供了一个通用且数据高效的分析工具,将有力推动对癌症特异性染色质结构和肿瘤内克隆异质性的定量解析。该方法的代码已公开,可供学术界自由使用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号