单细胞ATAC-seq数据整合平台scATAC.Explorer的构建与应用:推动染色质可及性研究的资源革新

《Scientific Reports》:Developing a comprehensive database and search tool for single-cell ATAC-seq data

【字体: 时间:2026年01月17日 来源:Scientific Reports 3.9

编辑推荐:

  语 为解决单细胞ATAC-seq(scATAC-seq)数据分散、格式不统一导致的整合分析难题,研究团队开发了首个综合性数据库与搜索工具scATAC.Explorer。该平台收录了39个公开数据集,涵盖多组织、疾病模型及发育阶段,提供标准化峰值-细胞矩阵、细胞注释及元数据,支持R/Bioconductor一键检索与跨语言导出。其标准化格式与多参数查询功能显著提升了数据复用效率,为表观遗传学研究提供了关键基础设施。

  
随着单细胞测序技术的迅猛发展,科学家们得以在单个细胞水平探索基因调控的奥秘。其中,单细胞转座酶可及染色质测序(scATAC-seq)技术能够揭示染色质的开放状态,为理解细胞分化、疾病机制和基因调控网络提供了前所未有的分辨率。然而,海量的scATAC-seq数据散落在不同的公共数据库和实验室仓库中,格式千差万别,如同散落的拼图碎片,难以整合利用。研究人员若想比较不同研究中的数据集,往往需要耗费大量时间在数据清洗、格式转换和元数据对齐上,严重阻碍了科学发现的步伐。
在这一背景下,由Western University的Parisa Shooshtari团队领衔的研究在《Scientific Reports》上发表了重要成果。他们开发了一个名为scATAC.Explorer的综合性数据库与搜索工具,旨在将全球公开的scATAC-seq数据“标准化、可搜索化”,让研究人员能够像在图书馆检索书籍一样快速定位所需数据。该平台不仅汇集了39个涵盖中枢神经、免疫、造血系统等多领域的数据集,还提供了统一的峰值-细胞矩阵、细胞类型注释和结构化元数据,支持R语言直接调用或导出为Python、MATLAB兼容格式,真正实现了“即取即用”。
关键技术方法
研究团队从NCBI GEO、10x Genomics等公开平台系统性收集scATAC-seq数据,利用标准化流程将异质数据统一为峰值-细胞稀疏矩阵(dgCMatrix格式)和细胞注释数据框。元数据整合采用BRENDA组织本体(BTO)、Cellosaurus细胞系库和MONDO疾病本体进行术语标准化。开发了基于R包TMExplorer的查询函数queryATAC(),支持按疾病、细胞类型、物种等参数筛选数据,并通过Figshare仓库托管标准化数据文件。
研究结果
数据收集与标准化
通过关键词检索从GEO、10x Genomics等来源获取39个数据集,涵盖人、小鼠、果蝇等物种。数据格式包括Market Exchange(MEX)、HDF5、BED等,均被转换为统一的稀疏矩阵与注释框架,确保与Signac、Seurat等主流分析工具兼容。
数据库内容特征
细胞类型覆盖神经(18个数据集)、免疫(8个)和造血(8个)等系统;疾病模型包括白血病、糖尿病、肿瘤微环境(TME)等;17个数据集提供聚类标签,6个含细胞类型注释。测序技术以10x Genomics Chromium(24个)为主,支持高通量分析。
查询与导出功能
queryATAC()函数支持多参数组合查询,如“disease="diabetes"”可精准筛选相关数据集。saveATAC()函数支持导出为.mtx或.h5ad格式,便于跨平台分析。案例研究演示了从小鼠皮层数据聚类到T细胞注释数据的UMAP可视化,证明工具在降维、聚类中的实用性。
高计算需求场景适配
对包含8万细胞的大规模数据集,工具可在高性能计算节点(内存>60GB)稳定运行,验证了其处理海量数据的能力。
结论与展望
scATAC.Explorer解决了scATAC-seq数据整合的三大痛点:格式异构性、检索低效性和注释缺失性。其标准化架构为多组学数据整合奠定基础,未来可扩展至scRNA-seq等多模态数据。平台通过GitHub社区驱动更新,持续纳入新数据集,推动表观遗传学资源生态的共建共享。
这项工作标志着单细胞表观基因组学数据资源管理向标准化、自动化迈出关键一步,有望加速疾病机制解析和精准医学策略开发。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号