采纳标准参考SNP标识符(rsIDs)以提升农业基因组学数据的互操作性及重用性

《Scientific Data》:Adoption of Standard Reference SNP Identifiers in Agricultural Genomics for Interoperability and Data Reuse

【字体: 时间:2026年04月17日 来源:Scientific Data 6.9

编辑推荐:

  在农业研究中,数据共享长期依赖非正式网络,清理与协调耗时费力,阻碍了合作与数据重用。为弥合农业基因组学在采纳FAIR(可查找、可访问、可互操作、可重用)原则上的差距,AgBioData标准工作组评估了现有遗传变异管理标准,并推荐采用参考SNP标识符(rsIDs)作为关键步骤。该研究展示了来自不同数据成熟度作物研究群体(包括无参考基因组的群体)的应用案例,实现了在Gramene和泛基因组数据库中引入近2.2亿个rsID、将rsID从参考基因组投影到高粱和玉米的泛基因组品种等里程碑,并制定了农业领域FAIR指南。此举通过加强数据生产者、存储库和育种平台间的协调,有望显著提升数据互操作性与一致性,加速作物性状改良的遗传变异发现。

  
在当今的农业研究中,科学家们正以前所未有的规模生成着海量的基因组数据。这些数据是理解作物性状、加速育种改良的宝贵资源。然而,一个长期存在的挑战横亘在研究者面前:数据的共享与整合异常繁琐。不同研究团队、不同项目产生的数据往往格式不一、命名各异,就像来自不同国家、说着不同方言的人们试图合作,沟通成本高昂,效率低下。这种状况严重阻碍了科学发现的进程,也限制了已有数据的重复利用价值。尽管在生物医学领域,旨在使数据“可查找、可访问、可互操作、可重用”的FAIR原则已被广泛接受,但在农业基因组学中的应用却相对滞后。为了弥合这一差距,AgBioData遗传变异标准工作组应运而生,致力于推动FAIR数据实践在农业领域的落地。那么,如何才能真正实现农业基因组数据的“通用语言”呢?近期发表在《Scientific Data》上的一项研究,为我们指出了一个关键方向。
该研究指出,问题的核心在于缺乏统一的数据标识符。特别是对于单核苷酸多态性(SNP)——基因组中最常见的遗传变异形式,不同数据库和研究中使用不同的标识方法,导致数据无法有效关联和比较。为了解决这一问题,研究团队系统性地评估了当前农业遗传变异的管理标准,并提出了一项核心建议:在农业基因组学中广泛采纳由美国国家生物技术信息中心(NCBI)维护的标准参考SNP标识符,即rsID。rsID为每个独特的SNP变异提供了一个全球唯一的、稳定的“身份证号码”,是生物医学数据实现互操作的基石。研究认为,将这一成熟的标准引入农业领域,是迈向数据互操作的关键一步。
为了开展这项研究,研究人员首先对农业基因组学领域数据管理的现状和挑战进行了广泛调研。他们审视了不同研究社区(从拥有完整参考基因组和成熟数据库的群体,到尚无参考基因组的群体)在数据标准化方面的实践与差距。基于此,工作组提出了推广rsID的具体路线图。研究的技术方法核心在于生物信息学流程的开发和标准化。这包括建立将不同来源的变异数据(VCF文件)与参考rsID集进行比对和映射的流程,开发用于在缺乏参考基因组的作物群体中创建和使用“社区rsID”的方案,以及设计将参考基因组上的rsID坐标投影到多个泛基因组(pangenome)组件上的算法。样本数据来源于多个重要的作物研究社区,例如玉米和高粱泛基因组项目,这些数据为验证rsID的可行性提供了现实世界的队列。
研究结果通过几个具体的里程碑案例,充分展示了采纳rsID的可行性与价值。
采用标准参考SNP标识符(rsIDs)促进农业基因组学数据的互操作性和重用。这是整个研究的核心主张。工作组通过系统分析指出,采纳rsID能够为农业遗传变异数据提供一个稳定、唯一的交叉引用点,从而解决标识符混乱的根本问题。
在Gramene和作物泛基因组数据库中引入近2.2亿个rsID。这是一个实质性的进展。研究成功将大规模的rsID整合到主要的农业生物信息学资源Gramene以及作物的泛基因组数据库中,为社区提供了可直接使用的、标准化的变异标识资源。
将rsID从参考基因组投影到高粱和玉米的泛基因组品种。这项工作解决了现代农业基因组学中一个关键挑战:如何在代表一个物种所有遗传多样性的泛基因组中保持标识符的一致性。研究演示了如何将参考基因组上的rsID系统地映射到高粱和玉米泛基因组的不同品种(haplotype)上,确保了即使在使用复杂泛基因组时,变异的标识仍然是可追踪和可互操作的。
为农业领域制定了一份采纳rsID的FAIR指南。除了技术方案,研究还提供了实践指导。这份指南旨在帮助数据生产者、数据库管理者和用户理解并实施rsID标准,从数据生成、提交到存储和重用的全生命周期推动FAIR原则的落实。
研究结论与讨论部分强调,采纳rsID是提升农业基因组数据互操作性和重用性的一个切实、高效且必要的步骤。它并不是要取代社区现有的工作,而是建立一个通用的“翻译层”或“连接桥”,使不同项目的数据能够相互“对话”。这项工作成功地将生物医学信息学中成熟的标准引入农业领域,并针对农业研究的特殊性(如泛基因组的使用、缺乏参考序列的物种)提出了适配的解决方案。通过加强数据生产者、生物数据库(如Gramene)以及下游育种应用平台之间的协调,建立一个广泛采用rsID的生态系统,可以极大地提高数据的一致性,减少数据清理和重用的负担。最终,这将加速从基因组变异到重要农艺性状的发现过程,为应对全球粮食安全挑战提供更强大的数据驱动支持。这项研究为农业基因组学数据管理的标准化和FAIR化提供了一个清晰的蓝图,标志着该领域在实现大规模数据整合与共享方面迈出了关键一步。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号