提升组学数据互通性:代谢物命名与标识符转换的挑战与操作指南

《Metabolomics》:Metabolite names and identifiers: how far are we from interoperability?

【字体: 时间:2026年02月22日 来源:Metabolomics 3.3

编辑推荐:

  为了解决代谢组学文献中代谢物命名不一致、阻碍跨研究比较和解读的问题,研究人员系统评估了多种标识符转换工具(CTS、MetaboAnalyst、RaMP、PubChem、MetaNetX等),并分别从实验者和数据科学家视角进行了工作流程测试。研究结果显示,使用InChIKey作为输入时转换准确性最高,而基于名称的转换则错配率高。基于此,研究团队提出了针对不同用户群体(软件开发者、数据科学家、实验人员)的具体操作指南,以提升代谢组学数据的可查找、可访问、可互操作和可重用性(FAIR原则),从而推动大规模代谢组学研究的可靠整合与比较。

  
在当前生命科学研究,特别是代谢组学领域,数据共享与整合对于揭示生物过程的奥秘至关重要。然而,一个看似基础却长期困扰研究人员的难题是:同一种代谢物在不同文献、数据库乃至研究团队中,常常拥有多个不同的名字或代号。这种命名上的“巴别塔”现象,使得跨研究比较数据变得异常困难,甚至可能导致错误的生物学解读。想象一下,如果全球各地的邮政系统对同一个城市使用完全不同的编码,邮件投递将会陷入怎样的混乱?这正是代谢组学数据互通性面临的现状。为了应对这一挑战,并推动FAIR(可查找、可访问、可互操作、可重用)原则在代谢组学领域的真正落地,一项旨在探究代谢物命名与标识符转换中潜在模糊性、并提供实用操作指南的研究应运而生,其成果发表在专业期刊《Metabolomics》上。
为了系统评估当前标识符转换的可行性与准确性,研究人员采用了多工具、多视角的严谨工作流程。他们首先从人类血浆和植物科学相关研究中,精心挑选并手动注释了一份包含100种常见代谢物的清单,为每项代谢物提供了共识名称(ChEBI名)、数据库标识符(ChEBI ID)和化学标识符(InChIKey)。随后,研究团队设置了基于不同现有转换工具(包括CTS、MetaboAnalyst、RaMP、PubChem Identifier Exchange Service、MetaNetX MNXref ID Mapper等)的多个工作流程,并从两个互补的视角进行评估:一是从实验者(湿实验室)的视角,关注手动数据管理和工具易用性;二是从数据科学家(干实验室)的视角,侧重于程序化交互、批量处理和结果一致性验证。此外,研究还深入评估了参考数据库(如HMDB、PubChem、ChEBI)之间代谢物交叉引用的质量,通过比对InChIKey的一致性来量化错配率。
2. 材料与方法
2.1 材料
本研究构建的代谢物清单来源于已发表研究中高频注释的人类血浆代谢物,同时也与植物科学相关。清单中的代谢物均为经正式鉴定的化合物(根据MSI指南定义为Level 1),分子量介于75至777 g/mol之间,涵盖了氨基酸、嘌呤、羧酸、脂肪酸、类固醇等多种化学类别。
2.2 用于ID转换的工具
研究筛选了符合FAIR原则、支持批量转换且易于使用的工具,最终纳入了6个工具进行工作流程构建:Metabolomics Workbench的RefMet工具、CTS Proxy Batch Conversion、MetaboAnalyst Metabolites ID conversion、RaMP、PubChem Identifier Exchange Service和MetaNetX MNXref ID Mapper。
2.3 测试工作流程描述
2.3.1 实验者方法
从用户视角出发,使用ChEBI名称、ChEBI ID和InChIKey作为输入,分别通过不同工具进行转换,并将输出结果与手动整理的原始清单进行比对,评估匹配率和错误率。此外,还测试了使用RefMet工具对名称进行标准化后的转换效果。
2.3.2 数据科学家方法
从生物信息学视角出发,扩大了转换目标,获取了初始元数据中未包含的外部ID(如HMDB ID、KEGG ID、SMILES)。通过编写脚本直接比较不同工具输出ID的一致性,并构建信息学循环来测试转换的稳定性(即输出ID再次转换回输入ID是否一致)。
2.4 参考数据库中代谢物交叉引用质量的评估
以HMDB数据库为参照,提取其中代谢物条目关联的InChIKey以及来自KnapSack、ChEBI和PubChem的交叉引用ID。通过比对这些外部数据库ID在原始库中对应的InChIKey与HMDB中记录的InChIKey是否一致,来量化交叉引用中的错误率。
3. 结果
3.1 来自两种用户体验的反馈
用户体验反馈显示,各工具在输入数据灵活性、信息学可访问性方面存在较大异质性。转换时间总体可接受,但以化合物名称作为输入时耗时较长。输出数据格式大体相似,但在数据匹配精度报告方面有特定差异。
3.2 使用实验者方法的结果
研究发现,使用不同输入数据和工具,匹配率在92%到100%之间波动。仅当使用CTS工具并以InChIKey作为输入时,获得了100%的精确匹配。所有基于名称的转换都导致了较高水平的错配(错误率1%至94%),即使经过RefMet标准化后结果相似。最佳结果(错误率≤5%)通过以下方式获得:使用MetaboAnalyst并以ChEBI名称为输入;或使用CTS或RaMP并以ChEBI ID为输入;或使用CTS并以InChIKey为输入。
3.3 使用数据科学家方法的结果
在一致性方面,从ChEBI ID转换到HMDB ID时,CTS和MetaboAnalyst工具均能达到100%匹配,且结果有92%的一致性。转换到KEGG ID时,93%的ChEBI ID得到匹配。当从ChEBI ID获取InChIKey时,所有转换器都能为100%的ID找到关联,但仅有49%的结果在所有工具中完全一致,MetaNetX工具的结果差异主要源于其忽略质子化状态和异构体形式的特性。从InChIKey反向转换到ChEBI ID时,98%的ID能获得至少一个结果,但不同工具间结果一致性较低。稳定性测试显示,从InChIKey开始进行循环转换,所有工具都表现完美;但从ChEBI ID开始时,部分工具出现了错配。
3.4 来自数据库的偏差
对HMDB数据库交叉引用质量的评估揭示了显著问题。在HMDB与ChEBI的13,820条交叉引用中,有4%的InChIKey不匹配;与PubChem的105,695条交叉引用中,有1.7%不匹配;与KnapSack的8,021条交叉引用中,不匹配率高达65%。这些不匹配主要归因于分子骨架差异或异构体/立体化学差异。KnapSack的高错误率与其使用非标准InChIKey格式有关。
4. 讨论
4.1 数据库/库来源的挑战
研究强调了数据库来源和版本信息透明度的缺乏对数据追溯和重现性构成的风险。不同数据库(如专注于人类的HMDB与涵盖更广的ChEBI、PubChem)在收录范围和哲学上的差异,也会导致映射不一致。
4.2 标识符格式的多样性与化学信息学限制
标识符格式的多样性(如CHEBI:16113的不同变体)和化学信息学标识符(如SMILES、InChIKey)支持的不均匀性,是阻碍互操作性的主要技术挑战。InChIKey中对质子化状态和异构体敏感的第三部分尤其容易引入差异。
4.3 操作验证与报告标准
为克服限制,研究强调需要整合跨数据库和跨工具的验证,并采用最低报告标准:为每个代谢物至少报告一个通用名和两个标识符(一个语义标识符如PubChem CID或ChEBI,一个化学信息学标识符如InChIKey),并透明记录所用数据库和工具的版本。
4.4 解决方案与建议的操作指南
研究最终提出了针对三类利益相关者(软件开发者、数据科学家、实验研究人员)的“最低要求”和“最佳实践”操作建议。核心建议包括:优先使用InChIKey等稳定标识符;记录工具和数据库版本;实施自动化交叉验证流程;在报告中使用多个标识符等。
5. 结论
总之,代谢物名称/标识符的精确转换对于代谢组学结果的互操作性至关重要。尽管工具众多,但由于代谢组学跨越分析化学、生物信息学和生物学的特性,以及代谢物命名和结构表示的固有复杂性,这一步骤仍然充满挑战。从转换工具的设计到使用报告的整个流程中,确保可追溯性和透明度,将有助于限制代谢组学数据情境化和发表过程中的潜在模糊性。本研究针对不同用户画像提出了具体的操作指南,未来还需要进一步开发和推广自动化的交叉验证流程与一致性检查工具,以供代谢组学社区广泛采用。本研究集中于已正式鉴定的代谢物,未来对部分结构(特别是脂质组学中)的类似研究将具有重要前景。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号