《Nature Communications》:Community benchmarking and evaluation of human unannotated microprotein detection by mass spectrometry based proteomics
编辑推荐:
为解决质谱(MS)检测未注释微蛋白结果差异大、可信度低的问题,研究人员对12项已发表研究进行了系统性评估。结果表明,免疫肽组学(HLA)数据中约65%的微蛋白检测有高质量谱图支持,而常规酶切蛋白质组学(non-HLA)数据中仅7.8%可信。该研究强调了优化分析流程和报告标准对推动微蛋白领域发展的重要性。
在生命科学的广阔图景中,人类基因组曾被视为一本已基本破译的密码书。然而,随着核糖体测序(Ribo-Seq)技术的发展,科学家们惊讶地发现,在传统注释的蛋白质编码基因之外,还存在大量被翻译的短开放阅读框(sORFs)。这些sORFs可能编码被称为"微蛋白"的小分子蛋白质,它们虽然个头小,但可能在肌肉生理、癌症等众多生命过程中扮演重要角色。然而,这些微蛋白通常丰度低、稳定性差、序列独特,给传统的质谱(MS)检测方法带来了巨大挑战。
近年来,多项研究尝试利用基于质谱的蛋白质组学技术来验证这些由Ribo-Seq预测的微蛋白。但令人困惑的是,不同研究报道的微蛋白数量差异巨大,从几十个到近五千个不等,且不同研究间的结果重叠率极低。这种巨大的差异引发了科学界的质疑:这些报道的微蛋白检测结果到底有多少是真实可靠的?当前质谱技术检测微蛋白的真实能力如何?
为了回答这些关键问题,由匹兹堡大学的Anne-Ruxandra Carvunis领导的大型国际合作团队在《Nature Communications》上发表了他们的研究成果。研究人员对2019-2022年间发表的12项相关研究进行了系统性评估,涵盖了近万条据报道支持未注释微蛋白检测的肽段证据。这项工作堪称微蛋白研究领域的首次"社区大检验",旨在客观评估当前质谱技术检测微蛋白的可靠性,并为未来研究提供实用指南。
研究团队采用了多种分析方法。首先,他们使用ProteoMapper工具评估报道肽段与已注释蛋白的匹配情况,发现12%的肽段可能实际上源于已知蛋白或其变体。接着,研究核心是对406条肽段-谱图匹配(PSM)进行专家手动评估,六位质谱专家根据预设标准对每条PSM进行1-5分评分,评估指标包括碎片离子覆盖度、连续离子系列、信噪比等。为验证评估一致性,155条PSM由两位评估者独立评分。团队还将手动评估结果与机器学习方法(如Oktoberfest)预测的谱图相似性进行比较。此外,他们利用iRibo程序整合109项Ribo-Seq数据,分析微蛋白翻译水平与PSM质量的关系。对于免疫肽组学数据,还使用NetMHC工具预测肽段与MHC分子的结合能力。
研究结果揭示了微蛋白检测领域的严峻现实和希望之光。首先,不同研究报道的未注释蛋白数量存在三个数量级的差异,且96%的报道肽段仅出现在单一研究中,缺乏可重复性。更令人担忧的是,12%的报道肽段可能实际上匹配已知注释蛋白或其变体,不能作为未注释蛋白的独特证据。
专家手动评估结果则呈现明显的两极分化。免疫肽组学(HLA)研究中报道的PSM质量普遍较高,平均评分达3.8,70%的PSM被评为高质量(4-5分)。相比之下,常规酶切蛋白质组学(non-HLA)研究的PSM平均评分仅为2.3,仅15%达到高质量标准。特别值得注意的是,三项研究(van Heesch et al. 2019、Douka et al. 2021和Chothani et al. 2022)的PSM平均评分甚至不超过阴性对照。
评估者间的一致性较高(相关系数r=0.82),且手动评分与机器学习预测的谱图相似性呈中度相关(r=-0.56),表明专家评估与计算方法存在共识但也有差异。有趣的是,在免疫肽组学数据中,被NetMHC预测为MHC结合肽段的PSM评分显著高于非结合肽段,进一步验证了评估标准的可靠性。
研究还发现,高质量PSM对应的sORFs具有更高的核糖体测序读数,表明其翻译水平更高,这与高丰度蛋白更易被质谱检测的预期一致。出乎意料的是,高质量PSM对应的预测蛋白长度反而比低质量PSM的蛋白短约37个氨基酸。
基于评估结果,研究团队推断了整个数据集中可能被高质量证据支持的未注释蛋白数量。在免疫肽组学数据中,约65%(3,706/5,705)的报道未注释蛋白可能有高质量PSM支持;而在常规蛋白质组学数据中,这一比例仅为7.8%(137/1,749)。这一巨大差异凸显了两种技术在微蛋白检测能力上的本质区别。
为什么免疫肽组学能提供更可靠的微蛋白证据?研究人员提出了多种解释:HLA结合肽可能来自快速降解的微蛋白,这些蛋白在常规样品中难以检测;免疫肽组学通过富集HLA结合肽降低了样品复杂性;技术平台和实验室差异也可能贡献了效果差异。而对于为何许多研究在控制1%假发现率(FDR)后仍报告低质量谱图,研究指出,全蛋白质组FDR控制并不等同于未注释蛋白列表的FDR控制。在微蛋白数量远少于已知蛋白的情况下,即使全蛋白质组FDR为1%,未注释蛋白列表中的假阳性比例可能仍然很高。
基于这些发现,研究团队为未来微蛋白研究提出了一系列实用建议,包括使用ProteoMapper等工具确保肽段对未注释蛋白的唯一支持性;报告未注释蛋白特异性FDR而不仅是全蛋白质组FDR;通过合成肽段验证、手动评估PSM子集等方式提高证据质量;以及公开质谱数据并提供通用谱图标识符(USI)。
这项研究的意义在于首次对微蛋白质谱检测领域进行了系统性评估,既指出了当前方法的局限性,也为未来研究指明了方向。研究表明,虽然常规蛋白质组学数据中确实存在真实可靠的微蛋白检测结果,但其数量可能远低于部分文献报道。而免疫肽组学则展现了检测微蛋白的巨大潜力,特别是对于那些可能快速降解的微蛋白。
研究人员强调,微蛋白研究领域仍处于起步阶段,技术限制意味着当前质谱可能仅能检测到冰山一角。数千个由Ribo-Seq鉴定的sORFs仍蕴含着发现生物医学相关微蛋白的巨大潜力。未来需要通过方法学创新,包括提高质谱灵敏度、优化样品前处理、开发专门的数据分析工具等,来突破当前蛋白质检测能力的边界。
这项社区基准研究不仅提供了对当前微蛋白检测现状的客观评估,还通过提供406条手动评估的PSM数据集,为开发更有效的微蛋白检测算法和流程提供了宝贵资源。随着技术的进步和标准的统一,微蛋白这一"暗蛋白质组"的奥秘将逐渐被揭开,有望为人类健康和疾病治疗带来新的见解和机遇。