利用小蛋白质和多肽素扩展人类蛋白质组

《Nature》：Expanding the human proteome with microproteins and peptideins

【字体：大中小】 时间：2026年05月08日 来源：Nature 48.5

编辑推荐：

　　一项主要的科学驱动力是表征蛋白质编码基因组，这是研究人类健康的基础。然而，一个根本问题在于，之前的分析中遗漏了什么。过去十年中，在人类细胞类型和疾病状态中观察到了非经典开放阅读框（ncORFs）的翻译，这对生物医学科学具有重要意义。然而，知识中的一个关键空白是

一项主要的科学驱动力是表征蛋白质编码基因组，这是研究人类健康的基础。然而，一个根本问题在于，之前的分析中遗漏了什么。过去十年中，在人类细胞类型和疾病状态中观察到了非经典开放阅读框（ncORFs）的翻译，这对生物医学科学具有重要意义。然而，知识中的一个关键空白是，哪些ncORFs产生了对人类蛋白质组有贡献的小蛋白质（microproteins）或替代性蛋白质分子。本研究报道了TransCODE（Translatome Coding Open Reading Frame Discovery）联盟的合作努力，以生成关于ncORFs蛋白质水平证据的一致共识图景。研究表明，在一项对95,520个蛋白质组学实验的大规模分析中，约25%（7264个ncORFs中的约25%）的ncORFs可产生可检测的肽段。研究人员为ncORF编码的小蛋白质作为人类蛋白质开发了一个注释框架，并将“多肽素（peptideins）”这一新概念模型编码为具有不确定功能潜力的微蛋白。为了探究多肽素的生物学意义，研究人员创建了一种称为“开放阅读框相对分支长度”（ORF relative branch length, ORBL）的进化分析方法，并确定进化约束是常见的，并且与ncORF衍生肽的观察相关。接着，研究人员描述了来自OLMALINC长非编码RNA（long non-coding RNA, lncRNA）的一个多肽素的泛必需（pan-essential）细胞表型。总体而言，本研究生成了由GENCODE和PeptideAtlas支持的公共研究工具，并推动了人类蛋白质组中未被充分研究成分的生物医学发现。

研究背景、问题与动机

人类基因组中蛋白质编码基因的数量是否远超过约19,500个经典蛋白质编码基因，近年来引发了激烈争论。蛋白质编码基因是生物医学研究的基石，包括绝大多数药物开发计划。因此，任何对蛋白质编码基因的全面补充都会对人类生物科学产生涟漪效应。然而，目前只有极少数的微蛋白被参考注释目录（如GENCODE和UniProt）注释为经典蛋白质，这主要是因为其不确定的结构和较低的进化约束使其难以被归类为传统蛋白质。另一方面，由隐蔽翻译产生的肽段已成为癌症和其他疾病治疗靶点发现的新兴领域。人类蛋白质组中究竟有多少隐藏的蛋白质组分，以及如何系统性地鉴定、注释和理解这些由非经典开放阅读框（ncORFs）编码的微蛋白，成为该领域的核心挑战。为了应对这一挑战，国际TransCODE联盟成立，旨在为ncORFs及其编码的微蛋白定义参考注释标准。本研究旨在建立一个标准化的分析框架和命名系统，用于为ncORFs分配证据，并将其从研究发现转化为生物学、社会和生物医学影响。

研究概述与方法学

本研究是一项大规模的多组学合作研究，旨在系统性评估人类非经典开放阅读框（ncORFs）的蛋白质水平证据。研究团队由TransCODE联盟、HUPO-HPP/PeptideAtlas项目、HIPP（Human ImmunoPeptidome Project）免疫肽组学项目和GENCODE基因注释小组等多方组成。研究人员的主要目标是建立一条途径，使在存在注释质量的蛋白质组学支持时，将微蛋白注释为参考人类蛋白质；并为特征较少的微蛋白引入“多肽素（peptidein）”这一新的分类方案。

研究的核心方法是整合多层次的组学数据，包括：

1.
大规模蛋白质组学与免疫肽组学数据分析：研究构建了人类非HLA PeptideAtlas 2023-06构建（包含295个ProteomeXchange数据集，35亿个蛋白酶解MS/MS谱图）和人类HLA PeptideAtlas 2023-11构建（包含118个HLA数据集，2.4亿个MS/MS谱图），用于搜索GENCODE支持的7,264个ncORFs。分析采用了严格的错误发现率（FDR）控制和HUPO-HPP蛋白质验证指南（两条长度≥9个残基的独特肽段，最小蛋白质覆盖≥18个残基）。
2.
进化分析：开发了一种名为“开放阅读框相对分支长度”（ORBL）的新方法，用于量化“开放阅读框性”（ORFness）的进化特征，即跨物种的起始密码子、终止密码子和阅读框“开放性”的保守性，而不考虑氨基酸序列的保守性。该方法生成了ORBLv（保守性评分）和ORBLq（约束性评分）来评估ncORFs的进化约束。
3.
功能基因组学筛选：利用CRISPR-Cas9功能丧失筛选、CRISPR激活（CRISPRa）筛选和CRISPR-Cas13 RNA降解筛选数据，结合多细胞系（超过8个）的敲除表型分析，鉴定出对细胞存活至关重要的ncORFs（泛必需基因）。
4.
多组学整合与手动验证：建立了一个基于层级的ncORFs分类系统（分为1A、1B、2A、2B等级别），结合了Ribo-seq（核糖体测序）、蛋白质组学和免疫肽组学证据，并对所有候选肽段和Ribo-seq图谱进行了严格的手动检查，以消除假阳性。
5.
功能验证：对候选的多肽素（如c10riboseqorf92）进行了敲低/敲除和功能拯救实验，并结合单细胞RNA测序（scRNA-seq）和转录组分析，探究其生物学功能和潜在的分子机制。

研究结果

1. 微蛋白注释工作流程

研究人员扩展了PeptideAtlas平台的范围，构建了大规模的非HLA和HLA肽图谱。在严格的FDR（<0.1%）和HUPO-HPP验证标准下，对7,264个ncORFs进行了搜索，确保了高置信度的检测。分析显示，在非HLA构建中，识别经典人类蛋白质的能力接近饱和。

2. 消化质谱数据集中的微蛋白

在常规肽段数据（主要是胰蛋白酶消化）中，研究人员在183个ncORFs（约占2.5%）中发现了484个通过FDR阈值的肽段。然而，由于微蛋白尺寸小，在胰蛋白酶肽段检测中存在偏差。通过手动检查MS谱图和Ribo-seq数据，并利用合成肽段光谱匹配和并行反应监测（PRM）进行验证，最终确认了66个ncORF（30个有两条肽段支持，36个有一条肽段支持）。使用替代性蛋白酶可以增加小蛋白的鉴定数量和覆盖度。

3. 作为HLA-I呈递肽段的微蛋白

在HLA肽图谱分析中，研究人员在1,785个ncORFs（占24.6%）中发现了3,116个肽段。绝大多数（94.3%）是由HLA-I类分子呈递的，表明这些肽段最常来源于细胞内蛋白质翻译产物池。多种因素影响微蛋白在HLA数据中的可检测性，包括长度和ncORF在转录本中的位置。手动检查了859个HLA-I MS谱图和691个匹配的Ribo-seq图谱，验证了其中613个（88.7%）ncORFs的Ribo-seq信号。多个已发表研究中发现的ncORFs验证率更高。

4. HLA-I呈递肽的特征

研究人员分析了HLA-I肽段结合预测与免疫肽组学数据之间的一致性。对于大多数HLA-I MS运行，超过70%的检测到的HLA-I肽段被预测为结合剂。微蛋白肽段与经典蛋白质一样，具有预测的与注释HLA类型结合的可能性。研究人员检查了使微蛋白或其部分更可能在HLA-I数据中被检测到的关键决定因素，发现氨基酸序列、长度和组织表达模式都起作用。例如，检测到的微蛋白的等电点高于未检测到的，而检测到的经典蛋白质则呈现相反模式。微蛋白的C末端部分优先被用作HLA呈递的来源，这种富集程度强于经典蛋白质。RNA表达水平对检测有影响，检测到的微蛋白表达量显著更高。使用HLA配体图谱数据比较不同组织中微蛋白衍生肽段与注释的蛋白质编码序列（CDS）衍生HLA-I肽段的比例，发现胃组织中的ncORF编码肽段比例略有下降，而脊髓和子宫则显示出轻微的富集。

5. 解释ncORFs的进化见解

大多数ncORFs缺乏其氨基酸序列的明确进化约束，但常规方法可能无法充分捕捉其作为ORF的约束。为此，研究人员开发了ORBL工具。计算了人类蛋白质编码CDSs和GENCODE ncORFs的ORBLv评分。分析表明，许多ncORFs表现出进化约束。例如，7,264个ncORFs中的2,211个（30.4%）具有胎盘哺乳动物ORBLq > 0.9。相比之下，只有极少数的ncORFs在氨基酸保守性指标上得分。研究发现，被HLA-I肽段检测到的ncORFs的ORBLq评分显著高于未被检测到的，特别是在uORF和intORF子集中。这表明ORF水平的进化约束特征与ncORF编码微蛋白的HLA-I肽段检测相关。

6. 蛋白质编码ncORFs的注释

研究人员设计了一个基于层级的ncORFs分类系统，以简化其注释模式和生物学解释。从该系统中，研究人员重点介绍了几个状态向经典蛋白质编码基因转变的ncORFs。这些ncORFs属于1A级分类，表明其在常规蛋白质组学和Ribo-seq数据中有足够的支持以满足HUPO-HPP蛋白质验证指南。经过手动检查，确定了20个1A级候选者，但进一步审查后，由于假基因序列、GRCh38组装错误和Ribo-seq证据不足，此列表减少到15个。GENCODE已将其中三个注释为蛋白质编码基因。

7. 多肽素：状态不明确的候选物

对于许多具有强实验数据的ncORFs，目前的数据尚不足以达到蛋白质注释的阈值。为此，研究人员引入了“多肽素”这一统称术语，定义为具有实验证实的RNA翻译和蛋白质合成，但目前数据不足以声称其具有经典蛋白质编码基因状态的ORF。研究人员确定了三类可能符合多肽素条件的ncORF。1B级和2B级包括其微蛋白具有高置信度HLA-I证据的ncORF，证实了这些位点的蛋白质合成。2A级ncORFs有一条胰蛋白酶MS肽段支持其微蛋白，这可能捕获了因太短而无法产生多条肽段的候选物。这样的多肽素值得密切关注，因为未来的数据生成可能将其重新分类为蛋白质编码基因。

8. 功能基因组学增强注释

研究人员假设，整合功能基因组学可能突显出一部分在细胞生物学中具有作用的ncORFs。通过整合敲除表型证据来定义编码潜在泛必需蛋白质的候选物。研究人员采用逐步方法，包括：（1）在8个人类细胞系中对超过2,000个ncORFs进行功能丧失型CRISPR-Cas9筛选；（2）过滤在指定细胞中具有足够表达和翻译的候选；（3）检查HLA肽段证据；（4）通过包含饱和诱变努力在内的25个CRISPR筛选的荟萃分析进行优先排序；（5）通过ORBL评估进化约束。总体而言，研究人员确定了51个表现出泛必需敲除特征的ncORFs。其中，六个ncORFs（基于其编码微蛋白的HLA肽段证据）有资格作为候选多肽素或蛋白质编码基因。其中，c2riboseqorf47（GMCL1基因中的一个1B级uORF）被提名为蛋白质编码基因，并已被GENCODE注释为蛋白质编码基因ENSG00000310604。这体现了在没有胰蛋白酶MS支持的情况下，整合功能基因组学、进化分析和免疫肽组学来提名蛋白质编码基因。

9. OLMALINC产生一种必需的多肽素

研究人员利用已发表的ncORF饱和诱变筛选数据，定义了ncORF必需性的功能富集评分。分析揭示了c10riboseqorf92和c3riboseqorf106表现出选择性适应性丧失的特征。研究人员聚焦于c10riboseqorf92，它是位于OLMALINC转录本上的一个123个氨基酸的序列。c10riboseqorf92被鉴定为一种泛必需遗传依赖性。表达c10riboseqorf92编码序列可以挽救OLMALINC敲低后观察到的活力丧失表型，表明具有ORF特异性功能。通过敲除模式的相关性分析和转录组分析，研究人员提名了c10riboseqorf92的潜在生物学作用。敲除分析显示与有丝分裂和DNA损伤调控相关的基因富集。转录组分析发现，在表达c10riboseqorf92的细胞中，有513个基因丰度增加，456个基因丰度减少。差异调控基因与细胞代谢和DNA损伤反应相关。单细胞RNA测序分析进一步证实了c10riboseqorf92敲除可诱导有丝分裂和染色体相关过程的上调，以及翻译和代谢相关过程的下调。尽管累积数据支持c10riboseqorf92，但由于其功能证据目前仅限于转化的细胞系或癌症，它仍被注释为多肽素。

讨论与结论

讨论：

本研究反映了TransCODE联盟、HUPO-HPP/PeptideAtlas项目、HIPP免疫肽组学项目和GENCODE基因注释小组之间的多方合作，旨在形成一种可推广的方法来理解哪些ncORFs可以被视为编码蛋白质。本研究有助于解决蛋白质鉴定和蛋白质编码基因注释这两个不同概念之间的张力。为解决这一悖论，研究人员引入了“多肽素”这一注释概念：指内源性检测到的高置信度翻译产物，但目前无法验证其在正常生理学中的作用。多肽素还包括细胞应激或有缺陷的核糖体翻译的潜在瞬时产物。本研究对121个初步多肽素注释进行了分类。本研究的另一项创新是能够调整新的证据线来界定ncORFs为蛋白质编码基因。开发ORBL方法来分析ORF进化约束、评估基于CRISPR的功能推断以及优先考虑HLA免疫肽段支持，对于将c2riboseqorf47确立为蛋白质编码基因至关重要。本研究还指出了针对小蛋白质的新兴技术和方法学创新，有助于通过质谱进行鉴定。同时，许多ncORFs似乎产生免疫肽段但不产生胰蛋白酶肽段。一些多肽素即使没有正常生物学的生理基础，也可能具有直接的生物医学意义。最后，研究人员强调了当前工作的四个局限性：样本类型在蛋白质编码基因注释中的作用；侧重于数据依赖性采集；强调大规模手动检查；ORBL进化分析的若干局限性。

结论：

本研究报告了TransCODE联盟与蛋白质组学、免疫肽组学和基因注释领域的利益相关者合作，为7,264个ncORFs建立了蛋白质水平证据的共识理解。通过本研究，研究人员通过将微蛋白和替代性蛋白质分子定义为蛋白质编码基因或多肽素（指已确认但后果不确定的蛋白质分子的新概念），将其纳入参考基因注释。最后，研究人员通过PeptideAtlas公开了所有ncORFs、肽段和谱图。

热点排行