通用型直接蛋白质测序:InstaNexus

《Molecular & Cellular Proteomics》:Generalizable direct protein sequencing with InstaNexus

【字体: 时间:2026年03月05日 来源:Molecular & Cellular Proteomics 5.5

编辑推荐:

  蛋白质序列的精确测定是生物学研究的核心,但对于抗体、纳米抗体等治疗性蛋白,现有方法存在依赖参考基因组、产出片段化、流程繁琐等局限。本研究为解决这些挑战,开发了InstaNexus工作流,它整合了优化的多酶样本制备、AI驱动的从头肽段测序(InstaNovo)和定制化组装算法,成功重建了多种蛋白质的连续序列。其新颖的复合评分框架优先考虑长序列和覆盖率,提升了准确性。该工作流实现了不依赖模板的直接蛋白质测序,在治疗发现、免疫分析和蛋白质科学领域具有广阔应用前景。

  
在生命科学的精密世界里,蛋白质是执行几乎一切生命活动的核心“机器”。准确解读这些“机器”的“设计图纸”——即蛋白质的氨基酸序列,对于理解生命过程、发现新药、诊断疾病乃至应对生物安全威胁都至关重要。然而,与可以通过PCR(聚合酶链式反应)轻松扩增的DNA/RNA不同,蛋白质无法被简单复制放大,这给其“测序”带来了根本性挑战。当前,以质谱(Mass Spectrometry, MS)为核心的蛋白质组学技术是主流,但普遍依赖于与已知参考序列数据库的比对。这就带来了一个尴尬的局面:对于那些尚未被“记录在案”的全新蛋白质,特别是自然界中原本不存在、由人工设计产生的蛋白质,或者像抗体、纳米抗体(Nanobody, Nb)这样因高度变异而无法在标准数据库中准确匹配的治疗性蛋白,传统方法往往束手无策。这些“无证”蛋白恰恰是现代生物医药领域的明星,它们在癌症治疗、病毒中和、生物标志物发现等方面发挥着不可替代的作用。为了给它们“上户口”,科学家们常常需要经历繁琐的细胞操作、文库构建和复杂的生物信息学分析,过程耗时耗力,且往往只能得到片段化的序列信息,难以拼凑出完整的“图纸”。现有的一些改进策略,如开放式搜索或多酶消化,虽然增加了灵活性,但也带来了假阳性率高、计算成本飙升、流程复杂等新问题。因此,开发一种不依赖参考序列、能够从头(de novo)直接、准确、完整测定蛋白质序列的通用型工作流,成为了蛋白质科学领域一个迫切而关键的“卡脖子”难题。
为了攻克这一难题,来自丹麦技术大学诺和诺德基金会生物可持续性研究中心的研究团队在《Molecular 》上发表了他们的研究成果。他们开发了一个名为InstaNexus的端到端(end-to-end)优化工作流,成功实现了对多种蛋白质的直接测序。这个工作流巧妙地融合了高效的实验方案与先进的计算方法,旨在绕开对参考数据库的依赖,直接从质谱数据中“破译”蛋白质的完整序列。
研究人员为开展此项研究,主要运用了以下几个关键技术方法:首先,他们建立并优化了一套多蛋白酶消化样本制备流程,系统测试并筛选了14种蛋白酶(如胰蛋白酶、糜蛋白酶、弹性蛋白酶、嗜热菌蛋白酶等),最终确定了一个包含10种蛋白酶的优化组合,用于生成多样化且相互重叠的肽段,整个制备过程可在4小时内完成,仅需微克级的蛋白样品。其次,利用AI驱动的从头肽段测序工具InstaNovo对质谱产生的串联质谱(MS/MS)数据进行解读,预测肽段序列。然后,他们开发了创新的计算组装流程,结合了贪婪重叠算法和De Bruijn图(De Bruijn Graph, DBG)两种策略,将预测出的短肽序列像拼图一样组装成更长的连续序列(Contig)和支架序列(Scaffold)。最后,通过系统性的超参数网格搜索新颖的复合评分框架,对组装过程和结果进行优化与评估,该框架综合考虑了序列覆盖度、连续性(N50)、支架数量及平均序列同一性等多个指标,以筛选出最优的候选蛋白序列。
InstaNexus,一个用于直接蛋白质测序的优化工作流
该工作流始于使用多蛋白酶面板对蛋白质样品进行酶解,旨在产生具有广泛互补性的肽段以最大化序列覆盖。随后,通过质谱分析获得肽段碎裂图谱,并利用InstaNovo进行从头测序得到肽段序列预测。最后,通过包含数据清洗、基于贪婪算法和DBG的双重组装、支架形成、聚类比对及共识序列生成的计算管线,最终输出一组高置信度的候选蛋白质序列。
InstaNexus在肽段水平产生高质量预测和序列覆盖
以牛血清白蛋白(Bovine Serum Albumin, BSA)为模型蛋白的测试表明,InstaNovo预测的肽段在其置信度评分与准确性之间表现出良好的相关性。通过Winnow工具进行错误发现率(False Discovery Rate, FDR)控制后,在10% FDR阈值下可保留超过80%的序列覆盖度。对不同蛋白酶贡献的分析显示,糜蛋白酶、弹性蛋白酶、嗜热菌蛋白酶和蛋白酶K等不仅提供了高数量的肽段-谱图匹配(Peptide-Spectrum Match, PSM),其肽段映射到参考序列的效率也超过75%。多蛋白酶策略产生了广泛且互补的序列覆盖。
超参数调优通过识别最优设置提升支架水平覆盖度
通过对组装算法中的关键参数(如FDR、大小阈值、k-mer大小、最小重叠等)进行系统的网格搜索优化,研究团队能够最大化组装序列的质量。在BSA上,优化后的流程能够实现近乎全长的序列组装,并构建出能够清晰显示氨基酸偏好性的位置特异性评分矩阵(Position-Specific Scoring Matrix, PSSM)和序列标识图。
InstaNexus产生长连续序列并检测纳米抗体中的高变区
将工作流应用于10个纳米抗体时,InstaNexus在大多数样本中实现了高覆盖度。重要的是,对于功能关键的互补性决定区(Complementarity Determining Region, CDR),特别是CDR2,显示了高且一致的肽段覆盖信号。以纳米抗体6为例,组装出的支架序列与参考序列比对显示高度准确,并且能够在一个单一支架内完全准确地恢复CDR1和CDR2。
一个用于抗体测序的准确工作流
对三种单克隆抗体(monoclonal Antibody, mAb)的测序表明,工作流对其重链和轻链均能实现高覆盖度。以mAb1重链为例,组装结果能够完全恢复CDR1和CDR2,并部分恢复CDR3。研究还挑战性地测试了包含五个不同mAb的寡克隆抗体混合物,尽管样本复杂性增加导致组装连续性指标(如N50和最大长度)在个别抗体上略有下降,但序列覆盖度和平均同一性仍与单独测序时相当,展示了方法处理复杂混合物的潜力。
InstaNexus可对从头设计的结合剂进行测序
工作流进一步应用于三个为靶向癌症抗原而从头设计的迷你结合剂(mini-binder, miBd)。其中miBd3取得了最好的结果,获得了超过70个氨基酸的连续序列支架,尽管在N末端和一些重复序列区域存在覆盖缺口,但证明了该方法对完全人工设计蛋白的测序能力。
InstaNexus产生准确支架并最小化实验验证所需的序列数量
通过与现有组装工具ALPS的对比,InstaNexus在多个样本上取得了更优或相当的组装质量综合评分(Assembly Quality Score, AQS)。该评分综合考虑了覆盖度、精确度、平均同一性和支架数量,表明InstaNexus能在保持高准确度和覆盖度的同时,产出更简洁的高置信度候选序列列表,从而显著降低了后续实验验证的负担。
结论与讨论
本研究成功开发并验证了InstaNexus这一通用型直接蛋白质测序工作流。它通过整合优化的多酶快速样本制备、高性能AI从头肽段测序以及创新的双策略组装与评分算法,有效解决了当前蛋白质测序领域对参考数据库依赖、产出片段化、流程繁琐等核心挑战。该工作流在牛血清白蛋白、纳米抗体、单克隆/寡克隆抗体以及从头设计结合剂等多种蛋白类型上均表现出色,能够实现高覆盖度、高准确度的序列重建,并特别擅长恢复抗体等高变蛋白中的关键功能区域(CDRs)。与现有方法相比,InstaNexus不依赖模板,具有更广的通用性,并通过参数优化和复合评分提供了更优的组装质量与结果简洁性。
尽管当前方法在区分异亮氨酸(Ile)与亮氨酸(Leu)等同量异位氨基酸、处理极度复杂的多克隆混合物或实现100%无歧义的单一完整序列组装方面仍存在局限,但其展现出的性能已能提供极具行动指导意义的生物信息。这项工作标志着蛋白质组学向更精准、更独立方向迈进的重要一步。它不仅为治疗性抗体的快速发现与表征、免疫图谱分析、新型酶与生物制剂挖掘提供了强大工具,也为生物威胁检测、蛋白质设计验证等新兴领域开辟了新途径。随着从头测序模型准确性的持续提升以及对更多翻译后修饰(Post-Translational Modification, PTM)的支持,结合更先进的质谱技术,未来有望实现不依赖任何参考数据库的完整蛋白质组测序,彻底革新我们解读蛋白质“生命密码”的方式。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号