氨基酸组成驱动肽合成中的聚集:基于机器学习的预测模型与优化策略

《Nature Chemistry》:Amino acid composition drives aggregation during peptide synthesis

【字体: 时间:2026年03月21日 来源:Nature Chemistry 20.2

编辑推荐:

  肽合成中的聚集现象是长期挑战。研究人员利用机器学习分析了肽的氨基酸组成对固相肽合成(SPPS)中聚集的影响。研究发现,氨基酸组成而非序列顺序是聚集的主要决定因素。基于此,研究人员开发了预测模型和优化策略,为高效合成“困难”肽提供了新方法。

  
肽,作为蛋白质的短链片段,是生物体内重要的信号分子、激素和酶。化学家们在实验室中合成这些肽,以研究其功能或开发成药物。然而,在固相肽合成(SPPS)过程中,一个恼人的“幽灵”常常不期而至——肽链在合成过程中会自己折叠、聚集,像一团打结的毛线,这导致合成反应效率低下,目标肽难以获得,甚至完全失败。这不仅造成时间和化学试剂的巨大浪费,也限制了基于肽的药物研发进程。长期以来,科学家们认为这种“困难”的聚集行为是高度序列依赖的,即由氨基酸的特定排列顺序决定,但这种认知大多源于经验和零散的数据,缺乏系统性、可预测的解决方案。
为了解决这一长期瓶颈,一个研究团队在《Nature Chemistry》上发表了一项突破性研究。他们不再依赖传统的化学直觉,而是转而向数据科学寻求答案,利用机器学习这把“放大镜”,深入剖析了肽合成过程中聚集现象的深层规律。他们收集了在自动化快速流动肽合成仪(AFPS)上进行的数百次肽合成数据,通过在线紫外-可见(UV-vis)光谱监测,精准捕捉了表征聚集的“脱保护峰”展宽信号。利用这些数据,研究人员训练了包括语言模型、时间序列模型和经典机器学习模型在内的多种算法,旨在预测给定肽序列是否会聚集。
令人惊讶的是,无论使用多么复杂的模型(如ESM 2.0、BERT、XGBoost),预测准确率都稳定在相似的水平,这暗示着模型可能并未捕捉到传统认为的复杂序列信息。一个关键的实验验证了这一猜想:当研究人员将已知的聚集肽和非聚集肽的氨基酸序列打乱重排,但保持其整体氨基酸种类和比例(即组成)不变时,这些“洗牌”后的肽大多保持了原有的聚集特性。这有力地证明,肽的聚集行为主要取决于其氨基酸组成,而非氨基酸的排列顺序。这一发现挑战了该领域的传统认知。
为了量化每个氨基酸的“贡献”,研究人员利用SHAP (Shapley Additive Explanations) 可解释性分析工具,解析了训练好的XGBoost模型。结果显示,具有脂肪族侧链的氨基酸,如异亮氨酸(Ile)、缬氨酸(Val),以及带有叔丁基(t-Bu)保护基的丝氨酸(Ser(t-Bu))和苏氨酸(Thr(t-Bu)),是促进聚集的“主力军”。相反,带有芳香环或较大极性保护基的氨基酸,如苯丙氨酸(Phe)、天冬氨酸(Asp(t-Bu))和酪氨酸(Tyr(t-Bu)),则倾向于抑制聚集。基于这些洞察,研究不再停留于预测。他们开发了一套实用的算法流程:用户输入目标肽序列和可替换的氨基酸选项,算法不仅能预测其聚集倾向,还能精准定位在肽链C端第2至12位(聚集高发区)中,哪些促进聚集的氨基酸贡献最大,并建议用其“聚集抑制”版本(如伪脯氨酸)进行替换。
研究人员在两个已知的困难序列(hGH和GB1片段)上测试了这一策略。模型准确地指出了贡献最大的Ser(t-Bu)或Thr(t-Bu)位点,用伪脯氨酸替换后,粗品纯度分别提升了46%和58%,从难以处理的聚集肽转变为可高效合成的目标产物。
主要技术方法
本研究综合利用了计算与实验方法。计算方面,核心是机器学习建模与数据分析。研究团队整合了已发表数据集和内部数据集,共包含539个肽合成案例的在线紫外轨迹数据。他们定义了基于“脱保护峰”展宽程度的聚集因子(AF)来二值化标记聚集事件。随后,系统评估了多种模型(包括蛋白质语言模型ESM 2.0、BERT、时间序列分类器HIVE-COTE 2.0,以及经典机器学习模型如XGBoost、随机森林等)和多种肽序列表示方法(如文本、序列编码、指纹、以及最终关键的20维组成向量)的预测性能。实验方面,研究在自动化快速流动肽合成仪(AFPS)平台上进行,该平台集成了在线紫外-可见光谱检测模块,可实时监测合成过程中的耦合与脱保护峰。研究者合成了40条肽序列(8条已知序列及其5个随机重排变体)以验证计算发现,并测试了基于模型建议的伪脯氨酸替换策略的实际效果。
研究结果
预测SPPS过程中的聚集
研究首先利用AFPS平台收集的在线UV-vis数据定义和量化肽合成中的聚集现象。通过比较多种机器学习模型和肽序列表示方法,发现所有模型的预测准确率都相似,这暗示数据集本身或聚集现象的本质可能存在特殊性。
氨基酸组成影响聚集
一个关键的计算实验发现,用随机打乱序列顺序的数据训练模型,其准确率与使用原始序列数据训练相比没有显著下降。更进一步的,仅使用20维的氨基酸组成向量(即只关心每种氨基酸的比例,不关心顺序)作为模型输入,也能达到相当的预测准确率。这强烈表明,氨基酸组成,而非序列顺序,是决定聚集的更主要因素。为验证此计算发现,研究者合成了8条已知聚集特性的肽序列(4条聚集,4条不聚集)及其各自5个随机重排的变体。实验结果显示,大多数(19/20)聚集肽的重排变体依然聚集,而大多数(14/20)非聚集肽的重排变体也保持非聚集特性,且聚集发生的位置也相似,这为“组成主导”的假说提供了坚实的实验证据。
单个氨基酸对聚集的贡献
利用SHAP可解释性分析,研究量化了每个氨基酸对模型预测的贡献值。结果显示,Ser(t-Bu)、Ile、Val和Thr(t-Bu)是促进聚集最主要的氨基酸,而Phe、Asp(t-Bu)、Tyr(t-Bu)和Arg(Pbf)则是最强的聚集抑制者。这揭示了脂肪族/非极性侧链倾向于促进聚集,而芳香族/大体积极性侧链倾向于抑制聚集的化学倾向规律。
训练模型为改进SPPS提出条件
基于以上发现,研究构建了一个由100个XGBoost模型组成的集成预测系统。该系统不仅能预测肽的聚集倾向,还能分析肽链C端关键区域(第2-12位)中每个氨基酸的贡献,并据此为用户推荐最优的氨基酸替换策略(例如,将高贡献的Ser(t-Bu)替换为伪脯氨酸)。在实际测试中,对hGH和GB1两个困难序列应用该策略,成功地将粗品纯度大幅提升,证明了该计算指导方法的实用性。
结论与讨论
本研究通过机器学习驱动的数据分析,颠覆了对固相肽合成中聚集现象的传统理解,揭示出氨基酸组成,而非序列顺序,是驱动聚集的关键因素。这一发现促使研究者发展出一种简单而有效的肽“组成向量”表示法,并在此基础上构建了可预测、可解释的聚集预测模型。通过SHAP分析,研究明确了各个氨基酸及其保护基对聚集的贡献度,为理性设计合成策略提供了分子层面的指导。
更重要的是,这项工作展示了机器学习在化学中超越单纯性质预测的“发现”能力——它帮助科学家看到了数据中隐藏的、反直觉的规律,从而挑战并修正了长期存在的科学认知。研究所开发的算法框架,将预测与优化建议相结合,实现了从“事后补救”到“事前设计”的转变,为化学家合成那些曾被视为“不可合成”的肽提供了强大的新工具。这不仅有望显著提高肽合成的效率和成功率,降低研发成本,也为基于肽的药物发现和蛋白质工程领域铺平了道路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号