氨基酸组成驱动肽合成中的聚集：基于机器学习的预测模型与优化策略

《Nature Chemistry》：Amino acid composition drives aggregation during peptide synthesis

【字体：大中小】 时间：2026年03月21日 来源：Nature Chemistry 20.2

编辑推荐：

　　肽合成中的聚集现象是长期挑战。研究人员利用机器学习分析了肽的氨基酸组成对固相肽合成(SPPS)中聚集的影响。研究发现，氨基酸组成而非序列顺序是聚集的主要决定因素。基于此，研究人员开发了预测模型和优化策略，为高效合成“困难”肽提供了新方法。

肽，作为蛋白质的短链片段，是生物体内重要的信号分子、激素和酶。化学家们在实验室中合成这些肽，以研究其功能或开发成药物。然而，在固相肽合成(SPPS)过程中，一个恼人的“幽灵”常常不期而至——肽链在合成过程中会自己折叠、聚集，像一团打结的毛线，这导致合成反应效率低下，目标肽难以获得，甚至完全失败。这不仅造成时间和化学试剂的巨大浪费，也限制了基于肽的药物研发进程。长期以来，科学家们认为这种“困难”的聚集行为是高度序列依赖的，即由氨基酸的特定排列顺序决定，但这种认知大多源于经验和零散的数据，缺乏系统性、可预测的解决方案。

为了解决这一长期瓶颈，一个研究团队在《Nature Chemistry》上发表了一项突破性研究。他们不再依赖传统的化学直觉，而是转而向数据科学寻求答案，利用机器学习这把“放大镜”，深入剖析了肽合成过程中聚集现象的深层规律。他们收集了在自动化快速流动肽合成仪(AFPS)上进行的数百次肽合成数据，通过在线紫外-可见(UV-vis)光谱监测，精准捕捉了表征聚集的“脱保护峰”展宽信号。利用这些数据，研究人员训练了包括语言模型、时间序列模型和经典机器学习模型在内的多种算法，旨在预测给定肽序列是否会聚集。

令人惊讶的是，无论使用多么复杂的模型（如ESM 2.0、BERT、XGBoost），预测准确率都稳定在相似的水平，这暗示着模型可能并未捕捉到传统认为的复杂序列信息。一个关键的实验验证了这一猜想：当研究人员将已知的聚集肽和非聚集肽的氨基酸序列打乱重排，但保持其整体氨基酸种类和比例（即组成）不变时，这些“洗牌”后的肽大多保持了原有的聚集特性。这有力地证明，肽的聚集行为主要取决于其氨基酸组成，而非氨基酸的排列顺序。这一发现挑战了该领域的传统认知。

为了量化每个氨基酸的“贡献”，研究人员利用SHAP (Shapley Additive Explanations) 可解释性分析工具，解析了训练好的XGBoost模型。结果显示，具有脂肪族侧链的氨基酸，如异亮氨酸(Ile)、缬氨酸(Val)，以及带有叔丁基(t-Bu)保护基的丝氨酸(Ser(t-Bu))和苏氨酸(Thr(t-Bu))，是促进聚集的“主力军”。相反，带有芳香环或较大极性保护基的氨基酸，如苯丙氨酸(Phe)、天冬氨酸(Asp(t-Bu))和酪氨酸(Tyr(t-Bu))，则倾向于抑制聚集。基于这些洞察，研究不再停留于预测。他们开发了一套实用的算法流程：用户输入目标肽序列和可替换的氨基酸选项，算法不仅能预测其聚集倾向，还能精准定位在肽链C端第2至12位（聚集高发区）中，哪些促进聚集的氨基酸贡献最大，并建议用其“聚集抑制”版本（如伪脯氨酸）进行替换。

研究人员在两个已知的困难序列（hGH和GB1片段）上测试了这一策略。模型准确地指出了贡献最大的Ser(t-Bu)或Thr(t-Bu)位点，用伪脯氨酸替换后，粗品纯度分别提升了46%和58%，从难以处理的聚集肽转变为可高效合成的目标产物。

主要技术方法

本研究综合利用了计算与实验方法。计算方面，核心是机器学习建模与数据分析。研究团队整合了已发表数据集和内部数据集，共包含539个肽合成案例的在线紫外轨迹数据。他们定义了基于“脱保护峰”展宽程度的聚集因子(AF)来二值化标记聚集事件。随后，系统评估了多种模型（包括蛋白质语言模型ESM 2.0、BERT、时间序列分类器HIVE-COTE 2.0，以及经典机器学习模型如XGBoost、随机森林等）和多种肽序列表示方法（如文本、序列编码、指纹、以及最终关键的20维组成向量）的预测性能。实验方面，研究在自动化快速流动肽合成仪(AFPS)平台上进行，该平台集成了在线紫外-可见光谱检测模块，可实时监测合成过程中的耦合与脱保护峰。研究者合成了40条肽序列（8条已知序列及其5个随机重排变体）以验证计算发现，并测试了基于模型建议的伪脯氨酸替换策略的实际效果。

研究结果

预测SPPS过程中的聚集

研究首先利用AFPS平台收集的在线UV-vis数据定义和量化肽合成中的聚集现象。通过比较多种机器学习模型和肽序列表示方法，发现所有模型的预测准确率都相似，这暗示数据集本身或聚集现象的本质可能存在特殊性。

氨基酸组成影响聚集

一个关键的计算实验发现，用随机打乱序列顺序的数据训练模型，其准确率与使用原始序列数据训练相比没有显著下降。更进一步的，仅使用20维的氨基酸组成向量（即只关心每种氨基酸的比例，不关心顺序）作为模型输入，也能达到相当的预测准确率。这强烈表明，氨基酸组成，而非序列顺序，是决定聚集的更主要因素。为验证此计算发现，研究者合成了8条已知聚集特性的肽序列（4条聚集，4条不聚集）及其各自5个随机重排的变体。实验结果显示，大多数（19/20）聚集肽的重排变体依然聚集，而大多数（14/20）非聚集肽的重排变体也保持非聚集特性，且聚集发生的位置也相似，这为“组成主导”的假说提供了坚实的实验证据。

单个氨基酸对聚集的贡献

利用SHAP可解释性分析，研究量化了每个氨基酸对模型预测的贡献值。结果显示，Ser(t-Bu)、Ile、Val和Thr(t-Bu)是促进聚集最主要的氨基酸，而Phe、Asp(t-Bu)、Tyr(t-Bu)和Arg(Pbf)则是最强的聚集抑制者。这揭示了脂肪族/非极性侧链倾向于促进聚集，而芳香族/大体积极性侧链倾向于抑制聚集的化学倾向规律。

训练模型为改进SPPS提出条件

基于以上发现，研究构建了一个由100个XGBoost模型组成的集成预测系统。该系统不仅能预测肽的聚集倾向，还能分析肽链C端关键区域（第2-12位）中每个氨基酸的贡献，并据此为用户推荐最优的氨基酸替换策略（例如，将高贡献的Ser(t-Bu)替换为伪脯氨酸）。在实际测试中，对hGH和GB1两个困难序列应用该策略，成功地将粗品纯度大幅提升，证明了该计算指导方法的实用性。

结论与讨论

本研究通过机器学习驱动的数据分析，颠覆了对固相肽合成中聚集现象的传统理解，揭示出氨基酸组成，而非序列顺序，是驱动聚集的关键因素。这一发现促使研究者发展出一种简单而有效的肽“组成向量”表示法，并在此基础上构建了可预测、可解释的聚集预测模型。通过SHAP分析，研究明确了各个氨基酸及其保护基对聚集的贡献度，为理性设计合成策略提供了分子层面的指导。

更重要的是，这项工作展示了机器学习在化学中超越单纯性质预测的“发现”能力——它帮助科学家看到了数据中隐藏的、反直觉的规律，从而挑战并修正了长期存在的科学认知。研究所开发的算法框架，将预测与优化建议相结合，实现了从“事后补救”到“事前设计”的转变，为化学家合成那些曾被视为“不可合成”的肽提供了强大的新工具。这不仅有望显著提高肽合成的效率和成功率，降低研发成本，也为基于肽的药物发现和蛋白质工程领域铺平了道路。

热点排行