基于语言模型的毕赤酵母密码子优化新工具Pichia-CLM：有效提升异源蛋白表达产量

《Proceedings of the National Academy of Sciences》：Pichia-CLM: A language model–based codon optimization pipeline for Komagataella phaffii

【字体：大中小】 时间：2026年02月19日 来源：Proceedings of the National Academy of Sciences 9.4

编辑推荐：

　　本文推荐一种名为毕赤酵母-密码子语言模型（Pichia-CLM）的深度学习方法，用于对工业宿主Komagataella phaffii（毕赤酵母）进行密码子优化，以增强重组蛋白生产。研究表明，该模型可无偏见地从宿主基因组中学习氨基酸到密码子的映射，相较四种商业工具，其在六类复杂度各异的蛋白中均能实现更优的表达滴度，并揭示了传统密码子使用偏性（CUB）指标与蛋白产量间的弱相关性，为生物制造提供了高效新策略。

研究意义

重组蛋白是生物制药、化妆品及食品乳品等行业的关键原材料。提高异源蛋白的产量对于经济高效的大规模生产至关重要。密码子优化，连同细胞工程、培养基设计和工艺优化等其他策略，是实现这一目标的重要方法。遗传密码具有简并性，大多数氨基酸可由至少两个、至多六个密码子编码。然而，同义密码子的使用既非均匀也非随机，在许多生物中表现出所谓的密码子使用偏性。这种偏性受宿主生物、基因背景和功能、以及密码子在基因内的位置等多种因素调控。传统的密码子优化方法依赖基于密码子使用偏性的指标，如密码子适应指数等，但这些指标通常提供全局评分，忽略了序列上下文。本研究提出了一种基于深度学习的语言模型——毕赤酵母-密码子语言模型，旨在无偏见地从宿主基因组中学习氨基酸到密码子的映射规律，以优化在工业相关宿主Komagataella phaffii中表达的重组蛋白。

摘要

同义密码子的使用偏好——即所谓的密码子使用偏性——受宿主生物、基因背景和功能、以及密码子自身在基因内的位置等多种因素调控。我们证明，这种映射关系可以利用语言模型从宿主基因组中学习，并随后应用于宿主表达的异源蛋白的密码子优化。该流程被称为毕赤酵母-密码子语言模型，应用于工业宿主生物Komagataella phaffii。使用该方法，异源蛋白的产量相较于其原始序列提高了最多三倍。此外，与市售工具相比，Pichia-CLM在复杂度各异的蛋白质上均能持续产生具有更高生产力的构建体。最后，我们表明Pichia-CLM生成的序列具有与宿主内源性宿主细胞蛋白中发现的密码子使用特性相似的性质，并根据基因组数据中的模式学习到了避免负性顺式调控元件和重复元件等特征。这些结果表明了语言模型无偏见地学习模式并设计稳健序列以改进蛋白质生产的潜力。

结果

Pichia-CLM架构的设计与分析

Pichia-CLM采用基于门控循环单元的编码器-解码器架构，便于编码密码子选择的位置和邻近上下文信息。它使用蛋白质的氨基酸序列作为输入，并基于从宿主氨基酸和编码序列中学到的模式生成相应的DNA序列。研究首先在计算机中评估了Pichia-CLM方法的性能，使用测试集评估模型预测编码序列的准确性。两种备选架构（Arch1与Arch2）在验证集上显示出可比的平均预测准确率。两种架构在测试集上预测蛋白质编码序列时，平均准确率在75%至80%之间。进一步比较了两种架构设计异源蛋白生产序列的能力，评估了六种复杂度各异的蛋白质，包括人生长激素、人粒细胞集落刺激因子等。两种架构对所有测试分子产生的滴度和细胞比生产率相当，其中Arch1在人生长激素和一种VHH纳米抗体上表现出略微但具有统计学意义的改进性能。因此，后续评估主要集中于Arch1。

接下来，通过分析模型学习的氨基酸和密码子嵌入的UMAP投影来解释模型学习到的模式。模型学习到的氨基酸嵌入根据物理化学性质（脂肪族、芳香族、碱性、酸性/酰胺基、醇类）将它们分离开来。在密码子的嵌入空间中，模型根据密码子编码氨基酸的特性进行了适当分组。这些结果突显了语言模型从序列数据中学习有意义且物理相关模式的能力，而无需显式编码这些属性。

Pichia-CLM在提升Komagataella phaffii中蛋白分泌性能方面的表现

在计算机评估之后，研究通过实验验证了该方法在生成密码子优化序列方面的性能。首先，评估了使用Pichia-CLM生成的基因构建体分泌的蛋白滴度与其天然编码序列的比较。选择了三种来自人类的大小和复杂度各异的蛋白质：人生长激素、人粒细胞集落刺激因子和人血清白蛋白。观察到分泌蛋白产量的提升程度因分子复杂性而异。对于人生长激素和人粒细胞集落刺激因子等蛋白，观察到的提升约为25%，而对于人血清白蛋白，提升约为3倍。

接着，将Pichia-CLM与四种市售密码子优化工具的性能进行了比较。使用两个指标评估了六种分子：1）# BestTiter，代表特定方法在多少种分子上获得了最佳滴度；2）Aggregated score，即不同蛋白相对滴度的总和。总体而言，Pichia-CLM在两个指标上都优于商业算法。它在六分之五的蛋白中获得了最佳滴度。在商业算法中，GenScript仅在一个分子上获得了最佳滴度，但其滴度始终保持在最大滴度的80%至100%之间，因此在聚合得分上表现最佳。Thermo排名第二，在六分之三的蛋白中获得了最佳滴度，但在剩余分子中的表现不佳影响了其聚合得分。

随后评估了Pichia-CLM设计的构建体在产品质量方面的表现，因为同义密码子替换会影响蛋白质的构象、稳定性和翻译后修饰。通过SDS-PAGE比较不同密码子优化构建体和天然序列产生的产物及产物相关变体，结果显示不同构建体的条带位置相似。此外，通过为期三天的延长培养实验，评估了培养基养分耗竭是否导致不同算法优化的序列达到相似的滴度上限。结果显示，蛋白滴度随时间推移单调增加，表明在实验条件下未达到养分限制。

遗传序列特性评估

验证了Pichia-CLM在异源蛋白生产方面的性能后，接着研究了不同设计构建体的遗传序列特性。密码子优化（包括其他报道的蛋白质语言模型所实现的）通常基于多种密码子使用偏性指标之一来执行或评估。研究评估了这些密码子使用偏性指标与六种测试蛋白生产数据之间的相关性。结果显示，这些指标中没有一种在不同蛋白之间与滴度显示出持续的高相关性。例如，在人血清白蛋白中，仅观察到与密码子波动性和密码子频率分布的最大正相关性为0.43，而与密码子对分数的最大负相关性仅为0.25。这些相关性模式的差异突显了计算整个序列的全局指标无法有效代表异源蛋白生产相关特征的局限性。

接着评估了不同密码子优化构建体中负性顺式调控元件的存在情况。对于六种测试蛋白，Pichia-CLM方法设计的构建体未产生任何负性顺式调控元件。进一步分析了Pichia-CLM为52种生物技术相关蛋白质设计的构建体中负性顺式调控元件的存在情况。对于75%的蛋白质，Pichia-CLM方法未产生负性顺式调控元件，其余25%的蛋白质最多有两个元件。相比之下，在蛋白生产中表现最佳的商业算法GenScript，为15%的这些蛋白质生成的构建体包含三到六个元件。此外，Pichia-CLM设计的所有构建体都不含负性重复元件。

最后，通过计算预测的RNA二级结构的最小折叠自由能，评估了不同构建体的预测mRNA稳定性。对于六种实验测试的蛋白质，Pichia-CLM设计的构建体获得了为每个分子设计的全部构建体中观察到的80%至100%的最小折叠自由能。尽管观察到蛋白产量存在差异，但除Azenta外，所有商业算法也产生了稳定的RNA二级结构。研究观察到RNA稳定性越高，滴度总体上呈增加趋势，但也识别出稳定性较低但滴度较高的构建体，反之亦然。因此，在滴度与mRNA稳定性之间无法推断出强相关性，这再次强调了各种因素对蛋白质生产的复杂和组合影响。

不同算法的密码子优化原则解读

不同算法在生产和遗传序列特性上的差异源于各自用于密码子优化的不同原则。由于这些底层差异，Pichia-CLM与各种商业工具设计的构建体之间仅有80%的序列相似性。在不同商业算法中，Azenta和Thermo彼此之间共享略高的序列相似性（84%）。

然而有趣的是，Pichia-CLM与IDT和GenScript分别显示出81%和92%的Jaccard相似性。序列相似性是衡量两个构建体在相同位置上使用相同密码子数量的位置特异性指标。而Jaccard相似性度量则不是位置特异性的，它衡量两个构建体共享的密码子占两个构建体所用总密码子的比例。因此，Pichia-CLM、GenScript和IDT之间较高的Jaccard评分相似性表明这些算法使用了相似的密码子集。相比之下，Pichia-CLM与Azenta和Thermo构建体仅共享约60%的Jaccard相似性，表明它们的设计中使用了显著不同的密码子集。

通过比较不同构建体的%MinMax谱图，密码子选择的差异更加明显。Azenta和Thermo的%MinMax谱图在所有窗口中均为正分，表明这些工具主要依赖于频繁密码子的使用。这也反映在这些算法较低的稀有密码子百分比和较高的密码子相似性指数上。这一结果并不意外，因为Azenta的密码子优化策略依赖于用频繁密码子替换，而Thermo的算法则基于密码子频率分布进行采样，以最大化密码子适应指数。

与Azenta和Thermo不同，Pichia-CLM、GenScript和IDT都在其构建体中同时使用频繁和稀有密码子，将%MinMax分数维持在-50%到+50%之间，这解释了它们之间较高的Jaccard相似性。这三种方法也给出了相似的稀有密码子含量和GC含量。尽管存在这些相似性，但这些算法实现的蛋白产量存在显著差异。Pichia-CLM和IDT生成的构建体的实验性能差异显著，尽管它们的稀有密码子含量、GC含量和密码子相似性指数相似。这些差异可归因于%MinMax谱图的差异和构建体序列相似性的偏差，从而强调了在密码子优化中考虑密码子位置和上下文效应的重要性，而非仅仅依赖全局指标。

有趣的是，Pichia-CLM设计的序列展示的稀有密码子使用、GC含量和密码子相似性指数落在Komagataella phaffii宿主细胞蛋白相应特性的25%至75%百分位分布范围内。为了进一步验证这一趋势，我们检查了Pichia-CLM为52种生物技术相关蛋白质进行密码子优化的构建体的这些特性。这52种异源蛋白质的特性分布与毕赤酵母宿主细胞蛋白的分布非常吻合，两种分布具有可比的中位值。总体而言，这表明Pichia-CLM已经学会了Komagataella phaffii将氨基酸序列映射到编码序列的“语言”，因此生成的序列在遗传序列特性上与内源性宿主细胞蛋白相似。

讨论

本研究提出了一种基于语言模型的流程，用于对工业相关宿主生物Komagataella phaffii进行密码子优化。我们验证了Pichia-CLM在实验和理论特性上的性能。首先，我们证明了我们的方法在提高多种复杂度各异的蛋白质产量方面持续优于市售的密码子优化工具。此外，我们还证明了其能够生成具有有利遗传序列特性的构建体，例如避免负性重复元件、最小化负性顺式调控元件以及稳定的mRNA二级结构，而无需为此进行显式训练。我们进一步表明，该模型恰当地学习了氨基酸的密码子家族。此外，它还直接从序列数据中学习了氨基酸之间物理化学性质的相似性，从而突显了这类方法学习物理相关行为的能力。最后，我们证明Pichia-CLM生成的构建体具有与Komagataella phaffii宿主细胞蛋白相似的序列特性，这可能是由于模型将宿主序列数据中学到的“语言”应用到了异源蛋白质上。

同义密码子的选择因物种、蛋白质以及蛋白质内的位置和上下文而异。因此，通过密码子优化来适当调整异源蛋白的编码序列，以增强兼容性和后续的蛋白生产非常重要。然而，最先进的密码子优化方法依赖于使用根据各种假设定义的、有偏见的指标来量化密码子使用偏性。正如我们在此所展示的，这些密码子使用偏性指标与不同蛋白质的产量并不一致地相关，突显了单一全局指标无法有效捕捉同义密码子选择的原则。

本文展示的基于语言模型的方法提供了一种无偏见的学习范式，用于学习宿主生物中连接氨基酸序列和编码序列的原则。此外，与最先进的方法不同，这种方法可以将其学习中的位置和上下文信息编码进去。虽然之前已经展示过此类方法，但所提出模型的实验验证有限。在本研究中，我们在六种复杂度各异的独特蛋白质上通过实验验证了我们的Pichia-CLM流程，并在理论上使用另外52种生物技术相关的蛋白质验证了其性能。此外，我们在此证明了这种密码子优化在增强分泌性异源蛋白产量方面的能力。然而，该工具也可用于提高Komagataella phaffii自身天然蛋白或其他整合到宿主中的基因的产量。

本研究一个潜在的局限性在于该模型是针对单一宿主生物训练的。然而，该模型可以通过在各自基因组上训练而适用于其他物种。通过包含物种特定的起始标记，该模型还可以扩展以纳入多个物种，从而能够根据同义密码子偏好的相似性学习密码子使用和相关生物的一般模式和物种特定模式。增加多物种模型中的物种数量并扩展包含的数据集，也可能受益于更先进的架构，如基于Transformer的模型。

热点排行

新闻专题