KmalPred：一个基于深度学习框架的赖氨酸丙二酰化位点预测工具，该工具利用蛋白质语言模型进行表征

《BMC Biology》：KmalPred: a deep learning framework for lysine malonylation site prediction using protein language model representations

【字体：大中小】 时间：2026年05月20日 来源：BMC Biology 4.5

编辑推荐：

　　摘要背景赖氨酸丙二酰化（Kmal）是一种可逆的翻译后修饰，参与多种物种的代谢调节和其他重要生物过程。准确识别Kmal位点对于理解其生物学功能至关重要，但质谱等实验方法仍然耗时且劳动强度大。现有的计算预测模型通常依赖于局部序列窗口，因此可能无法完全捕捉蛋白质内的长距离上下文信息。结

摘要

背景

赖氨酸丙二酰化（Kmal）是一种可逆的翻译后修饰，参与多种物种的代谢调节和其他重要生物过程。准确识别Kmal位点对于理解其生物学功能至关重要，但质谱等实验方法仍然耗时且劳动强度大。现有的计算预测模型通常依赖于局部序列窗口，因此可能无法完全捕捉蛋白质内的长距离上下文信息。

结果

我们提出了KmalPred，这是一个用于Kmal位点预测的深度学习框架，它结合了基于ProtT5的残基表示方法和双向长短期记忆网络。与传统的首段优先处理方法不同，KmalPred首先对整个蛋白质序列进行编码，然后从得到的残基级嵌入中提取以赖氨酸为中心的窗口。这种先序列后处理的设计保留了全局序列上下文，并避免了在高度重叠的窗口上进行冗余计算。在独立测试集上，KmalPred的准确率为0.78，马修斯相关系数为0.56，优于之前在同一基准测试中评估的其他预测模型。比较分析表明，先序列后处理策略的表现始终优于传统的首段优先处理策略，并且ProtT5提供的残基表示比其他几种广泛使用的蛋白质语言模型更具信息量。该框架在类别不平衡的情况下也能保持稳定的性能。

结论

KmalPred为大规模筛选潜在的Kmal位点提供了一种有效且稳健的方法。更广泛地说，这些结果突显了全序列蛋白质语言模型表示在残基级翻译后修饰预测中的价值，并表明该框架可以很容易地扩展到其他翻译后修饰位点预测任务中。

背景

赖氨酸丙二酰化（Kmal）是一种可逆的翻译后修饰，参与多种物种的代谢调节和其他重要生物过程。准确识别Kmal位点对于理解其生物学功能至关重要，但质谱等实验方法仍然耗时且劳动强度大。现有的计算预测模型通常依赖于局部序列窗口，因此可能无法完全捕捉蛋白质内的长距离上下文信息。

结果

我们提出了KmalPred，这是一个用于Kmal位点预测的深度学习框架，它结合了基于ProtT5的残基表示方法和双向长短期记忆网络。与传统的首段优先处理方法不同，KmalPred首先对整个蛋白质序列进行编码，然后从得到的残基级嵌入中提取以赖氨酸为中心的窗口。这种先序列后处理的设计保留了全局序列上下文，并避免了在高度重叠的窗口上进行冗余计算。在独立测试集上，KmalPred的准确率为0.78，马修斯相关系数为0.56，优于之前在同一基准测试中评估的其他预测模型。比较分析表明，先序列后处理策略的表现始终优于传统的首段优先处理策略，并且ProtT5提供的残基表示比其他几种广泛使用的蛋白质语言模型更具信息量。该框架在类别不平衡的情况下也能保持稳定的性能。