OPMD_TCM_PTM：面向口腔潜在恶性疾病中药蛋白的翻译后修饰位点识别模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：OPMD_TCM_PTM: a post-translational modification sites identification model for oral potentially malignant diseases’ traditional Chinese medicine proteins

【字体：大中小】 时间：2026年06月07日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　口腔潜在恶性疾病（Oral Potentially Malignant Diseases, OPMD）是一类发生于口腔黏膜并具有恶性转化潜能的疾病。使用中药（Traditional Chinese Medicine, TCM）治疗这两种口腔潜在恶性疾病是一条重

口腔潜在恶性疾病（Oral Potentially Malignant Diseases, OPMD）是一类发生于口腔黏膜并具有恶性转化潜能的疾病。使用中药（Traditional Chinese Medicine, TCM）治疗这两种口腔潜在恶性疾病是一条重要途径。为进一步研究相关中药的生物学功能，研究人员提出了OPMD_TCM_PTM模型，用于分析白芍（Radix Paeoniae Alba）、雷公藤（Tripterygium wilfordii）和丹参（Salvia miltiorrhiza）中的翻译后修饰（Post-Translational Modification, PTM）位点。具体而言，OPMD_TCM_PTM采用轻量级梯度提升机（Light Gradient Boosting Machine, LightGBM）算法解决该分类问题。同时，本研究使用了多种特征，包括自适应跳跃二肽组成（Adaptive Skip Dipeptide Composition, ASDC）、BLOSUM62替换矩阵（BLOSUM 62）、k-间隔氨基酸组组成（Composition of k-Spaced Amino Acid Groups, CkSGAAP）、扩展氨基酸组成（Extended Amino Acid Composition, EAAC）和二肽组成（Dipeptide Composition, DPC）。为寻找有效特征元素，采用了沙普利加法解释（Shapley Additive exPlanations, SHAP）方法。在雷公藤数据集中，性能达到了准确率（Acc）91.78%，F1分数（F1 score）0.8843，马修斯相关系数（MCC）0.8212；在白芍数据集中，Acc为91.75%，F1分数为0.8831，MCC为0.8198；在丹参数据集中，Acc为91.68%，F1分数为0.8831，MCC为0.8191。本研究的源代码公开于 https://github.com/baowz12345/Tri_PTM_DAAM_CNN。

口腔潜在恶性疾病（Oral Potentially Malignant Disorders, OPMD）是一类具有恶性转化风险的口腔黏膜病变，如口腔扁平苔藓和口腔黏膜下纤维化，其恶性转化率可达2%–12%。中药（Traditional Chinese Medicine, TCM）在OPMD治疗中发挥重要作用，例如雷公藤（Tripterygium wilfordii）、白芍（Radix Paeoniae Alba）和丹参（Salvia miltiorrhiza）可通过调节免疫、抗炎等机制缓解病情。然而，这些中药蛋白的翻译后修饰（Post-Translational Modification, PTM）位点识别对于理解其生物学功能和药物作用机制至关重要，但现有方法缺乏针对性。因此，研究人员开发了OPMD_TCM_PTM模型，旨在高效识别上述三种中药蛋白中的PTM位点，为OPMD的中药治疗提供生物信息学工具。该论文发表于《Biomedical Signal Processing and Control》。

研究人员从传统中药系统药理学数据库与分析平台（TCMSP）获取雷公藤（125个蛋白）、白芍（248个蛋白）和丹参（667个蛋白）的UniProt ID，并从UniProt数据库提取PTM位点信息。采用宽度为41的滑动窗口构建肽段样本（PTM位点为正样本，相邻位点为负样本），形成三个不平衡数据集。主要技术方法包括：特征提取阶段使用自适应跳跃二肽组成（Adaptive Skip Dipeptide Composition, ASDC）、BLOSUM62替换矩阵、k-间隔氨基酸组组成（Composition of k-Spaced Amino Acid Groups, CkSGAAP）、扩展氨基酸组成（Extended Amino Acid Composition, EAAC）和二肽组成（Dipeptide Composition, DPC）；分类阶段采用轻量级梯度提升机（Light Gradient Boosting Machine, LightGBM），并与线性判别分析（Linear Discriminant Analysis, LDA）、支持向量机（Support Vector Machine, SVM）、随机森林（Random Forest, RF）、XGBoost、级联森林（Cascade Forest, CF）等14种主流算法进行对比；特征优化阶段应用沙普利加法解释（Shapley Additive exPlanations, SHAP）方法评估特征重要性并降维。

**3.1 数据集**：研究人员从TCMSP平台获取了雷公藤相关的125个蛋白质、白芍相关的248个蛋白质和丹参相关的667个蛋白质。通过滑动窗口方法（宽度41），雷公藤数据集包含975个正样本和1774个负样本，白芍数据集包含1080个正样本和1976个负样本，丹参数据集包含1303个正样本和2390个负样本。所有样本均为41长度的氨基酸序列。

**3.2 性能评估**：采用14项指标评估预测系统性能，包括准确率（Accuracy, Acc）、错误率（Error_Rate）、精确率（Precision）、召回率（Recall）、特异度（Specificity）、错误发现率（False Discovery Rate, FDR）、错误遗漏率（False Omission Rate, FOR）、阴性预测值（Negative Predictive Value, NPV）、假阳性率（False Positive Rate, FPR）、假阴性率（False Negative Rate, FNR）、马修斯相关系数（Matthews Correlation Coefficient, MCC）、F1分数（F1 score）、AUC和PRAUC。

**3.3 三种中药中各特征的性能**：研究比较了五种特征（ASDC、BLOSUM62、CkSAAGP、DPC、EAAC）在三种中药数据集上分别与多种分类算法组合的表现。总体而言，BLOSUM62和EAAC特征能够获得较好性能，而ASDC、CkSAAGP、DPC特征表现较差。

- **3.3.1 雷公藤数据集**：ASDC、CkSAAGP、DPC特征下，仅有级联森林、决策树和随机森林获得尚可的性能，但特异度较低（如级联森林Sn 95.39%、Sp 28.27%、Acc 61.83%）。BLOSUM62特征下，级联森林、Hist Gradient Boosting、XGBoost和LightGBM表现良好，其中LightGBM达到Acc 91.56%、F1 0.9174、MCC 0.8321。EAAC特征下，XGBoost和LightGBM表现优秀（XGBoost Acc 87.77%、MCC 0.7624），但LightGBM的Acc为85.12%。

- **3.3.2 白芍数据集**：ASDC、CkSAAGP、DPC特征整体表现差（多数算法Acc低于70%）。BLOSUM62特征下，级联森林Acc 91.08%、F1 0.9122、MCC 0.8220，LightGBM Acc 90.54%、F1 0.9078、MCC 0.8119。EAAC特征下仅Hist Gradient Boosting、XGBoost和LightGBM获得可用性能。

- **3.3.3 丹参数据集**：ASDC、CkSAAGP、DPC特征下所有算法性能差；BLOSUM62特征下，LightGBM表现最佳（Acc 92.18%、F1 0.8902、MCC 0.8298），级联森林和Gradient Boosting次之；EAAC特征下，Gradient Boosting、XGBoost和LightGBM表现良好（LightGBM Acc 88.00%、F1 0.8170、MCC 0.7331）。

**3.4 特征构建与选择**：将五种特征组合后，LightGBM在三个数据集上均表现最优（雷公藤Acc 89.82%、F1 0.9001、MCC 0.7970；白芍Acc 91.42%、F1 0.9157、MCC 0.8318；丹参Acc 91.99%、F1 0.8870、MCC 0.8255）。采用SHAP方法进行特征选择后，进一步优化了模型性能。在雷公藤数据集中，SHAP选择的特征组合下，级联森林在准确率和特异度上取得均衡（Acc 91.95%、Sn 92.39%、Sp 82.76%），而随机森林虽准确率高但特异度低（倾向过拟合）。在白芍数据集中，XGBoost、随机森林和MLP表现优异（Acc>88%）。在丹参数据集中，LightGBM仍居首位（Acc 91.99%、F1 0.8870、MCC 0.8255），梯度提升模型整体占优。传统模型如线性判别分析（LDA）和支持向量机（SVM）表现不佳（Acc低于82%、MCC低于0.65），而朴素贝叶斯变体受限于特征独立性假设，MCC低于0.60。

**讨论总结**：研究人员通过SHAP分析揭示了各特征对预测的贡献，并比较了SHAP选择后的特征组合与原始特征组合的效果。结果表明，BLOSUM62和EAAC特征对PTM位点分类贡献较大，而ASDC、CkSAAGP和DPC特征贡献有限。在不同数据集中，SHAP选择后的特征组合能够保持或提高模型性能，尤其LightGBM、Hist Gradient Boosting和XGBoost表现稳定。传统模型在非线性复杂数据上表现不佳。研究强调在类别不平衡数据中，MCC比准确率更能反映模型真实性能，例如Borden Learning虽准确率87.02%但MCC仅0.7418，存在对真阴性偏差。最后，研究人员指出未来方向包括设计更有效的特征表示（如氨基酸残基相互作用和全局序列动力学）、探索针对功能位点预测的先进分类算法，以及集成流形学习或深度学习自编码器等鲁棒降维技术。

**研究结论翻译**：雷公藤、白芍和丹参是广泛用于治疗多种人类和动物疾病的中药，在OPMD治疗中显示疗效。本研究提出的框架利用LightGBM模型和基于轮廓的特征表示，识别与OPMD治疗相关的中药蛋白中的翻译后修饰（PTM）位点。为评估该方法性能，系统融入了ASDC、CkSAAGP、DPC、EAAC和BLOSUM62等多种典型特征描述符，并与多种最先进分类算法进行比较。为优化特征选择，使用SHAP评估特征重要性和降低维度，从而优化预测模型。未来研究需考虑设计更有效的特征表示，特别是融入氨基酸残基相互作用的上下文信息和全局序列动态；探索针对特殊功能位点预测的高级分类算法；以及集成鲁棒的数据降维技术（如流形学习或深度学习自编码器），在保留生物学相关模式的同时最小化计算复杂度。

联系信箱：

粤ICP备09063491号

热点排行