《Biomedical Signal Processing and Control》:OPMD_TCM_PTM: a post-translational modification sites identification model for oral potentially malignant diseases’ traditional Chinese medicine proteins
编辑推荐:
口腔潜在恶性疾病(Oral Potentially Malignant Diseases, OPMD)是一类发生于口腔黏膜并具有恶性转化潜能的疾病。使用中药(Traditional Chinese Medicine, TCM)治疗这两种口腔潜在恶性疾病是一条重
口腔潜在恶性疾病(Oral Potentially Malignant Diseases, OPMD)是一类发生于口腔黏膜并具有恶性转化潜能的疾病。使用中药(Traditional Chinese Medicine, TCM)治疗这两种口腔潜在恶性疾病是一条重要途径。为进一步研究相关中药的生物学功能,研究人员提出了OPMD_TCM_PTM模型,用于分析白芍(Radix Paeoniae Alba)、雷公藤(Tripterygium wilfordii)和丹参(Salvia miltiorrhiza)中的翻译后修饰(Post-Translational Modification, PTM)位点。具体而言,OPMD_TCM_PTM采用轻量级梯度提升机(Light Gradient Boosting Machine, LightGBM)算法解决该分类问题。同时,本研究使用了多种特征,包括自适应跳跃二肽组成(Adaptive Skip Dipeptide Composition, ASDC)、BLOSUM62替换矩阵(BLOSUM 62)、k-间隔氨基酸组组成(Composition of k-Spaced Amino Acid Groups, CkSGAAP)、扩展氨基酸组成(Extended Amino Acid Composition, EAAC)和二肽组成(Dipeptide Composition, DPC)。为寻找有效特征元素,采用了沙普利加法解释(Shapley Additive exPlanations, SHAP)方法。在雷公藤数据集中,性能达到了准确率(Acc)91.78%,F1分数(F1 score)0.8843,马修斯相关系数(MCC)0.8212;在白芍数据集中,Acc为91.75%,F1分数为0.8831,MCC为0.8198;在丹参数据集中,Acc为91.68%,F1分数为0.8831,MCC为0.8191。本研究的源代码公开于 https://github.com/baowz12345/Tri_PTM_DAAM_CNN。
口腔潜在恶性疾病(Oral Potentially Malignant Disorders, OPMD)是一类具有恶性转化风险的口腔黏膜病变,如口腔扁平苔藓和口腔黏膜下纤维化,其恶性转化率可达2%–12%。中药(Traditional Chinese Medicine, TCM)在OPMD治疗中发挥重要作用,例如雷公藤(Tripterygium wilfordii)、白芍(Radix Paeoniae Alba)和丹参(Salvia miltiorrhiza)可通过调节免疫、抗炎等机制缓解病情。然而,这些中药蛋白的翻译后修饰(Post-Translational Modification, PTM)位点识别对于理解其生物学功能和药物作用机制至关重要,但现有方法缺乏针对性。因此,研究人员开发了OPMD_TCM_PTM模型,旨在高效识别上述三种中药蛋白中的PTM位点,为OPMD的中药治疗提供生物信息学工具。该论文发表于《Biomedical Signal Processing and Control》。
研究人员从传统中药系统药理学数据库与分析平台(TCMSP)获取雷公藤(125个蛋白)、白芍(248个蛋白)和丹参(667个蛋白)的UniProt ID,并从UniProt数据库提取PTM位点信息。采用宽度为41的滑动窗口构建肽段样本(PTM位点为正样本,相邻位点为负样本),形成三个不平衡数据集。主要技术方法包括:特征提取阶段使用自适应跳跃二肽组成(Adaptive Skip Dipeptide Composition, ASDC)、BLOSUM62替换矩阵、k-间隔氨基酸组组成(Composition of k-Spaced Amino Acid Groups, CkSGAAP)、扩展氨基酸组成(Extended Amino Acid Composition, EAAC)和二肽组成(Dipeptide Composition, DPC);分类阶段采用轻量级梯度提升机(Light Gradient Boosting Machine, LightGBM),并与线性判别分析(Linear Discriminant Analysis, LDA)、支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)、XGBoost、级联森林(Cascade Forest, CF)等14种主流算法进行对比;特征优化阶段应用沙普利加法解释(Shapley Additive exPlanations, SHAP)方法评估特征重要性并降维。
**3.1 数据集**:研究人员从TCMSP平台获取了雷公藤相关的125个蛋白质、白芍相关的248个蛋白质和丹参相关的667个蛋白质。通过滑动窗口方法(宽度41),雷公藤数据集包含975个正样本和1774个负样本,白芍数据集包含1080个正样本和1976个负样本,丹参数据集包含1303个正样本和2390个负样本。所有样本均为41长度的氨基酸序列。
**3.2 性能评估**:采用14项指标评估预测系统性能,包括准确率(Accuracy, Acc)、错误率(Error_Rate)、精确率(Precision)、召回率(Recall)、特异度(Specificity)、错误发现率(False Discovery Rate, FDR)、错误遗漏率(False Omission Rate, FOR)、阴性预测值(Negative Predictive Value, NPV)、假阳性率(False Positive Rate, FPR)、假阴性率(False Negative Rate, FNR)、马修斯相关系数(Matthews Correlation Coefficient, MCC)、F1分数(F1 score)、AUC和PRAUC。
**3.3 三种中药中各特征的性能**:研究比较了五种特征(ASDC、BLOSUM62、CkSAAGP、DPC、EAAC)在三种中药数据集上分别与多种分类算法组合的表现。总体而言,BLOSUM62和EAAC特征能够获得较好性能,而ASDC、CkSAAGP、DPC特征表现较差。
- **3.3.1 雷公藤数据集**:ASDC、CkSAAGP、DPC特征下,仅有级联森林、决策树和随机森林获得尚可的性能,但特异度较低(如级联森林Sn 95.39%、Sp 28.27%、Acc 61.83%)。BLOSUM62特征下,级联森林、Hist Gradient Boosting、XGBoost和LightGBM表现良好,其中LightGBM达到Acc 91.56%、F1 0.9174、MCC 0.8321。EAAC特征下,XGBoost和LightGBM表现优秀(XGBoost Acc 87.77%、MCC 0.7624),但LightGBM的Acc为85.12%。
- **3.3.2 白芍数据集**:ASDC、CkSAAGP、DPC特征整体表现差(多数算法Acc低于70%)。BLOSUM62特征下,级联森林Acc 91.08%、F1 0.9122、MCC 0.8220,LightGBM Acc 90.54%、F1 0.9078、MCC 0.8119。EAAC特征下仅Hist Gradient Boosting、XGBoost和LightGBM获得可用性能。
- **3.3.3 丹参数据集**:ASDC、CkSAAGP、DPC特征下所有算法性能差;BLOSUM62特征下,LightGBM表现最佳(Acc 92.18%、F1 0.8902、MCC 0.8298),级联森林和Gradient Boosting次之;EAAC特征下,Gradient Boosting、XGBoost和LightGBM表现良好(LightGBM Acc 88.00%、F1 0.8170、MCC 0.7331)。
**3.4 特征构建与选择**:将五种特征组合后,LightGBM在三个数据集上均表现最优(雷公藤Acc 89.82%、F1 0.9001、MCC 0.7970;白芍Acc 91.42%、F1 0.9157、MCC 0.8318;丹参Acc 91.99%、F1 0.8870、MCC 0.8255)。采用SHAP方法进行特征选择后,进一步优化了模型性能。在雷公藤数据集中,SHAP选择的特征组合下,级联森林在准确率和特异度上取得均衡(Acc 91.95%、Sn 92.39%、Sp 82.76%),而随机森林虽准确率高但特异度低(倾向过拟合)。在白芍数据集中,XGBoost、随机森林和MLP表现优异(Acc>88%)。在丹参数据集中,LightGBM仍居首位(Acc 91.99%、F1 0.8870、MCC 0.8255),梯度提升模型整体占优。传统模型如线性判别分析(LDA)和支持向量机(SVM)表现不佳(Acc低于82%、MCC低于0.65),而朴素贝叶斯变体受限于特征独立性假设,MCC低于0.60。
**讨论总结**:研究人员通过SHAP分析揭示了各特征对预测的贡献,并比较了SHAP选择后的特征组合与原始特征组合的效果。结果表明,BLOSUM62和EAAC特征对PTM位点分类贡献较大,而ASDC、CkSAAGP和DPC特征贡献有限。在不同数据集中,SHAP选择后的特征组合能够保持或提高模型性能,尤其LightGBM、Hist Gradient Boosting和XGBoost表现稳定。传统模型在非线性复杂数据上表现不佳。研究强调在类别不平衡数据中,MCC比准确率更能反映模型真实性能,例如Borden Learning虽准确率87.02%但MCC仅0.7418,存在对真阴性偏差。最后,研究人员指出未来方向包括设计更有效的特征表示(如氨基酸残基相互作用和全局序列动力学)、探索针对功能位点预测的先进分类算法,以及集成流形学习或深度学习自编码器等鲁棒降维技术。
**研究结论翻译**:雷公藤、白芍和丹参是广泛用于治疗多种人类和动物疾病的中药,在OPMD治疗中显示疗效。本研究提出的框架利用LightGBM模型和基于轮廓的特征表示,识别与OPMD治疗相关的中药蛋白中的翻译后修饰(PTM)位点。为评估该方法性能,系统融入了ASDC、CkSAAGP、DPC、EAAC和BLOSUM62等多种典型特征描述符,并与多种最先进分类算法进行比较。为优化特征选择,使用SHAP评估特征重要性和降低维度,从而优化预测模型。未来研究需考虑设计更有效的特征表示,特别是融入氨基酸残基相互作用的上下文信息和全局序列动态;探索针对特殊功能位点预测的高级分类算法;以及集成鲁棒的数据降维技术(如流形学习或深度学习自编码器),在保留生物学相关模式的同时最小化计算复杂度。