PlasticEnz:基于同源性与机器学习的宏基因组塑料降解酶集成鉴定工具开发与应用

《PLOS Computational Biology》:PlasticEnz: An integrated database and screening tool combining homology and machine learning to identify plastic-degrading enzymes in meta-omics datasets

【字体: 时间:2026年01月30日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文开发了一款开源工具PlasticEnz,通过整合定制隐马尔可夫模型(HMM)、DIAMOND比对和基于ProtBERT嵌入的聚合物特异性分类器(XGBoost/神经网络),实现了对11种塑料聚合物(特别是PET和PHB)降解酶的高效检测。该工具在独立测试集上F1值>0.7,可区分塑料污染与原始环境,为微生物塑料降解潜力研究提供了快速、可扩展的解决方案。

  
PlasticEnz数据库构建与工具设计
研究团队通过整合176篇文献中的213个独特蛋白序列,构建了包含酶基因名称、定位、催化域等详细注释的PlasticEnz数据库。通过CD-HIT聚类(95%相似度)和T-Coffee多序列比对生成聚合物特异性HMM图谱,支持包括P3HP、PBAT、PBS、PBSA、PCL、PEA、PET、PHB、PHBV、PLA等11类塑料降解酶的检测。工具支持contigs、基因组或蛋白序列输入,结合HMMER/DIAMOND同源搜索与机器学习分类,可选敏感模式(神经网络)或高精度模式(XGBoost)。
机器学习模型性能评估
针对PET和PHB降解酶的分类任务,XGBoost模型在独立测试中表现出更高精度(PET: 0.95, PHB: 1.0),而神经网络模型召回率更优(PET: 1.0, PHB: 0.88)。两类模型F1值均超过0.7,但受训练数据类别不平衡影响,对其他聚合物(如PLA、PBAT)分类性能有限。模型选择基于网格搜索优化,采用ProtBERT生成蛋白嵌入特征,并通过早停法和丢弃法防止过拟合。
工具工作流程与基准测试
PlasticEnz工作流包括基因预测(Prodigal)、同源筛选(E值<1×10?5,bitscore>20)、ProtBERT嵌入提取及ML分类。运行时测试显示,处理1Gb数据可在35分钟内完成。与eggNOG-mapper等工具对比,PlasticEnz敏感模式在PET酶注释中表现最佳(F1=0.97,MCC=0.95),PHB注释中同样领先(F1=0.67)。
环境样本验证应用
在Laguna Madre微宇宙实验中,工具检测到PHB生物膜中PHB解聚酶同源物显著富集(bitscore=108.4),而PETase信号始终较低,与原始研究结论一致。对塑料污染土壤(如Sewapura、Varamin)与原始热泉样本的比较显示,污染环境中塑料降解酶候选物数量及HMM bitscore均显著更高。序列进化分析表明,高置信度预测的PETase与已知参考酶(如PET_SEED_51、PET_SEED_60)聚类紧密。
局限性与展望
当前工具性能受限于已验证塑料降解酶的数据规模,ML模块仅支持PET/PHB分类。未来将通过实验验证扩展数据库,提升模型泛化能力。工具已开源(GitHub: msysbio/PlasticEnz),支持多核并行计算,为宏基因组中塑料降解潜力的规模化筛查提供标准化方案。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号