《Environmental DNA》:Explainable Multimodal Machine Learning Using Combined Environmental DNA and Biogeographic Features for Ecosystem Biomonitoring
编辑推荐:
本文推荐一种创新的多模态机器学习(ML)工作流,该工作流将环境DNA(eDNA)扩增子序列变体(ASV)与生物地理特征(如海拔、生物地理区域和集水区)相结合,用于生态系统生物监测。研究以瑞士163个淡水生物监测点的宏无脊椎动物eDNA数据为例,证明多模态ML方法(准确率83.3%)显著优于仅使用ASV(66.7%)或操作分类单元(OTU, 64.6%)的模型。通过沙普利加性解释(SHAP)分析,揭示了影响预测的关键生物地理特征和物种/类群,为大规模时空尺度下的生态系统监测提供了可解释、高性能的新范式。
摘要
机器学习(ML)作为一种不依赖分类学的环境DNA(eDNA)分析方法,已被提议用于生态系统生物监测。当前ML实践通常使用聚类序列(即操作分类单元OTU)或独特序列(即扩增子序列变体ASV)作为eDNA数据的输入,但效果不一。仅使用eDNA作为ML输入,限制了其在生态系统生物监测和预测方面的潜力。包含物理、气候和生态观测数据的生物地理数据,提供了丰富的潜在信息特征库,可以与eDNA数据结合以增强ML性能。本研究引入了一种利用eDNA和生物地理特征相结合的多模态ML工作流进行生态系统生物监测。差异丰度的ASV与生物地理数据合并后,作为自动化ML方法的输入。以瑞士163个生物监测点采集的淡水宏无脊椎动物eDNA数据集及影响预测为例,多模态ML方法(准确率83.3%)显著优于仅使用ASV(准确率66.7%)或OTU(准确率64.6%)的ML方法。对最佳ML模型的沙普利加性解释(SHAP)分析揭示了影响预测的关键生物地理特征和物种/类群。所提出的工作流可轻松应用于现有的生物信息学/ML流程,并将进一步推动eDNA在大型时空尺度生态系统生物监测中的应用。
1 引言
近期全球报告描绘了生物多样性的严峻前景,人为活动和加速的气候变化正驱动着前所未有的生物多样性衰退。有效的生态系统监测策略对于环境管理和保护工作的成功至关重要。DNA生物监测,特别是eDNA宏条形码技术,作为一种新兴的监测工具,能够从环境样本中同时识别多个类群。与人工方法相比,eDNA宏条形码提供了一种非侵入性、高通量且成本效益高的方法,可在广泛的时空尺度上获取生物多样性清单。
然而,eDNA宏条形码的成功依赖于参考序列的可用性,并且该方法存在PCR扩增和测序偏差。相比之下,de novo方法试图将eDNA宏条形码检索到的生物群落谱(包括已识别和未识别的类群)与已知的生态状态或干扰梯度直接关联。这种方法有望充分利用高通量遗传数据的潜力,迈向更全面的监测范式。为此,机器学习(ML)已成为一种有前景的、不依赖分类学的eDNA生态系统生物监测方法,其能够捕捉环境压力与宏条形码提供的生物多样性之间的复杂非线性关系。
早期研究侧重于使用ML预测传统上通过人工方法获得的生物指数。然而,使用ML推断传统指数也继承了这些指数中存在的误差和偏差,限制了eDNA用于生态评估的附加价值。最近的研究试图通过使用ML直接根据eDNA中存在的特征推断环境状态来规避这些限制。尽管如此,当前仅使用eDNA或遗传数据作为模型训练输入的ML实践,本质上限制了ML方法在生态系统生物监测中的真正潜力,因为仅靠宏条形码不太可能完全解释导致环境变化的复杂驱动因素。
生态系统建模通常采用多种数据模态/类型(例如,地貌、气候、水文、生物和遗传/基因组数据)。相比之下,这种实践尚未在用于生态系统生物监测的eDNA ML方法中被采纳。在这方面,在生物监测点收集的生物地理数据(例如,影响生物体时空分布的地质、生态、气候和生物因素)是一个未开发的潜在高质量特征库,可以与eDNA/遗传数据结合以增强ML性能。然而,eDNA宏条形码数据的高维性(特征或序列数据远多于样本)对多模态ML实施提出了技术挑战。此外,具有混合数据类型的多模态数据集需要仔细的数据表示,以确保不同模态能够有意义地整合。
本研究引入了一种利用eDNA和生物地理数据相结合的多模态ML工作流进行生态系统生物监测。该工作流由模块化组件组成,共同增强了ML方法的可重复性、性能和可解释性。以瑞士163个联邦生物监测点采集的淡水宏无脊椎动物eDNA数据集及影响预测为例,演示了使用六种流行ML模型的多模态ML工作流的应用,并将其性能与仅使用eDNA的ML进行了比较。
2 材料与方法
2.1 eDNA宏条形码数据与位点分类
本研究使用的数据来自163个eDNA采样点,这些位点是瑞士国家地表水质量生物监测计划的一部分。这些位点具有生物地理信息的元数据,特别是相应的生物地理区域、集水区面积和位点海拔。采样于2018年夏季和2019年春季进行,每个位点共收集了四个eDNA水样。使用针对COI标记142 bp片段的引物对扩增DNA样本。制备了COI测序文库,并在Illumina MiSeq上进行测序。如果位点的自然土地利用比例高于33%,则被分类为参考位点,否则为受影响位点,最终得到83个参考位点和80个受影响位点。
2.2 生物信息学
基于DADA2 R包处理COI文库,产生非嵌合扩增子序列变体(ASV),并使用定制的宏无脊椎动物数据库进行 taxonomic 注释。稀有的ASV(出现次数<10)被移除,仅保留序列长度大于137 bp且小于147 bp的ASV。执行最终过滤步骤,移除在阴性对照中相对比例超过0.1%的ASV。将所得ASV使用VSEARCH聚类为操作分类单元(OTU)。使用ANCOM-BC2 R包和Songbird包进行差异丰度(DA)分析。
2.3 多模态机器学习工作流
开发了一个包含五个步骤的多模态ML工作流:差异丰度分析、特征过滤、特征合并、自动化ML和模型解释。该工作流采用ASV作为eDNA分析的标准单位,以增强方法的可重用性和可重复性。差异丰度分析被选为降维/特征选择策略,实施了ANCOM-BC2和差异排序(DR)两种流行的DA分析方法进行ASV选择。选定的ASV进一步使用对数倍数变化(LFC)百分位数阈值进行过滤。合并后的特征表通过自动化机器学习(AutoML)方法用于ML模型训练。实施了六种流行的ML模型:支持向量机(SVM)、随机森林(RF)、轻量梯度提升机(LightGBM)、极限梯度提升(XGBoost)、类别提升(CatBoost)和多层感知器(MLP)。工作流的最后一步是模型解释,使用沙普利加性解释(SHAP)来理解ML模型的决策过程。
2.4 用于影响预测的多模态机器学习
使用二元分类任务(预测位点状态为参考或受影响)来演示和评估所提出的多模态ML工作流的性能。将位点编码为位点-季节以解释潜在的季节效应。将位点-季节样本随机按80:20的比例分为训练集和测试集。在PyCaret中设置ML实验,使用10折交叉验证策略和Optuna调优器进行超参数优化。使用分类准确度评估模型性能。
3 结果
3.1 使用eDNA进行影响预测
首先确定了ASV降维(OTU聚类)和特征选择(DA分析)对ML性能的影响。聚类23,628个ASV产生6,465个OTU,数据量减少72.6%。相比之下,DA分析实现了最显著的数据量减少,ANCOM-BC2识别出293个差异丰度ASV(减少98.8%),DR识别出1,339个差异丰度ASV(减少94.3%)。总体ML分类性能在四个数据集(ASV、OTU、ASV_ANCOM-BC2、ASV_DR)间具有可比性,其中在ASV_DR数据集上训练的MLP模型性能最佳(准确度68.75%)。检查通过LFC百分位数阈值进一步细化ASV_DR数据集对ML性能的影响,确定40th百分位数LFC为ASV_DR的最佳阈值。对最佳MLP模型的SHAP分析确定了影响预测的关键ASV。
3.2 使用eDNA和生物地理数据进行影响预测
比较了六种ML模型使用组合eDNA和生物地理特征数据集与仅使用eDNA的性能。结果显示,使用组合多模态数据集时,所有ML模型的性能均显著提高。最显著的增强出现在MLP模型中,性能提升了12.5%。MLP模型在精确度、召回率和F1分数上也取得了最佳分数。检查MLP的pipeline显示,在从eDNA数据过渡到组合数据时,网络复杂性增加。基于树的模型也从添加生物地理特征中受益。对所有六种ML模型在组合数据集上的SHAP分析证实,生物地理特征对模型预测做出了显著贡献。最佳MLP模型的SHAP图显示,先前在仅使用eDNA的MLP中识别出的三个关键ASV特征仍然存在,并新增了Anochasp.。六个特征对参考类预测有负面影响,其余六个特征有正面影响。
4 讨论
本研究以瑞士淡水生物监测点的影响预测为例,引入了一种利用组合eDNA和生物地理数据的多模态ML工作流,直接推断环境状态。结果表明,在六种流行ML模型中,多模态ML方法显著优于仅使用eDNA数据的ML。所提出工作流的成功可归因于通过选择并丰富高质量特征以及利用组合数据中的附加信息来增强ML性能的协同组件。
工作流的第一步旨在从eDNA序列数据中选择高质量特征,并实现数据降维,为与生物地理数据合并做准备。比较从四个数据集获得的ML性能表明,OTU和DA分析都是有效的降维方法,DA分析实现了与总ASV相当或更好的性能。与OTU相比,ASV具有更高的分类分辨率和可重复性。在本研究中,DA分析在保留影响模型预测的关键特征的同时,实现了ASV数据量94%–99%的显著减少,使其成为ML中特征选择和降维的理想方法。
来自DR的最佳过滤ASV特征表直接与生物地理数据合并,无需进一步数据操作,创建了组合多模态数据集。这一步骤在很大程度上通过使用AutoML框架PyCaret而简化,该框架在模型训练前自动化数据预处理和分类变量编码。当从eDNA数据过渡到组合数据集时,所有六种ML模型均观察到显著的性能提升,为多模态ML方法提供了有力支持。最佳分类性能由MLP模型记录,其次是基于树的模型,最后是SVM模型。结果表明,MLP模型可能更有效地利用组合数据中的信息,部分归因于其能够改变模型复杂性以适应额外的模态。
所提出的多模态ML工作流中的最后一步是模型解释,它使用可解释人工智能技术来理解ML模型的行为和输出。本研究实施了基于特征的XAI方法SHAP,因为它是模型无关的,并且广泛用于ML研究。对于使用eDNA数据的最佳模型,SHAP分析将Baetis rhodani确定为排名最高的ASV特征,对参考预测有负面影响。对现有文献的回顾在很大程度上支持排名靠前的ASV特征具有生物学或生态学意义。通过组合多模态数据集,SHAP分析显示生物地理特征对ML模型预测有显著贡献,同时分类性能提高。对于最佳模型,前10个特征中有六个来自生物地理数据,其余四个来自eDNA。
本研究引入的多模态ML工作流适用于大规模时空尺度的生物监测计划,采用ASV作为标准eDNA分析单位,使其可在国家和国际层面的计划间转移。所提出的工作流也可以适用于多类或回归问题,利用可进行多组测试的DA分析方法和可轻松配置用于分类或回归任务的AutoML框架。或许所提出工作流最令人兴奋的方面是eDNA数据与超越生物地理数据的模态在ML中结合的无限可能性。