cNED框架：利用SHAP可解释的环境阈值对大型河流中的核心微生物群落和代谢功能进行建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Water Research》：The cNED framework: modeling core microbial communities and metabolic functions with SHAP-interpretable environmental thresholds in large rivers

【字体：大中小】 时间：2026年02月09日 来源：Water Research 12.4

编辑推荐：

　　本研究开发了新型组成神经编码器-解码器（cNED）框架，基于长江上游473份样本的环境变量与微生物组成数据，识别出157个核心OTU，揭示温度和空间梯度是关键驱动因素，并建立微生物群落与碳、氮循环的非线性关系模型，为河流生态系统管理提供理论支持。

卢伦辉|詹星倩|林珊珊|李哲|唐琼|肖燕|张园园|王电昌

中国科学院重庆绿色智能技术研究院湖泊与流域水安全国家重点实验室，中国重庆400714

摘要

河流生态系统中的微生物群落调节生物地球化学循环，并作为环境污染物的天然生物修复剂。然而，由于微生物相互作用和生态系统尺度反馈的复杂性，准确预测它们对变化条件的动态响应仍然是一个重大的科学挑战。本文开发了一种新的组合神经编码器-解码器（cNED）框架，该框架基于来自长江上游的473个样本的广泛收集，将环境变量与微生物谱型联系起来。通过占位频率方法从27,932个OTU中鉴定出157个核心细菌OTU，这些OTU主要受确定性组装过程的调控。鉴定出的核心微生物组与碳和氮循环具有显著的功能关联。与传统建模方法（多层感知器、随机森林、线性回归）相比，cNED框架表现出更优的预测性能，在分类预测和功能谱型预测方面实现了高准确性（碳循环：R2 = 0.85；氮循环：R2 = 0.52）。Shapley加性解释（SHAP）分析确定了空间梯度和温度是关键的环境驱动因素。广义加性模型揭示了门和功能特定的临界点：变形菌门表现出双阈值热生态位（20.5–27°C），而像甲基营养和固氮这样的功能对温度和总氮（TN）的非线性响应，显示出单峰或单调转变。本研究开发的cNED框架为预测微生物群落和环境扰动的功能响应建立了一个可解释的预测框架，为基于证据的河流生态系统管理和气候适应策略提供了宝贵的见解。

引言

河流生态系统是地球生物地球化学网络中的关键节点，不仅作为陆地到海洋物质传输的通道，还作为调节碳、氮等元素的关键转化的动态生物反应器（Aufdenkampe等，2011；Battin等，2023）。微生物群落通过多种代谢活动（包括碳呼吸、硝化、反硝化和固氮）驱动这些过程，从而调节生态系统功能和全球温室气体通量（Karimi等，2017；Whitman等，1998）。核心微生物组的概念已经出现，用于识别在时空梯度中持续存在并保持关键生态功能的系统发育保守的分类单元。核心微生物组分类单元作为环境生物传感器，将累积的压力因素整合成可测量的群落级特征（Kuang等，2016），使其成为生态系统健康评估和预测建模的宝贵指标。然而，在大型河流网络中，微生物群落的高多样性和动态性质使得从环境驱动因素定量预测核心微生物组的结构和功能变得具有挑战性。

传统上，微生物生态学依赖于线性统计模型和经典方法，如共现网络、基于生态位的模型和基于机制的动力学公式来描述群落模式并推断组装机制，而不是明确预测微生物群落的组成和功能（Averill等，2022；Gonzalez等，2012；Monod，1949；Volterra，1926）。当前关于河流微生物组的研究围绕两个主要范式展开：通过基于标记基因的方法进行分类特征描述以界定生物多样性模式（Buttigieg和Ramette，2014；Kolmakova等，2014；Read等，2015），以及研究群落组装机制，这些机制对比了环境过滤（例如pH和营养梯度）与随机组装过程（例如扩散限制）（Geng等，2024；Ramoneda等，2023；Wu等，2022）。虽然这些框架大大推进了我们对微生物生态学的理解，但它们主要是描述性和定性的，依赖于加性、独立性或低维相互作用的假设，而这些假设在受水文、气候和地球化学梯度影响的河流生态系统中很少得到满足（Lin等，2014；Ovaskainen等，2017；Ruiz-González等，2015；Shi等，2016）。

机器学习提供了一种数据驱动的替代方法，能够捕捉环境驱动因素与微生物群落响应之间的高维和非线性关系（Ghannam和Techtmann，2021）。近年来，随机森林、极端梯度提升（XGBoost）和基于神经网络的模型已被成功用于预测淡水、土壤和河口生态系统的微生物群落组成和功能基因丰度（Thompson等，2019；Wang等，2024）。然而，当扩展到大型、空间异质性的河流系统时，现有的计算框架仍然存在关键限制。广泛使用的模型如XGBoost通常将微生物分类单元视为独立特征，从而忽略了微生物组数据固有的组成约束，而具有组成意识的方法，包括用于组成微生物组数据的基于核的回归框架KernelBiome、用于组成数据分析的深度学习（DeepCoDA）和组成神经常微分方程（cNODE），往往受到有限的可扩展性、限制性假设（例如线性分解或通用动态）的约束，或者专注于分类而不是端到端的群落结构和功能重建（Abe等，2021；Chen和Guestrin，2016；Huang等，2023；Michel-Mata等，2022；Quinn等，2020）。在这些假设在具有强烈空间异质性和显著环境梯度的大型河流流域中很难得到证明。

由于微生物组数据集通常由稀有和短暂的分类单元主导，因此基于丰度-占位标准（例如，≥90%的样本出现率和≥0.1%的相对丰度）的核心微生物组方法常用于识别生态上持久且功能上相关的群落成员（Shade和Stopnisek，2019）。除了这些通用建模框架外，最近还提出了一些直接从微生物组数据中识别核心或功能重要分类单元的方法。集成商数量优化（EQO）寻找其组合丰度最好解释环境或功能变量变化的分类单元集合，提供了一种无需注释、数据驱动的方法来从复杂群落中划分功能类群（Shan等，2023）。基于深度学习的基石物种识别（DKI）框架类似地量化了几乎移除单个分类单元对群落组成或功能的预测影响，从而根据它们的“基石性”对分类单元进行排名（Wang等，2023）。这些方法为发现具有特定表型的核心或基石群体提供了强大的工具，但它们并不是作为端到端的、组合模型设计的，能够共同预测环境梯度上的群落组成和功能谱型。因此，河流微生物组研究仍然缺乏能够将环境梯度映射到流域尺度上的分类结构和功能特征的定量、具有组成意识且生态上可解释的预测模型。

淡水环境中的微生物群落是重要的生物指标，对环境压力、水质和土地利用强度高度敏感（Cirella（编）和Zerbe（编），2014）。在本研究中，微生物阈值指的是沿环境梯度的生态临界点，在这些点上环境变量对分类单元丰度或功能潜力的边际效应的方向或大小发生非线性变化。研究应用了分段回归、高斯模型和阈值指示分类单元分析等方法来识别微生物阈值（King和Baker，2010）。阈值作为制度转变的早期预警指标，可以指导在河流景观中设定安全操作或建设限制的监管工作（Kelly等，2015；Zhang等，2024）。然而，人类活动（例如土地利用强度）与流域微生物动态之间的关系，以及微生物对气候、水文和地理因素的空间依赖性和阈值范围仍然知之甚少。

因此，为了克服这些限制，开发了一种组合神经编码器-解码器（cNED）框架，以系统地研究环境因素对河流微生物群落的分类结构和与碳/氮相关的功能特征的联合影响。该模型架构整合了多维环境变量，以同时预测微生物群落组成和功能谱型。为了阐明影响微生物群落的关键因素，采用了Shapley加性解释（SHAP）分析来定量评估特征重要性。基于这些发现，引入了临界点和浓度窗口的概念作为微生物群落组成和功能谱型的调节机制。本研究为河流生态系统中的靶向微生物代谢管理建立了理论框架，为环境监测和生物修复策略提供了宝贵的见解。

研究区域和数据收集

长江是世界第三长的河流，发源于青藏高原，向东流经中国，最终注入东海。这条河流主干具有丰富的水力发电潜力，估计容量为8320万千瓦，每年可产生约3620亿千瓦时的电能（Yang和Huang，2021）。

在本研究中，从长江上游采集了50厘米深的表层水样本。采样区域从四川省巴塘开始

长江上游的核心微生物组

从473个水样中获得了45,691,553条高质量细菌16S rRNA基因序列（详细信息见补充材料）。分类学将这些序列归入68个门、206个纲、529个目、2,256个科、6,476个属和27,932个OTU。前500个OTU的分析显示，长江上游的浮游细菌群落主要由少数高度丰富的分类单元主导（补充图S2）。

占位-丰度

讨论

河流中浮游细菌群落的巨大分类多样性和变异性对准确建模和预测其结构和功能提出了重大挑战（Liu等，2019；Sogin等，2006）。预测微生物群落的机制动态模型和多元回归方法通常需要高覆盖度、高质量的时间序列数据，而这些数据既难以获得又成本高昂（Friedman等，2017；Stein等，2013）。在本研究中，

CRediT作者贡献声明

卢伦辉：概念化、方法论、调查、初稿撰写、审阅与编辑，詹星倩：数据管理、数据分析及图表准备、初稿撰写、审阅与编辑，林珊珊：方法论、数据分析及图表准备，李哲：撰写、审阅与编辑、监督、资金获取，唐琼：撰写、审阅与编辑，肖燕：撰写、审阅与编辑，张园园：调查、数据管理、撰写

数据可用性

本研究共分析了473个测序样本。所有样本均已存放在国家基因组数据中心（NGDC），生物项目访问号为PRJCA040392（提交ID：subPRO059418；https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA040392）。尽管还有额外的原始数据上传到仓库（总共498个样本），但只有这里报告的473个样本被纳入分析。所有存档的数据都是有效的，可供下载。

CRediT作者贡献声明

卢伦辉：撰写——审阅与编辑、初稿撰写、方法论、调查、资金获取。詹星倩：撰写——审阅与编辑、初稿撰写、软件、方法论、正式分析、数据管理。林珊珊：初稿撰写、方法论、正式分析、数据管理。李哲：撰写——审阅与编辑、调查、资金获取。唐琼：调查、数据管理。肖燕：调查、资金获取。张园园：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究主要得到了国家自然科学基金（项目编号U2340222、52470202）的支持。此外，还得到了中国科学院国际合作伙伴计划（项目编号309GJHZ2024110GC）和中国三峡集团的研究项目（项目编号BWL202200489和202403005）的支持。卢伦辉博士还得到了重庆绿色智能技术研究院独立原创研究项目的资助

热点排行

新闻专题

联系信箱：

粤ICP备09063491号