一种基于稳态观测数据和动力学系统模型的稀疏字典学习方法来识别微生物群落中的关键微生物：KeySDL

《BioData Mining》：KeySDL: sparse dictionary learning for keystone microbe identification from steady-state observations using a dynamical-systems model

【字体：大中小】 时间：2026年02月22日 来源：BioData Mining 6.1

编辑推荐：

　　本文提出了一种名为KeySDL的新型计算框架，通过引入广义Lotka-Volterra (GLV) 模型假设和稀疏字典学习 (Sparse Dictionary Learning, SDL) 技术，从有限数量的稳态微生物群落样本中精确推断关键微生物。该方法有效克服了传统机器学习需要大量数据、共现网络无法捕捉非线性动力学的局限，并为预测结果提供了可解释的动态模型参数。文章通过大量仿真和体外、植物实验验证了KeySDL在小样本、高噪声条件下的鲁棒性，是微生物生态学和精准医学领域一项具有重要意义的创新工具。

在微生物群落研究中，如何精准识别对群落结构和功能具有重要影响的关键微生物，始终是核心挑战之一。传统方法如基于相关性的共现网络分析，受限于其无法捕捉微生物动力学的非线性和状态依赖性。而新兴的机器学习方法，如基于深度学习的识别框架，虽然表现良好，但对样本量要求较高，且产生的复杂神经网络模型往往难以解释，这在数据有限的微生物研究中是一个重大障碍。

KeySDL方法的提出

为此，研究人员提出了一种名为KeySDL的新方法。该方法的核心思路是，将观测到的微生物群落样本数据，假设为一个广义Lotka-Volterra (GLV) 动力系统处于不同稳态时的输出。GLV模型是生态学和微生物学中广泛用于模拟种间相互作用的经典模型。通过这一假设，可以将原本的非线性动力学微分方程，在稳态条件下转化为线性方程组，极大地简化了问题求解的复杂度。然后，利用稀疏字典学习 (SDL) 这一技术来求解这个欠定的线性方程组，从而估计出GLV模型中的相互作用矩阵_A和生长率向量_r。为了确保解的合理性，SDL过程中还加入了约束，例如要求_A矩阵对角线元素为负值，以避免模拟出现无限增长。基于学习到的系统参数，可以计算出每个微生物被移除（即设置为灭绝）后，新稳态与原稳态之间的差异，该差异用Bray-Curtis不相似度_{K_BC}来量化，即代表该微生物的“关键性”或“基石性”。

处理组成型数据

由于高通量扩增子测序产生的数据本质上是相对丰度（即组成型数据），无法直接用于要求绝对丰度的GLV模型。为解决这一问题，研究人员引入了复制者动力学 (Replicator Dynamics) 模型。研究表明，通过适当的映射关系，复制者系统能够精确地捕获GLV系统的组成型动态轨迹及其稳态。因此，KeySDL同样可以应用于组成型数据，通过求解相应的线性方程，恢复出复制者系统的相互作用矩阵_F，进而进行关键性评估。

模型性能验证

研究人员通过一系列仿真实验验证了KeySDL的性能。在模拟中，他们生成了包含50个物种的GLV系统，并使用仅500个随机抽样的稳态观测数据（仅占全部2⁵⁰个可能稳态的极小部分）进行模型重建。结果显示，KeySDL不仅能高精度地重建出_A和_r矩阵，还能完美复现所有物种的真实_{K_BC}排序（Spearman相关系数ρ=1）。相比之下，基于皮尔逊相关或SparCC算法生成的共现网络的节点度或介数中心性，与真实的_{K_BC}均无显著相关性，表明传统网络指标无法有效预测物种移除后的群落影响。此外，研究还测试了样本量对性能的影响，发现仅需5个稳态观测值，KeySDL就能有效工作，相关性保持在0.85以上，证明了其小样本应用能力。

鲁棒性测试与自一致性评分

为了评估KeySDL在实际数据中的表现，研究测试了其对高斯噪声和测序深度（库容）的鲁棒性。结果表明，即使在高达100%平均丰度的噪声水平下，或低至2500个读长的有限库容下，KeySDL依然能保持较好的预测性能。为了帮助判断某个数据集是否适合使用KeySDL（即其是否与GLV动力学假设相符），研究人员开发了一种自一致性评分_{S_sc}。该评分通过比较模型预测的稳态与真实观测样本之间的平均Bray-Curtis不相似度来计算，分数越接近1表示模型拟合越好。仿真实验显示，GLV系统生成的模拟数据具有较高的_{S_sc}值（最高1.00，最低0.754），而自组织不稳定性 (SOI) 模型或纯噪声数据产生的评分则较低。这表明_{S_sc}可用于避免在不适合的数据集上应用KeySDL。

体外与植物实验验证

为在真实生物系统上验证KeySDL，研究选择了两个具有物种逐一敲除实验的合成群落数据集。一个是包含14种肠道微生物的体外批式生物反应器实验。采用3折交叉验证策略（即预测某个物种的关键性时，模型不接触其敲除样本），KeySDL成功预测了_{K_BC}，与真实测量值显著相关（ρ=0.71）。该方法准确地将原始文献中鉴定为优势菌的_{E. coli}和_{B. dorei}识别为关键物种，其自一致性评分为0.81，符合GLV系统预期。对比之下，基于所有数据生成的SparCC共现网络指标与_{K_BC}无显著关联。

第二个数据集来自拟南芥叶际合成群落的植物实验，包含25个物种的单敲除。同样采用交叉验证，KeySDL的预测与实测_{K_BC}显著相关（ρ=0.56），并成功识别出原始文献中报道的优势菌株L68以及移除后对群落组成有显著影响的L203和L405作为关键物种。该数据集的_{S_sc}高达0.92，表明GLV模型假设在此系统中非常合理。

关键性与丰度的关系

传统生态学定义中，关键物种的影响应与其自身丰度不成比例。通过KeySDL重建的系统参数，可以模拟大量随机稳态并计算每个物种的平均相对丰度。研究发现，在模拟的GLV系统中，确实存在少量影响远超其丰度的“不成比例关键种”。然而，在验证的两个实验数据集中，关键性_{K_BC}与平均相对丰度呈现高度相关性，未发现明显的不成比例个体，这可能意味着在这些特定实验系统中，高丰度物种本身就扮演着关键角色。

讨论与展望

KeySDL方法通过整合动力学模型假设和稀疏学习技术，实现了利用少量稳态样本进行关键微生物识别和系统动力学的可解释重建。其优势在于对数据量要求低、鲁棒性强，并能提供诸如微生物间相互作用矩阵等可解释参数，超越了传统机器学习“黑箱”模型。该方法不仅可用于预测单物种移除的影响，其重建的动力学模型还能用于模拟物种组合移除（协同效应）或计算更复杂的全局关键性度量，为高通量设计更具针对性的微生物干预实验提供了强大的计算工具。当然，该方法的局限在于其对GLV动力学的强假设，这要求微生物的生长率和相互作用在整个数据集中保持恒定。未来研究可探索将KeySDL扩展至神经ODE框架，以处理包含时间序列或已知初始接种丰度的数据，并尝试纳入宿主或环境等非微生物因素的影响，从而使其更广泛地适用于更复杂的微生物研究场景。

热点排行

新闻专题