盐湖中原白云石的形成:机器学习视角

《Applied Geochemistry》:Protodolomite formation in saline lakes: A machine learning perspective

【字体: 时间:2026年03月24日 来源:Applied Geochemistry 3.4

编辑推荐:

  现代盐湖环境中原生白云石形成的多源地球化学数据驱动的机器学习框架研究,通过XGBoost模型与SHAP可解释性分析,揭示了HCO3?、Mg2+、TOC和pH的动态阈值效应及其对白云石化过程的非线性控制机制。

  
张朝昊|李阳|金胜平|蔡新宇|余光全|邱轩|刘登|王红梅
中国地质大学地球微生物学与环境变化国家重点实验室未来技术学院,武汉,430074,中国

摘要

白云石的形成是沉积地质学中的关键过程,对碳氢化合物储层和全球碳循环具有重要影响。然而,现代盐湖和盐沼中原始白云石形成的机制尚未得到阐明。在这项研究中,我们利用来自野外调查的219个沉积物样本的多源地球化学数据集,并结合了类似盐湖环境的已发表地球化学数据,成功开发了一个可解释的机器学习框架。我们通过网格搜索和交叉验证训练并优化了四种机器学习模型——随机森林、逻辑回归、支持向量机和XGBoost。XGBoost模型在预测准确性和可解释性方面表现优于其他模型。Shapley加性解释(SHAP)进一步量化了关键参数(HCO3?、Mg2+、TOC和pH)对原始白云石形成的贡献和临界阈值,为相关的地球化学过程提供了新的见解。这种综合方法不仅加深了我们对原始白云石成因的理解,还展示了机器学习在解析复杂地质过程中的变革性力量。

引言

白云石(CaMg(CO3)2)是一种在沉积记录中广泛分布的碳酸盐矿物,是白云岩的主要成分,而白云岩是碳氢化合物的重要储层,在全球碳循环中发挥着重要作用(Lippmann, 1973; Oelkers et al., 2008; Zou et al., 2014; Vandeginste et al., 2019)。尽管其具有重要的地质意义,但白云石形成的确切机制仍然是地球科学中长期未解决的问题之一(Warren, 2000; Gregg et al., 2015; Pina et al., 2022)。传统的模型,包括回流模型、盐沼模型和混合区模型,不足以解释古代白云石的广泛存在以及全新世近地表条件下白云石形成的有限性(Lucia, 1968; Hardie, 1987)。
自20世纪90年代以来,“微生物白云石”假说为低温白云石沉淀提供了新的见解。后续研究表明,在常温常压条件下,多种微生物可以促进白云石的形成(Roberts et al., 2004; Kenward et al., 2009; Zhang et al., 2015; Qiu et al., 2019)。现代碱性湖泊和微生物席相关环境中的白云石出现进一步支持了微生物活动有助于克服白云石形成动力学障碍的观点(Wright and Wacey, 2005; Sánchez-Román et al., 2009; Deng et al., 2010)。然而,这一模型并不能完全解释地质记录中大量白云石的存在,尤其是那些缺乏直接微生物参与证据的情况(Warthmann et al., 2000; Fang and Xu, 2022)。最近,人们开始关注可能促进白云石形成的非生物机制。实验研究表明,溶解的硅酸盐、Mn2+、溶解的氨和粘土矿物等成分可以通过催化水合镁复合物的脱水来促进低温低压下的白云石沉淀(Zhang et al., 2012; Liu et al., 2019; Han et al., 2024; Meng et al., 2024)。这些物质要么降低水合能,要么直接与碳酸盐矿物表面相互作用,从而缓解地表条件下的动力学限制。
然而,实验室条件下合成的白云石通常具有无序结构(例如原始白云石),与地质记录中常见的有序白云石形成对比。在这种情况下,溶解-再沉淀模型为有序白云石的形成提供了有力的解释(Kim et al., 2023)。将密度泛函理论模拟与实验结果相结合,最近的研究表明,无序白云石可能在欠饱和条件下溶解,随后在过饱和期间重新结晶为有序白云石。这种欠饱和与过饱和之间的循环转变成为驱动力,显著缩短了有序白云石结晶所需的时间。
自全新世以来,自然白云石的形成相对较少,主要局限于高盐度环境,如泻湖、蒸发湖和碱性湖泊(Deng et al., 2010)。这些动态的地球化学环境通常以无序白云石作为中间结晶相,为研究白云石的成因提供了独特的机会。盐湖中的白云石形成受多种环境因素调控,关键控制因素包括离子组成(特别是Mg2+/Ca2+比率)、碱度、pH值、盐度和微生物活动。这些变量并非独立作用,而构成了一个具有多重反馈循环和非线性效应的集成系统。例如,微生物代谢同时影响局部pH值和碳酸盐化学性质,而pH值又调控碳酸盐物种的形态,从而影响成核所需的离子种类。面对这种多维、耦合和非线性的相互作用网络,传统的地球化学方法(通常依赖于线性回归或经验阈值标准)无法充分捕捉这种复杂性(Jiang et al., 2024)。
为应对这一复杂挑战,机器学习(ML)作为一个极具前景的替代框架应运而生。具体而言,通过将高维地球化学数据集与关键的沉积学背景无缝整合,ML不仅有助于开发高性能的预测模型,还能有效解释各种地球化学变量之间的复杂非线性关系。这得益于可解释性方法(如Shapley加性解释(SHAP)的应用(Toms et al., 2020)。基于此,在本研究中,我们利用ML的力量深入探究某些现代盐湖中白云石形成的复杂机制。为此,我们提出了一个创新的可解释ML框架,旨在整合多源数据并采用比较建模策略。我们的最终目标是显著推进对原始白云石形成机制的理解,从而为这一长期存在的地质谜题提供新的见解。从数据收集和模型训练到结果解释的完整工作流程如图1所示。

数据收集与预处理

本研究基于两个主要数据来源。第一个数据来源是2024年7月在内蒙古五个盐湖进行的野外调查中直接收集的219个沉积物样本(图2a),对这些样本测量了一系列沉积物物理化学参数。第二个数据来源是来自其他具有相似环境条件的现代盐湖系统的已发表地球化学数据,以确保参数覆盖范围和地球化学背景的一致性。

数据集特征与地球化学参数相关性

预处理后数据集的统计特征总结在表1中,包括每个地球化学参数的最小值、最大值、平均值、标准差(SD)和变异系数(CV)。
Spearman等级相关分析显示关键变量之间存在明显的相互关系(图2c)。电导率(EC)与硫酸盐(SO42?)、总氮(TN)和总有机碳(TOC)具有强烈的正相关性,表明它们在变化过程中共同变化

关键参数的动态阈值效应与白云石成因理论

HCO3?是碳酸盐平衡系统中的关键中间体。在pH值较低的沉积环境中,HCO3?是溶解无机碳(DIC)的主要形式,而碳酸根离子(CO32?的活性和浓度都低于HCO3?。这种不平衡可能阻碍大多数沉积环境中白云石晶体的生长。由于极高的pH值可能破坏结构完整性,成核模板的可用性可能会降低

结论

本研究表明,可解释的机器学习模型能够通过捕捉盐湖环境中地球化学参数的复杂相互作用,有效预测原始白云石的形成。SHAP分析提供了关于关键变量(包括HCO3?、Mg2+、TOC和pH)动态阈值效应的关键见解,揭示了它们在全球范围内的影响以及在原始白云石形成过程中的局部偏差。尽管存在样本多样性的限制,我们的

作者贡献声明

张朝昊:数据整理、方法论、软件、初稿撰写。李阳:数据整理、调查。金胜平:数据整理、调查。蔡新宇:正式分析、调查。余光全:数据整理、调查。邱轩:调查、撰写——审阅与编辑。刘登:撰写——审阅与编辑。王红梅:概念构思、资金获取、撰写——审阅与编辑。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家自然科学基金项目(编号:42330201、42072336和42272046)的共同支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号