白云石(CaMg(CO3)2)是一种在沉积记录中广泛分布的碳酸盐矿物,是白云岩的主要成分,而白云岩是碳氢化合物的重要储层,在全球碳循环中发挥着重要作用(Lippmann, 1973; Oelkers et al., 2008; Zou et al., 2014; Vandeginste et al., 2019)。尽管其具有重要的地质意义,但白云石形成的确切机制仍然是地球科学中长期未解决的问题之一(Warren, 2000; Gregg et al., 2015; Pina et al., 2022)。传统的模型,包括回流模型、盐沼模型和混合区模型,不足以解释古代白云石的广泛存在以及全新世近地表条件下白云石形成的有限性(Lucia, 1968; Hardie, 1987)。
自20世纪90年代以来,“微生物白云石”假说为低温白云石沉淀提供了新的见解。后续研究表明,在常温常压条件下,多种微生物可以促进白云石的形成(Roberts et al., 2004; Kenward et al., 2009; Zhang et al., 2015; Qiu et al., 2019)。现代碱性湖泊和微生物席相关环境中的白云石出现进一步支持了微生物活动有助于克服白云石形成动力学障碍的观点(Wright and Wacey, 2005; Sánchez-Román et al., 2009; Deng et al., 2010)。然而,这一模型并不能完全解释地质记录中大量白云石的存在,尤其是那些缺乏直接微生物参与证据的情况(Warthmann et al., 2000; Fang and Xu, 2022)。最近,人们开始关注可能促进白云石形成的非生物机制。实验研究表明,溶解的硅酸盐、Mn2+、溶解的氨和粘土矿物等成分可以通过催化水合镁复合物的脱水来促进低温低压下的白云石沉淀(Zhang et al., 2012; Liu et al., 2019; Han et al., 2024; Meng et al., 2024)。这些物质要么降低水合能,要么直接与碳酸盐矿物表面相互作用,从而缓解地表条件下的动力学限制。
然而,实验室条件下合成的白云石通常具有无序结构(例如原始白云石),与地质记录中常见的有序白云石形成对比。在这种情况下,溶解-再沉淀模型为有序白云石的形成提供了有力的解释(Kim et al., 2023)。将密度泛函理论模拟与实验结果相结合,最近的研究表明,无序白云石可能在欠饱和条件下溶解,随后在过饱和期间重新结晶为有序白云石。这种欠饱和与过饱和之间的循环转变成为驱动力,显著缩短了有序白云石结晶所需的时间。
自全新世以来,自然白云石的形成相对较少,主要局限于高盐度环境,如泻湖、蒸发湖和碱性湖泊(Deng et al., 2010)。这些动态的地球化学环境通常以无序白云石作为中间结晶相,为研究白云石的成因提供了独特的机会。盐湖中的白云石形成受多种环境因素调控,关键控制因素包括离子组成(特别是Mg2+/Ca2+比率)、碱度、pH值、盐度和微生物活动。这些变量并非独立作用,而构成了一个具有多重反馈循环和非线性效应的集成系统。例如,微生物代谢同时影响局部pH值和碳酸盐化学性质,而pH值又调控碳酸盐物种的形态,从而影响成核所需的离子种类。面对这种多维、耦合和非线性的相互作用网络,传统的地球化学方法(通常依赖于线性回归或经验阈值标准)无法充分捕捉这种复杂性(Jiang et al., 2024)。
为应对这一复杂挑战,机器学习(ML)作为一个极具前景的替代框架应运而生。具体而言,通过将高维地球化学数据集与关键的沉积学背景无缝整合,ML不仅有助于开发高性能的预测模型,还能有效解释各种地球化学变量之间的复杂非线性关系。这得益于可解释性方法(如Shapley加性解释(SHAP)的应用(Toms et al., 2020)。基于此,在本研究中,我们利用ML的力量深入探究某些现代盐湖中白云石形成的复杂机制。为此,我们提出了一个创新的可解释ML框架,旨在整合多源数据并采用比较建模策略。我们的最终目标是显著推进对原始白云石形成机制的理解,从而为这一长期存在的地质谜题提供新的见解。从数据收集和模型训练到结果解释的完整工作流程如图1所示。