多元素地球化学调查是矿产勘探的基础工具,提供了关于元素分布、前导矿物关联以及不同地质环境中矿化潜力的关键信息(Carranza, 2008; Grunsky, 2010)。分析技术的进步,特别是在电感耦合等离子体质谱(ICP-MS)方面,使得能够在单次分析中同时确定数十种元素,生成捕捉复杂地球化学特征的高维数据集(Reimann and de Caritat, 2017)。虽然这些数据集提供了前所未有的分析机会,但其解释却面临重大的方法论挑战。传统的单变量方法无法捕捉到成矿过程中的多元素关联,而多变量统计技术往往在没有充分考虑地球化学数据统计结构的情况下被应用(Filzmoser et al., 2009; Zuo and Carranza, 2011)。
区域和全球地球化学数据库的迅速扩展进一步加剧了这些挑战。大规模的汇编现在包含数十万个多元素分析结果(Reimann et al., 2018),这促使人们采用数据驱动的分析方法。因此,机器学习方法在地球科学应用中越来越受到重视,包括矿产潜力制图(Rodriguez-Galiano et al., 2015)、岩石分类(Cracknell and Reading, 2014)和地球化学异常检测(Chen and Wu, 2017; Xiong and Zuo, 2020)。这些方法在识别高维数据中的复杂非线性关系方面表现出色。然而,大多数机器学习算法是为不受约束的欧几里得特征空间设计的,而地球化学浓度数据从根本上违反了这一假设。
地球化学数据本质上是组合性的,代表了一个受总和常数约束的整体的一部分(Aitchison, 1986)。这种闭合约束导致了虚假的相关性,即成分之间的表观关系纯粹是由数学依赖性而非潜在的地球化学过程引起的(Chayes, 1960; Pearson, 1897)。这种伪影污染了标准的统计分析,包括相关分析、主成分分析和回归分析,可能导致误导性的地质解释(Buccianti et al., 2006; Rollinson, 2014)。这些效应的严重性随着维度的增加而增加,使得现代多元素地球化学数据集特别容易发生失真(Weltje, 2002)。
组成数据分析(CoDA)提供了一个数学上严谨的框架,通过在单纯形空间而不是欧几里得空间内处理组成数据来解决这些挑战(Aitchison, 1986; Pawlowsky-Glahn et al., 2015)。在Aitchison几何结构中,距离和统计运算基于相对信息进行定义,确保了尺度不变性和子组成一致性(Egozcue et al., 2003)。对数比率变换将组成数据从单纯形空间映射到实空间,同时保留了基本的几何属性。中心对数比率(CLR)变换广泛用于解释和可视化,而等距对数比率(ILR)变换提供了适合传统统计和机器学习算法的正交坐标(Egozcue and Pawlowsky-Glahn, 2005)。
尽管CoDA在地球化学领域有坚实的理论基础和已证明的好处(Buccianti et al., 2006; Filzmoser and Hron, 2015),但其与现代机器学习的整合仍然有限。大多数地球化学机器学习研究仍然在原始浓度或简单对数变换数据上操作,实际上将组成数据视为不受约束的欧几里得向量(Chen and Wu, 2017; Xiong et al., 2022; Yang and Zuo, 2024)。即使应用了对数比率变换,它们通常也仅作为预处理步骤,而模型架构和损失函数保持不变(Huang et al., 2017)。因此,神经网络可能仍然学习到由闭合约束引起的结构,而不是具有地球化学意义的模式。
自编码器为高维地球化学数据中的异常检测提供了一个强大的无监督框架,通过学习背景结构的紧凑潜在表示并通过升高的重建误差来识别异常样本(Chen and Wu, 2017; Hinton and Salakhutdinov, 2006; Pan et al., 2022)。变分自编码器通过引入概率潜在空间扩展了这种方法,使得不确定性量化和异构数据分布的表示得到改进(Diederik and Max, 2019; Luo et al., 2020)。这些属性对于地球化学应用特别有吸引力,因为在这些应用中异常样本很少见,且标记的训练数据通常不可用。然而,当使用标准的欧几里得损失函数进行训练时,自编码器和变分自编码器仍然容易受到组成约束引起的失真影响。
组成数据理论与深度学习之间的脱节代表了一个关键的方法论差距。尽管几何深度学习已经证明了尊重非欧几里得数据结构的重要性(Bronstein et al., 2017),但尚未系统地将Aitchison几何结构明确纳入神经网络优化中,用于地球化学数据。特别是,还没有先前的研究在自编码器框架中实现基于Aitchison距离的损失函数,或进行严格的基准测试来量化组成数据意识对地球化学异常检测的好处(Prasianakis et al., 2025)。
鉴于对能源转型技术所需的关键矿产的需求不断增加,这一差距变得越来越重要。预计未来几十年全球对锂、钴、镍和稀土元素的需求将大幅增长(国际能源署,2021年),这对勘探效率和目标优先级提出了压力(Schodde, 2025)。改进的异常检测可以直接减少误报,并提高矿产勘探的经济和环境可持续性。
在这项研究中,我们开发了一个具有组成数据意识的深度学习框架,用于地球化学异常检测,该框架在整个建模过程中明确尊重单纯形几何结构。该框架将CLR和ILR变换与自编码器架构相结合,并引入了基于Aitchison距离的自定义损失函数,确保神经网络优化与组成数据的统计结构保持一致。我们与在原始数据上训练的标准自编码器、经典统计异常检测方法和已建立的地球化学技术进行了系统基准测试,提供了组成数据意识深度学习性能提升的第一个定量证据。
该框架使用来自坦桑尼亚太古代绿岩带Singida地区的多元素土壤地球化学数据集进行了演示,该地区以结构控制的金矿化为特征。除了异常检测性能外,该研究还检查了潜在空间结构和地质可解释性,评估了具有组成数据意识的模型是否学习了与已知岩石组合和矿化过程一致的模式。这项工作提高了地球化学机器学习的统计严谨性和实际效果,并将其影响扩展到其他组成数据领域,通过在一个连贯的方法论框架内统一了组成数据分析和深度学习。