基于组合数据感知的深度学习方法用于地球化学异常检测：一种新的矿物勘探潜力绘图框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Physics and Chemistry of the Earth, Parts A/B/C》：Compositional Data-Aware Deep Learning for Geochemical Anomaly Detection: A Novel Framework for Mineral Prospectivity Mapping

【字体：大中小】 时间：2026年02月23日 来源：Physics and Chemistry of the Earth, Parts A/B/C 3.0

编辑推荐：

　　本研究提出基于艾奇逊几何的地球化学数据深度学习框架，整合中心对数比（CLR）和等距对数比（ILR）变换与自编码器架构，采用定制化Aitch逊距离损失函数。在坦桑尼亚Archean绿岩带163份土壤样本（43元素）验证中，该框架实现60%的重建精度提升，较标准自编码器提高11%，并准确识别出锂、铌、钽等关键元素富集异常样本。潜在空间聚类揭示出两大地质成因区域，证实了该方法在多元素地球化学分析中的有效性，为能源转型关键矿产勘探提供新工具。

Sidique Gawusu|Mahamuda Abu|Benatus Norbert Mvile

南京工业大学能源与动力工程学院，中国南京

摘要

由于闭合约束，地球化学数据存在于单纯形空间中，其中各元素的浓度之和为一个常数。传统的机器学习方法忽略了这种组成性质，将地球化学数据视为不受约束的欧几里得向量，从而产生虚假的相关性，并导致异常检测效果不佳。本研究开发了一个具有组成数据意识的深度学习框架，该框架在利用神经网络的非线性模式识别能力的同时，明确尊重单纯形几何结构。该方法结合了中心对数比率（CLR）和等距对数比率（ILR）变换，并采用基于Aitchison距离的自编码器架构，在优化过程中保持组成结构。该框架使用来自坦桑尼亚太古代绿岩带的163个多元素土壤样本（43种元素）进行了训练，并通过空间交叉验证和与六种替代方法的系统基准测试进行了验证。具有组成数据意识的模型在重建准确性上比原始数据方法提高了60%，比标准自编码器提高了11%，其中ILR变换的R²值为0.921。该框架识别出九个表现出系统性关键元素富集的异常样本：锂（r = -0.70，与矿化向量相关）、铌（r = -0.68）、钽（r = -0.67）、钍（富集因子 = 2.22）、铜（1.89）和砷（1.64）。无监督的潜在空间聚类揭示了两个地球化学上不同的区域，分别对应于基性（54.6%，富含镍）和长英质（45.4%，富含钍）的岩石组合，展示了具有地质意义的模式学习。该框架提供了数学上严谨的地球化学机器学习方法，解决了组成-欧几里得几何结构的不兼容性问题。这种可转移的方法对关键矿产勘探效率具有启示意义，特别是对于能源转型技术所需的电池金属和稀土元素。

引言

多元素地球化学调查是矿产勘探的基础工具，提供了关于元素分布、前导矿物关联以及不同地质环境中矿化潜力的关键信息（Carranza, 2008; Grunsky, 2010）。分析技术的进步，特别是在电感耦合等离子体质谱（ICP-MS）方面，使得能够在单次分析中同时确定数十种元素，生成捕捉复杂地球化学特征的高维数据集（Reimann and de Caritat, 2017）。虽然这些数据集提供了前所未有的分析机会，但其解释却面临重大的方法论挑战。传统的单变量方法无法捕捉到成矿过程中的多元素关联，而多变量统计技术往往在没有充分考虑地球化学数据统计结构的情况下被应用（Filzmoser et al., 2009; Zuo and Carranza, 2011）。

区域和全球地球化学数据库的迅速扩展进一步加剧了这些挑战。大规模的汇编现在包含数十万个多元素分析结果（Reimann et al., 2018），这促使人们采用数据驱动的分析方法。因此，机器学习方法在地球科学应用中越来越受到重视，包括矿产潜力制图（Rodriguez-Galiano et al., 2015）、岩石分类（Cracknell and Reading, 2014）和地球化学异常检测（Chen and Wu, 2017; Xiong and Zuo, 2020）。这些方法在识别高维数据中的复杂非线性关系方面表现出色。然而，大多数机器学习算法是为不受约束的欧几里得特征空间设计的，而地球化学浓度数据从根本上违反了这一假设。

地球化学数据本质上是组合性的，代表了一个受总和常数约束的整体的一部分（Aitchison, 1986）。这种闭合约束导致了虚假的相关性，即成分之间的表观关系纯粹是由数学依赖性而非潜在的地球化学过程引起的（Chayes, 1960; Pearson, 1897）。这种伪影污染了标准的统计分析，包括相关分析、主成分分析和回归分析，可能导致误导性的地质解释（Buccianti et al., 2006; Rollinson, 2014）。这些效应的严重性随着维度的增加而增加，使得现代多元素地球化学数据集特别容易发生失真（Weltje, 2002）。

组成数据分析（CoDA）提供了一个数学上严谨的框架，通过在单纯形空间而不是欧几里得空间内处理组成数据来解决这些挑战（Aitchison, 1986; Pawlowsky-Glahn et al., 2015）。在Aitchison几何结构中，距离和统计运算基于相对信息进行定义，确保了尺度不变性和子组成一致性（Egozcue et al., 2003）。对数比率变换将组成数据从单纯形空间映射到实空间，同时保留了基本的几何属性。中心对数比率（CLR）变换广泛用于解释和可视化，而等距对数比率（ILR）变换提供了适合传统统计和机器学习算法的正交坐标（Egozcue and Pawlowsky-Glahn, 2005）。

尽管CoDA在地球化学领域有坚实的理论基础和已证明的好处（Buccianti et al., 2006; Filzmoser and Hron, 2015），但其与现代机器学习的整合仍然有限。大多数地球化学机器学习研究仍然在原始浓度或简单对数变换数据上操作，实际上将组成数据视为不受约束的欧几里得向量（Chen and Wu, 2017; Xiong et al., 2022; Yang and Zuo, 2024）。即使应用了对数比率变换，它们通常也仅作为预处理步骤，而模型架构和损失函数保持不变（Huang et al., 2017）。因此，神经网络可能仍然学习到由闭合约束引起的结构，而不是具有地球化学意义的模式。

自编码器为高维地球化学数据中的异常检测提供了一个强大的无监督框架，通过学习背景结构的紧凑潜在表示并通过升高的重建误差来识别异常样本（Chen and Wu, 2017; Hinton and Salakhutdinov, 2006; Pan et al., 2022）。变分自编码器通过引入概率潜在空间扩展了这种方法，使得不确定性量化和异构数据分布的表示得到改进（Diederik and Max, 2019; Luo et al., 2020）。这些属性对于地球化学应用特别有吸引力，因为在这些应用中异常样本很少见，且标记的训练数据通常不可用。然而，当使用标准的欧几里得损失函数进行训练时，自编码器和变分自编码器仍然容易受到组成约束引起的失真影响。

组成数据理论与深度学习之间的脱节代表了一个关键的方法论差距。尽管几何深度学习已经证明了尊重非欧几里得数据结构的重要性（Bronstein et al., 2017），但尚未系统地将Aitchison几何结构明确纳入神经网络优化中，用于地球化学数据。特别是，还没有先前的研究在自编码器框架中实现基于Aitchison距离的损失函数，或进行严格的基准测试来量化组成数据意识对地球化学异常检测的好处（Prasianakis et al., 2025）。

鉴于对能源转型技术所需的关键矿产的需求不断增加，这一差距变得越来越重要。预计未来几十年全球对锂、钴、镍和稀土元素的需求将大幅增长（国际能源署，2021年），这对勘探效率和目标优先级提出了压力（Schodde, 2025）。改进的异常检测可以直接减少误报，并提高矿产勘探的经济和环境可持续性。

在这项研究中，我们开发了一个具有组成数据意识的深度学习框架，用于地球化学异常检测，该框架在整个建模过程中明确尊重单纯形几何结构。该框架将CLR和ILR变换与自编码器架构相结合，并引入了基于Aitchison距离的自定义损失函数，确保神经网络优化与组成数据的统计结构保持一致。我们与在原始数据上训练的标准自编码器、经典统计异常检测方法和已建立的地球化学技术进行了系统基准测试，提供了组成数据意识深度学习性能提升的第一个定量证据。

该框架使用来自坦桑尼亚太古代绿岩带Singida地区的多元素土壤地球化学数据集进行了演示，该地区以结构控制的金矿化为特征。除了异常检测性能外，该研究还检查了潜在空间结构和地质可解释性，评估了具有组成数据意识的模型是否学习了与已知岩石组合和矿化过程一致的模式。这项工作提高了地球化学机器学习的统计严谨性和实际效果，并将其影响扩展到其他组成数据领域，通过在一个连贯的方法论框架内统一了组成数据分析和深度学习。

研究区域

Singida地区位于坦桑尼亚中部，是坦桑尼亚克拉通的重要组成部分（图S23）。研究区域涵盖了大约729平方公里的太古代基底地形，其特征是复杂的构造历史和多次岩浆作用和变形事件（Kabete et al., 2012）。地理坐标范围大约在4°45'S至5°15'S纬度和34°15'E至34°45'E经度之间，位于坦桑尼亚中部高原

样本采集

Singida地区的土壤地球化学采样遵循了系统的设计，覆盖了大约729平方公里的太古代基底地形。共收集了163个样本，包括97个原始样本和66个现场重复样本，以评估分析的可重复性和空间变异性。采样针对B层（深度20-30厘米），因为这一土壤层表现出最佳的重元素保留能力和最小的有机污染（Kalimenze et al.,

描述性统计

地球化学数据集包含163个样本，分析了39种元素，浓度涵盖了主要元素、次要元素和微量元素类别的多个数量级。表1展示了16种关键元素在原始数据（接近100%）和中心对数比率（CLR）变换组成空间中的描述性统计信息。原始数据表现出显著的变异性，变异系数范围从33.3%（Pb）到162.6%（Au）。金元素表现出最高的变异性和极端

组成数据方法与非组成数据方法

ILR变换后的自编码器相对于原始数据方法的60.1% RMSE改进量化了通过组成数据意识可以实现的性能提升，这远远超过了先前地质应用中报告的15-30%的误差减少（van den Boogaart and Tolosana-Delgado, 2013）在地质统计估计中记录的改进，而Reimann and de Caritat（2017）在地球化学制图应用中观察到适度的改进（5-15%）。

结论

本研究开发并验证了一个具有组成数据意识的深度学习框架，用于地球化学异常检测，解决了机器学习的几何假设与组成数据的单纯形结构之间的根本差距。主要发现如下：首先，该框架成功地将对数比率变换（CLR, ILR）与自编码器架构和基于Aitchison距离的自定义损失函数相结合，证明了技术可行性

CRediT作者贡献声明

Sidique Gawusu：写作——审稿与编辑，撰写——初稿，可视化，验证，监督，软件，方法论，概念化。Mahamuda Abu：写作——审稿与编辑，撰写——初稿，软件，方法论，调查，数据管理，概念化。Benatus Norbert Mvile：写作——审稿与编辑，撰写——初稿，调查，数据管理

利益冲突声明

作者声明他们没有利益冲突。

数据可用性声明

支持本研究发现的数据可向相应作者请求获得。由于隐私或伦理限制，这些数据不公开。

资金来源

本研究未获得公共、商业或非营利部门的任何特定资助。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作

热点排行

新闻专题

联系信箱：

粤ICP备09063491号