地球化学勘探和环境分析认为,矿床附近或人为污染区域的物质化学成分与没有矿床或污染的类似物质的化学成分不同(Govett, 1983)。从溪流中采集的沉积物代表了上游区域岩石和覆盖层的混合物,每种来源都贡献了其独特的化学特征(Ottensen和Theobald, 1994;Chen等人, 2025)。因此,单个溪流沉积物样本仅能代表排水系统的一小部分区域。为了检测沉积物中的异常值,需要分析大量样本。此外,仅通过分析一个元素通常无法提取相关信息,因此需要使用多变量统计方法(Howarth和Sinding-Larsen, 1983;Grunsky, 2010;Zhao等人, 2024)。
在地球化学调查中,常用的方法包括主成分分析(PCA)或因子分析(FA)(Gielar等人, 2012;Liu等人, 2014;Tiangang等人, 2024;Dominech等人, 2025)、逐步因子分析(Yousefi等人, 2014;Yousefi等人, 2012)、K-means聚类分析(Clare和Cohen, 2001;Templ等人, 2008)或模糊C均值(FCM)聚类分析(Rantitsch, 2000;Hajihosseinlou等人, 2024)。
传统的单变量方法(如平均值、标准差)以及一些多变量方法(如PCA和FA)假设变量值服从正态分布或对数正态分布(Timm, 2002;Reimann和Filzmoser, 2000)。然而,地球化学调查中的大多数数据,尤其是溪流沉积物数据,并不服从正态分布或对数正态分布(Bj?rklund, 1983)。风化和沉积作用改变了溪流沉积物中记录的岩石特异性地球化学特征(Matschullat等人, 2000)。与溪流系统接触的脉状矿床会产生一个近似指数衰减的地球化学信号,该信号叠加在基岩产生的地球化学背景信号上,看起来类似于对数正态分布,但实际上是由一个分布和一个近似指数衰减函数组合而成的(见图2)。因此,不应使用因子分析来评估复杂的区域性或环境地球化学数据(Reimann等人, 2002)。
对于这类复杂的数据,数据分析必须分多个层次进行。首先进行单变量分析以确定分布形态,然后进行双变量分析以识别相关性、分组和异常值。最后使用多变量方法(如聚类分析)来区分不同组别(例如基岩和热液叠加或人为污染),或使用主成分分析来揭示过程的功能关系(例如风化作用),并始终通过GIS等手段对结果进行空间可视化。
对于单变量分析,应优先选择对异常值和频率分布类型不敏感的稳健方法,如中位数、四分位数、箱线图、密度迹线或一维散点图(Reimann等人, 2005;Pucko等人, 2024;Chambers等人, 1983;Hoaglin等人, 1983)。为了将频率分布转换为变量的准正态分布,通常会对数据应用非稳健的alr(Aitchison, 1986)、clr或ilr(Egozcue等人, 2003;Egozcue等人, 2024;Hron等人, 2022)变换(Filzmoser等人, 2012;Martín-Fernández等人, 2012)。然而,alr、clr和ilr变换没有考虑到溪流沉积物中的元素浓度并非对数正态分布,而是由背景浓度的正态分布和异常值(如果存在的话)的近似指数衰减函数叠加而成。因此,使用alr、clr或ilr变换无法识别溪流沉积物中的微弱异常值。
如果忽略数据的这种复杂叠加关系,在地质结构复杂的区域就无法总是识别出不同的岩层。我们的方法是发明了一种新的数据变换方法,在应用稳健的数据变换方法Lin-log之后添加对数分布(见第3.3.2节)。基于单变量分析结果,在优化数据变换后应用逐步受限的模糊聚类(Kramar, 1995)。这些结果用于识别底层岩层以及包含已知矿脉和可能未知矿化的异常区域。为了优化数据变换,我们将稳健的线性变换、alr变换、clr变换和ilr变换与基于溪流沉积物数据开发的新lin-log变换进行了比较。