火成岩提供了地球演化的相对连续的地质记录(Lawley, 2016)。因此,使用统计和机器学习方法编译和分析大型火成岩地球化学数据集,可以为我们提供有关地壳和地幔的空间和时间演化、构造体制、地幔的氧化还原演化以及地表环境的宝贵见解(Keller和Schoene, 2012, Keller和Schoene, 2018, Keller等人, 2015, Petrelli和Perugini, 2016, Condie等人, 2016, Condie等人, 2024, Bataille等人, 2017, Condie, 2018; Bednarick等人, 2024, Chen等人, 2022a, Chen等人, 2022b, Chen等人, 2024, Cox等人, 2018, Gao等人, 2022, Gard等人, 2019, Huang等人, 2022, Johnson等人, 2019, Keller和Harrison, 2020, Liu等人, 2019a, Liu等人, 2019b, Liu等人, 2021, Liu等人, 2023, Liu等人, 2024a, Liu等人, 2024b, Liu等人, 2025a, Liu等人, 2025b, Liu和He, 2021, Lu等人, 2024, Moyen和Laurent, 2018, Nicklas等人, 2018, Nicklas等人, 2019, Peters等人, 2021, Petrelli等人, 2020, Ptá?ek等人, 2020, Sotiriou等人, 2022, Stolper和Bucholz, 2019, Stolper和Keller, 2018, Vandenburg等人, 2023, Zhang等人, 2023, Zhang等人, 2024, Dien等人, 2019)。
广泛使用的EarthChem、GEOROC和OnePetrology数据库存储了大量数据,使得通过统计分析和机器学习技术探索地球演化成为可能(例如,Chen等人, 2022a, Cox等人, 2018, Jiang等人, 2025, Keller和Schoene, 2012, Keller和Schoene, 2018, Kl?cking等人, 2023, Lehnert等人, 2000, Liu等人, 2019a, Liu等人, 2019b, Liu等人, 2024a, Liu等人, 2024b, Liu等人, 2025a, Liu等人, 2025b, Wang等人, 2024)。尽管如此,EarthChem数据中仍存在一些不可忽视的错误,这些错误可能会影响数据的质量和时间序列分析的可信度(Doucet等人, 2022)。例如,在将火成岩数据录入EarthChem时引入的无意错误导致了大约32亿年和15亿年处的错误年龄峰值,这些峰值伴随着较大的年龄不确定性(Doucet等人, 2022, Liu等人, 2024a, Liu等人, 2024b)。
应当指出,这些错误的责任不在EarthChem数据库本身,而在于像GEOROC和EarthChem这样的社区基础设施,它们在推动地球科学领域的数据驱动研究方面做出了巨大贡献。如果没有这些全球地球化学数据库,就很难有效地比较和整合来自世界各地实验室的数据集,这可能会掩盖重要的科学发现。这种错误的存在是地球化学界长期存在的问题,主要是由于缺乏研究人员可以遵循的普遍接受的数据发布原则(图1)。然而,近年来,对标准化地球化学数据报告实践的需求日益受到重视,一些期刊现在要求作者在提交手稿时将数据上传到社区数据库中。例如,《岩石学杂志》要求作者将其数据提交到EarthChem图书馆、Astromaterials数据档案或GFZ数据服务等存储库。
这些社区努力已经开始见效,但仍有许多工作要做。已经采取了一些措施来确保数据质量,例如排除较旧的样本、应用严格的年龄误差标准以及使用数值建模来推断缺失值(Doucet等人, 2022, Ernst等人, 2025, Liu等人, 2019a, Liu等人, 2019b)。然而,年龄误差过滤方法并不完美;它们限制了可用的数据集,同时忽略了其他尽管有价值但存在错误的数据(Chamberlain等人, 2021)。
为了解决这些不足,我们和12位地球化学家(见致谢部分)手动核对了直接从EarthChem数据库下载的基性火成岩(主要是前寒武纪样本)的年龄和地球化学数据,并与原始出版物进行了比对,遵循图1中呈现的工作流程。在这里,我们比较了直接从EarthChem下载的原始年龄和经过核对的清洁年龄,以及这些基性岩石的地球化学数据。由于认为地幔来源的基性样本的成分记录了地幔熔融历史(Keller和Schoene, 2012),我们通过重新评估原始数据集和清洁数据集中不相容元素(P2O5, TiO2, La/Sm, Ce, Sm, Nd, Zr)和相容元素(MgO, Cr, Ni)浓度的长期演化,展示了数据清洗对全球趋势的影响。