质量至关重要:数据清洗前后前寒武纪基性火山岩地球化学数据的比较

《Precambrian Research》:Quality matters: A comparison of geochemical data for Precambrian mafic volcanic rocks before and after data cleaning

【字体: 时间:2026年03月04日 来源:Precambrian Research 3.2

编辑推荐:

  本研究通过对比原始文献,验证并清洗了EarthChem数据库中Precambrian mafic火山岩的年龄和地球化学数据,纠正了原始数据中的错误,发现清洁后的数据揭示了地幔分熔作用的渐变趋势,而非原始数据中的突变变化,强调了高质量数据的重要性。

  
刘春涛|张周杰
中国浙江省杭州市浙江大学地球科学学院地球与行星物质科学研究中心,310058

摘要

火成岩成分的长期演化为我们提供了关于宜居地球演化的全球视角。包括EarthChem和GEOROC在内的广泛认可的地球化学数据库,作为全球范围内整理的已发表数据的关键存储库,极大地推进了我们对地球全球尺度演化的理解,例如板块构造的形成与演化、大陆地壳以及地表环境等。然而,这些广泛使用的数据库中火成岩数据中存在的无意错误,削弱了基于这些数据的统计分析和机器学习方法的应用性和可信度。这些错误是由于缺乏研究人员可以遵循的数据发布原则而产生的。在这里,我们通过仔细核对前寒武纪基性火成岩的年龄和地球化学数据与其原始出版物(约1500篇),从而清理数据集以消除错误并提高准确性。我们清理后的数据集(n = 8162)显示,在约28亿至25亿年前,地幔部分熔融逐渐减少,这与从原始数据集中得出的更突然的变化形成了对比。这项研究强调了在重新评估地球化学数据集的时间序列分析时,高质量数据(特别是年龄信息)的关键重要性。

引言

火成岩提供了地球演化的相对连续的地质记录(Lawley, 2016)。因此,使用统计和机器学习方法编译和分析大型火成岩地球化学数据集,可以为我们提供有关地壳和地幔的空间和时间演化、构造体制、地幔的氧化还原演化以及地表环境的宝贵见解(Keller和Schoene, 2012, Keller和Schoene, 2018, Keller等人, 2015, Petrelli和Perugini, 2016, Condie等人, 2016, Condie等人, 2024, Bataille等人, 2017, Condie, 2018; Bednarick等人, 2024, Chen等人, 2022a, Chen等人, 2022b, Chen等人, 2024, Cox等人, 2018, Gao等人, 2022, Gard等人, 2019, Huang等人, 2022, Johnson等人, 2019, Keller和Harrison, 2020, Liu等人, 2019a, Liu等人, 2019b, Liu等人, 2021, Liu等人, 2023, Liu等人, 2024a, Liu等人, 2024b, Liu等人, 2025a, Liu等人, 2025b, Liu和He, 2021, Lu等人, 2024, Moyen和Laurent, 2018, Nicklas等人, 2018, Nicklas等人, 2019, Peters等人, 2021, Petrelli等人, 2020, Ptá?ek等人, 2020, Sotiriou等人, 2022, Stolper和Bucholz, 2019, Stolper和Keller, 2018, Vandenburg等人, 2023, Zhang等人, 2023, Zhang等人, 2024, Dien等人, 2019)。
广泛使用的EarthChem、GEOROC和OnePetrology数据库存储了大量数据,使得通过统计分析和机器学习技术探索地球演化成为可能(例如,Chen等人, 2022a, Cox等人, 2018, Jiang等人, 2025, Keller和Schoene, 2012, Keller和Schoene, 2018, Kl?cking等人, 2023, Lehnert等人, 2000, Liu等人, 2019a, Liu等人, 2019b, Liu等人, 2024a, Liu等人, 2024b, Liu等人, 2025a, Liu等人, 2025b, Wang等人, 2024)。尽管如此,EarthChem数据中仍存在一些不可忽视的错误,这些错误可能会影响数据的质量和时间序列分析的可信度(Doucet等人, 2022)。例如,在将火成岩数据录入EarthChem时引入的无意错误导致了大约32亿年和15亿年处的错误年龄峰值,这些峰值伴随着较大的年龄不确定性(Doucet等人, 2022, Liu等人, 2024a, Liu等人, 2024b)。
应当指出,这些错误的责任不在EarthChem数据库本身,而在于像GEOROC和EarthChem这样的社区基础设施,它们在推动地球科学领域的数据驱动研究方面做出了巨大贡献。如果没有这些全球地球化学数据库,就很难有效地比较和整合来自世界各地实验室的数据集,这可能会掩盖重要的科学发现。这种错误的存在是地球化学界长期存在的问题,主要是由于缺乏研究人员可以遵循的普遍接受的数据发布原则(图1)。然而,近年来,对标准化地球化学数据报告实践的需求日益受到重视,一些期刊现在要求作者在提交手稿时将数据上传到社区数据库中。例如,《岩石学杂志》要求作者将其数据提交到EarthChem图书馆、Astromaterials数据档案或GFZ数据服务等存储库。
这些社区努力已经开始见效,但仍有许多工作要做。已经采取了一些措施来确保数据质量,例如排除较旧的样本、应用严格的年龄误差标准以及使用数值建模来推断缺失值(Doucet等人, 2022, Ernst等人, 2025, Liu等人, 2019a, Liu等人, 2019b)。然而,年龄误差过滤方法并不完美;它们限制了可用的数据集,同时忽略了其他尽管有价值但存在错误的数据(Chamberlain等人, 2021)。
为了解决这些不足,我们和12位地球化学家(见致谢部分)手动核对了直接从EarthChem数据库下载的基性火成岩(主要是前寒武纪样本)的年龄和地球化学数据,并与原始出版物进行了比对,遵循图1中呈现的工作流程。在这里,我们比较了直接从EarthChem下载的原始年龄和经过核对的清洁年龄,以及这些基性岩石的地球化学数据。由于认为地幔来源的基性样本的成分记录了地幔熔融历史(Keller和Schoene, 2012),我们通过重新评估原始数据集和清洁数据集中不相容元素(P2O5, TiO2, La/Sm, Ce, Sm, Nd, Zr)和相容元素(MgO, Cr, Ni)浓度的长期演化,展示了数据清洗对全球趋势的影响。

章节摘录

地球化学数据集

我们从EarthChem数据库(https://www.earthchem.org/;访问日期:2021年6月11日)(图2,图3)编译了基性火成岩的原始数据(约38.5亿至0.45亿年,SiO2含量为43–52 wt.%,n = 9921)。然后,在专家反馈的指导下,我们清理了这个数据集,以消除重复条目,并通过与大约1500篇原始出版物的比对来验证和纠正错误的地质年代学和地球化学数据(图1)。经过彻底验证后,我们清理后的数据集包含8162个独立条目

基性火成岩的全球分布

如图2a所示,原始数据集中的一些太古代和元古代样本被错误地定位在海洋地壳中。这些古老样本出现在海洋环境中的原因主要有两个:(1)纬度和经度数据不正确,导致位置错误;(2)将较老的年龄错误地分配给了较年轻的岩石。例如,原始数据集中的几个太古代样本的位置数据被错误地标注在西南太平洋(图2a);经过审查后

结论

我们的清洁数据分析建立在EarthChem和GEOROC的基础数据集之上,这使我们能够开展这项研究。这项分析的动机来自Keller和Schoene(2012年、2018年)的开创性工作,以及Liu等人(2019a、2019b)和Doucet等人(2022年)在数据质量方面的见解。在这里,为了解决EarthChem数据库中火成岩数据的错误,特别是年龄信息的问题,我们仔细核对了

CRediT作者贡献声明

刘春涛:撰写——审阅与编辑,撰写——初稿,可视化,验证,监督,软件,资源,项目管理,方法论,研究,资金获取,正式分析,数据管理,概念化。张周杰:撰写——审阅与编辑,验证,监督,资源,项目管理,资金获取,数据管理,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

我们感谢H.-J. Zhang、W.-K. Wang、M.-C. Duan、R. Adity、D. Srijita、G. Priyantan、S. Priyantan、M. Anindita、P. Arkajyoti、R.-P. Li、J.-T. Zuo、Y. Lyu以及浙江大学地球数据团队在帮助清理地球化学数据集方面的贡献。我们还要感谢R. Dennen对手稿语言的润色。作者感谢EarthChem和GEOROC的基础工作,这为我们的研究提供了起点。我们也感谢两位匿名审稿人的建设性建议
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号