《Scientific Data》:A dataset and benchmark of carbonate thin-section images for deep learning
编辑推荐:
本研究针对碳酸盐岩薄片图像分析中缺乏大型公开数据集、限制模型可复现性与公平比较的瓶颈,构建了DeepCarbonate数据集。该数据集涵盖多个地质时代与层位,经专家筛选与标准化处理,包含22种岩性类别,并系统评估了ResNet、VGG、DenseNet等主流深度学习模型在不同实验设置下的性能,为碳酸盐岩岩石学研究提供了可靠的基准平台。
在碳酸盐岩储层研究中,薄片图像分析是识别岩石组分、孔隙结构和成岩作用的关键手段。随着人工智能技术的发展,深度学习已成为自动化薄片图像分析的利器。然而,该领域长期面临一个突出瓶颈:缺乏大规模、高质量且标准化的公开数据集。这一现状严重制约了不同算法之间的公平比较与研究结果的可复现性,阻碍了深度学习技术在碳酸盐岩岩石学中的深入应用和推广。
为了破解这一难题,一项发表于《Scientific Data》的研究应运而生。研究人员系统性地收集、整理并发布了一个名为DeepCarbonate的碳酸盐岩薄片图像数据集与基准平台。该研究旨在为全球学术界和工业界提供一个可靠的标准,推动碳酸盐岩图像智能分析技术的健康发展。
DeepCarbonate数据集的构建体现了高度的严谨性与科学性。样本来源广泛,覆盖了中国四川盆地的埃迪卡拉系灯影组、寒武系龙王庙组、三叠系雷口坡组和嘉陵江组,以及阿联酋的白垩系Mishrif组。这些层位是重要的油气储层,具有显著的研究价值。为确保数据质量,研究团队邀请了石油地质学专家参与数据筛选,通过专家投票和2σ滤波等统计方法,剔除了模糊、亮度不足或损坏的无效图像。最终,所有合格图像均按照ImageNet格式进行了重新组织,确保了数据格式的统一性。
数据集内容非常丰富,共包含了22种岩性类别。这些类别并非简单罗列,而是根据光学观察模式(包括单偏光(PPL)、正交偏光(XPL)和反射光(R))进行了层次化组织。更重要的是,数据集预先划分了训练集、验证集和测试集,为标准化的基准测试和可复现的实验提供了坚实基础。
在技术方法层面,本研究主要依托以下几个关键环节:
- 1.
数据采集与标准化:从国内外多个典型碳酸盐岩地层系统采集薄片样本,获取高质量数字图像。
- 2.
专家级数据清洗:采用多专家投票结合2σ滤波的严格流程,剔除不合格图像,确保数据集质量。
- 3.
数据集结构化构建:按岩性类别和光学模式分层组织图像,并划分为训练、验证、测试子集,格式兼容ImageNet。
- 4.
深度学习模型基准评测:基于PyTorch框架并利用CUDA加速,系统评估了包括ResNet、VGG、DenseNet、MobileNet和EfficientNet在内的多种主流卷积神经网络模型。
研究结果
基准实验
研究团队在完整的DeepCarbonate数据集上进行了基准实验。结果表明,不同的深度学习模型在22类岩性识别任务上表现各异,其中一些现代架构如EfficientNet和DenseNet展现了较高的分类准确率,验证了深度学习应用于碳酸盐岩薄片图像分析的可行性。
消融实验
通过消融实验,研究人员探讨了不同因素对模型性能的影响,例如数据预处理方式、模型结构变化等。这些实验有助于理解模型的关键组件及其在特定任务上的有效性。
长尾分布实验
针对现实数据集中常见的类别样本数量不均衡(即长尾分布)问题,研究进行了专门实验。结果揭示了长尾分布对模型性能的挑战,并提示未来研究需要关注数据不平衡下的模型鲁棒性。
平衡子集实验
为了更清晰地比较模型性能,研究还构建了一个平衡的Top 9岩性子集进行实验。在该平衡设置下,模型间的性能差异和排名更为清晰,为进一步的算法优化提供了明确方向。
结论与意义
DeepCarbonate研究成功地创建并发布了首个经过严格清洗和标准化的碳酸盐岩薄片图像深度学习基准数据集。该数据集不仅样本来源广泛、类别体系完善,而且经过了严格的质量控制。系统的基准评测涵盖了多种主流模型和不同的实验场景,其结果凸显了DeepCarbonate作为碳酸盐岩岩石学研究可靠基准的价值。此项工作极大地促进了碳酸盐岩薄片图像分析领域的可复现性研究和公平模型比较,为利用深度学习技术深入理解碳酸盐岩的复杂性、辅助油气勘探开发提供了重要的数据基础和方法论支撑。该数据集的开放共享,预计将推动全球范围内碳酸盐岩人工智能分析研究的发展。