人工智能与古生物学：基于3150张图像探究脊椎动物化石样本量对机器学习图像分类的影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Paleobiology》：AI and paleontology: effects of vertebrate fossil sample size on machine learning image classification

【字体：大中小】 时间：2026年02月26日 来源：Paleobiology 2.7

编辑推荐：

　　针对脊椎动物化石样本量通常较小、制约机器学习（Machine Learning, ML）模型训练效果的难题，本研究选取新近纪六类鲨鱼牙齿（共3150张图像）作为模型系统，评估了样本量（每类50至500张图像）对卷积神经网络（CNN）分类性能的影响。研究证实，即使样本量较小（每类50个样本），模型平均准确率可达93.4%；当样本量增至200-500张/类时，准确率稳定在~99%。此外，启用微调（fine-tuning）能显著提升模型性能，而数据增强（Data Augmentation, DA）虽未明显提高准确率，但能增强模型置信度。此项工作为小样本脊椎动物化石的高精度自动鉴定提供了可行方案和性能基准，推动了AI在古生物学领域的应用边界。

在古生物学研究的广阔图景中，一个长期存在的难题始终萦绕在研究者心头：面对地质历史长河中留下的零星证据——那些数量稀少且往往保存不佳的脊椎动物化石，我们如何高效、准确地进行物种鉴定？传统的鉴定工作高度依赖专家的经验和肉眼观察，不仅耗时费力，而且面临着专家资源稀缺、主观判断差异等挑战。近年来，人工智能（Artificial Intelligence, AI）与机器学习（Machine Learning, ML）技术的迅猛发展为解决这一问题带来了曙光。计算机视觉模型，尤其是深度学习方法，已在图像分类任务上展现出惊人潜力，在医学影像、自动驾驶等领域大放异彩。然而，将这些技术迁移到古生物学领域，特别是应用于脊椎动物化石时，一个根本性的矛盾凸显出来：成功的机器学习应用通常需要海量的标记数据（每类成千上万个样本）进行训练，而古生物学，尤其是脊椎动物古生物学，恰恰以“小样本”为常态。许多已灭绝的物种仅由寥寥数件标本所代表，这构成了应用先进AI技术的一大瓶颈。那么，一个关键问题随之而来：在有限的样本量下，机器学习模型能否实现对化石的高精度、高置信度分类？如果可以，其性能与样本量之间又存在怎样的关系？为了回答这些问题，一项聚焦于鲨鱼牙齿——这一在化石记录中相对丰富且形态多样的脊椎动物硬体部分——的创新研究应运而生，并发表于学术期刊《Paleobiology》。

研究人员为开展此项研究，主要运用了以下几个关键技术方法：研究选取了六类新近纪鲨鱼牙齿（Otodus megalodon，Carcharodon carcharias，Carcharodon hastalis，Galeocerdo cuvier，Hemipristis serra 和 Carcharhinus spp.）作为模型系统，构建了一个包含3150张标准化数字图像（每类525张）的精心策划数据集，标本主要来自北美多个博物馆及私人收藏。他们建立了一套标准化的图像采集与处理工作流，使用专业设备在统一背景下拍摄标本舌面，并通过后期处理移除背景和比例尺，将所有图像统一为384×384像素的格式。在机器学习模型方面，研究基于EfficientNetV2架构构建了卷积神经网络（Convolutional Neural Network, CNN），并系统对比了仅使用预训练（pretrained）模型、启用微调（fine-tuning）以及结合不同数据增强（Data Augmentation, DA）技术（包括随机灰度化RG和水平翻转HF）的五种模型变体。模型性能通过准确率和置信度等指标进行评估，并利用混淆矩阵和显著性图（saliency maps）分析误判模式。所有计算在配备NVIDIA A100 GPU的高性能服务器上完成。

样本量、准确度与置信度：通过对比不同样本量（从每类50张图像到500张图像）下的模型表现，研究验证了其理论预测：模型性能随样本量增加而提升，最终达到一个最优平台期。在启用微调的模型（v2）中，当每类样本量超过100张后，平均分类准确率便稳定在约99%的高位，模型置信度也升至约90.5%并趋于平稳。相比之下，仅使用预训练模型（v1）的准确率增长曲线更为波动，且置信度表现不佳。这表明，针对特定化石数据集进行模型微调，对于提升小样本下的分类性能至关重要。

数据增强的作用：研究评估了数据增强技术对模型性能的影响。在每类50、100和150张图像的小样本集上，应用随机灰度化（RG）和水平翻转（HF）等简单的数据增强技术，并未显著提升模型的平均分类准确率，所有条件下的准确率均在96.67%至99.33%之间。然而，数据增强显著提高了模型的平均置信度。例如，在每类50张图像的情况下，未使用数据增强的模型平均置信度为81.76%，而应用RG和HF增强后，置信度分别提升至85.10%和85.24%。这说明，数据增强虽然可能无法突破准确率的上限，但能有效增强模型对其预测结果的把握，尤其在小样本场景下。

增量模型训练：学习损失与准确度：通过分析训练过程中的学习损失和准确度曲线，研究发现最小的样本集（每类50张图像）更容易出现过拟合现象，表现为验证损失曲线存在噪声且最终稳定在比训练准确度低约8%的水平。而更大的样本集（每类150张和500张图像）的训练与验证曲线在最初几个训练周期后便迅速收敛，表明模型具有良好的泛化能力。这证实了样本量是控制过拟合风险的关键因素之一。

误判模式分析：研究详细统计了模型在测试集上的误判情况。在所有测试中，Carcharodon carcharias（大白鲨）的牙齿被误判次数最多（106次），主要被误判为Otodus megalodon（巨齿鲨）和Carcharodon hastalis。Carcharhinus属（真鲨属）的牙齿也有少量误判。分析发现，这些误判大多集中在少数几颗因保存状况不佳（如锯齿磨损、颜色斑驳）或形态特征模糊的特定标本上。例如，一颗特定的C. carcharias标本（CMM-V-10324）就贡献了全部误判的44%。相比之下，形态最简单（无锯齿的宽三角形牙冠）的C. hastalis在所有迭代中从未被误判，但模型有时会将其误判为其他类别的“默认选项”。

混淆矩阵与显著性图：混淆矩阵直观展示了不同样本量下模型的具体误判细节。在每类50张图像训练出的模型中，有4颗牙齿被误判；当样本量增至150张/类时，仅1颗牙齿被误判；而在500张/类的模型迭代中，测试集实现了零误判。通过生成误判样本的显著性图，研究人员能够可视化模型做出分类决策时所关注的图像区域（“热点”）。例如，对于同一颗被误判的C. carcharias牙齿，在50张/类样本下训练的模型关注牙冠边缘特征，而在150张/类样本下训练的模型则更关注整个牙冠区域。这揭示了模型在不同数据规模下学习特征的差异。

研究的结论与讨论部分，首先重申并强调了其核心发现：机器学习模型能够有效应用于小样本脊椎动物化石的分类鉴定。具体而言，研究表明，对于本研究所用的六类鲨鱼牙齿，每类仅需约50至100个样本即可训练出准确率超过96%的模型，而样本量达到200至500时，准确率可稳定在约99%的平台期。这一发现至关重要，因为它证明，无需传统AI应用所需的“大数据”（每类成千上万个样本），古生物学家利用相对有限的馆藏标本，也能构建出高性能的自动鉴定工具。其次，研究明确了优化策略：启用模型微调是提升小样本分类性能的关键，它能显著提高准确率和置信度，并降低结果的方差；而数据增强技术虽然对提升准确率帮助有限，但能有效增强模型的预测置信度，尤其在样本量最小时作用明显。研究还系统分析了误判模式，指出误判主要发生于形态特征相似（如都有锯齿的C. carcharias与O. megalodon）或因保存原因导致关键特征（如锯齿）模糊的类群之间，且往往集中于少数几件保存状况不佳的标本。

该研究的意义深远。在方法论上，它为受限于小样本的古生物学研究（尤其是脊椎动物古生物学）提供了一套经过验证的、可行的机器学习工作流程与性能基准。这不仅限于鲨鱼牙齿，其框架可推广至其他化石门类。在实践层面，研究展示了利用现有博物馆数字馆藏资源（通常每类标本数量有限）开发高效自动鉴定工具的潜力，有助于缓解专业鉴定人员短缺的压力，加速大规模化石标本的编目与研究。此外，通过显著性图等技术，研究尝试“打开”机器学习模型的“黑箱”，将模型的决策过程与古生物学家的形态学认知联系起来，为未来开发更透明、更符合专家逻辑的AI辅助工具指明了方向。当然，研究也承认了其局限性，如数据集存在地理和时代偏差、仅包含完整标本、以及类别有限等，并据此展望了未来的研究方向，包括将模型扩展到包含更多物种、处理不完整化石标本，以及从二维图像分析扩展到三维形态分析等。总体而言，这项研究成功地在AI的高数据需求与古生物学的现实约束之间架起了一座桥梁，为人工智能赋能古生物学研究开创了具有示范意义的新路径。

联系信箱：

粤ICP备09063491号

热点排行