利用扩散模型生成合成图像缓解野生动物调查数据稀缺——以麝牛（Ovibos moschatus）为例

《Remote Sensing in Ecology and Conservation》：Lacking data? No worries! How synthetic images can alleviate image scarcity in wildlife surveys: A case study with muskox (Ovibos moschatus)

【字体：大中小】 时间：2026年02月15日 来源：Remote Sensing in Ecology and Conservation 4.3

编辑推荐：

　　本文探讨了在数据稀缺的野生动物调查中，如何利用基于扩散模型（如DALL-E 2）生成的合成图像，来补充训练数据并提升深度学习目标检测模型（ODM）在零样本（zero-shot）和少样本（few-shot）场景下的性能。研究表明，合成图像能有效提升模型检测的召回率（recall）和稳定性，为监测稀有或分布稀疏物种提供了新思路，有望降低监测成本、提高监测频率。

摘要

准确估计种群数量对野生动物管理至关重要。传统的调查方法如航拍目视计数和GNSS（全球导航卫星系统）遥测追踪，在监测北极麝牛（Ovibos moschatus）种群时，不仅资源消耗大，还受后勤限制。深度学习目标检测模型（ODM）为自动化监测提供了可能，但其效能常受限于小样本数据集。本研究探索利用扩散模型生成的合成图像来补充有限的训练数据，以提升麝牛在零样本和少样本场景下的检测效果。

引言

野生动物种群监测是保护和管理的基础。麝牛作为北极地区具有重要经济和文化价值的大型有蹄类动物，其种群动态受到气候变化等因素的影响，精准监测的需求日益迫切。然而，传统的航拍距离取样法成本高昂、操作复杂，且难以应对麝牛分布稀疏、地域广阔的特点。尽管无人机和高分辨率遥感影像与人工智能（尤其是卷积神经网络，CNN）的结合带来了新机遇，但用于训练稳健ODM的数据严重不足。零样本和少样本学习技术为从小数据中快速学习提供了框架，而利用先进生成模型创建合成图像，作为数据增强或零样本框架的一部分，在野生动物调查领域仍属空白。

材料与方法

研究区域位于加拿大魁北克省和西北地区，主要使用接近正射（nadir-like）的航拍影像。

高级数据增强：研究采用OpenAI的DALL-E 2文本-图像扩散模型生成合成图像。通过输入如“从上方看到的麝牛群，冬季背景，航拍图像”等提示词，批量生成了160张保留的合成图像，以模拟真实生态环境和动物形态。

数据集构建：共创建了11个数据集：一个仅包含96张真实图像的基线（BL）数据集；五个零样本（ZS1-ZS5）数据集，仅包含30至160张不等的合成图像；五个少样本（FS1-FS5）数据集，在96张真实图像基础上逐步加入等量合成图像。所有图像均被切割为512×512像素的图块并标注。

经典数据增强：在训练过程中，使用Albumentations库对图像进行标准化、亮度对比度调整、翻转、旋转等操作，以提升模型泛化能力。

目标检测模型训练与优化：采用专为密集群体计数设计的HerdNet架构作为ODM。通过多次迭代优化权重，并采用五折交叉验证来减少随机分配偏差。使用精确率（precision）、召回率（recall）和F₁分数作为主要评估指标。

结果

零样本目标检测模型：随着合成图像数量增加，零样本模型的精确率、召回率和F₁分数均呈现上升趋势，但增长在合成图像数量达到96张（相当于基线数据集大小）后趋于平缓，表明存在收益递减效应。所有零样本模型的F₁分数均显著低于基线模型。性能提升在ZS3（96张合成图像）后达到平台期。

少样本目标检测模型：在真实图像中加入合成图像后，少样本模型的召回率和F₁分数相比基线模型有所提升，模型性能的稳定性（置信区间变窄）也得到增强，但精确率略有下降（约4%）。统计分析显示，FS3和FS5模型的精确率显著低于基线，但召回率和F₁分数的提升并不具备统计显著性。

检测统计：以FS3（少样本）模型为例，其平均每个图块的漏检数（false negative）最低，但误检数（false positive）略高于基线模型，表明合成数据有助于减少漏检，但可能增加少量后期人工核查的工作量。

讨论

零样本学习：应对数据稀缺的有前景方案：研究表明，仅使用合成图像训练的ODM能在真实图像中检测出超过80%的麝牛，为零数据或数据极少情况下的模型初始化提供了可行路径。合成图像能模拟罕见或危险场景，并精确控制训练条件的多样性。但性能的波动性以及合成图像收益的递减，也凸显了后续使用真实图像进行微调以提升模型泛化能力的重要性。

少样本学习：平衡真实与合成数据：结合真实与合成图像的少样本策略在实践中更为有效。它能在略微牺牲精确率的情况下，提升召回率和模型稳定性。然而，当合成图像数量超过原始真实数据集约两倍时，可能导致精确率显著下降，因此需要谨慎平衡二者比例。

真实图像在训练目标检测模型中的作用：尽管合成图像作用显著，但野外获取的真实图像提供了难以复制的生态和背景真实性。研究倡导一种混合策略，在数据稀缺的环境中策略性地结合两者以优化模型性能。

对野生动物监测工作的启示：对于在开阔栖息地呈现季节性聚集行为的物种，未来调查可考虑在方案中纳入正射影像。ODM（如HerdNet）能自动化处理图像，减轻人工审核负担。合成图像的应用可延伸至其他物种，尤其适用于监测新物种或缺乏数据的物种初期。

局限性：使用合成图像的主要局限在于可能引入真实数据中不存在的伪影或模式，导致模型过拟合合成特征。DALL-E 2等模型在生成特定视角（如正射视图）的麝牛图像时存在困难，常产生视角错配或解剖结构失真，导致高达84%的生成图像被筛除。此外，生成模型固定的输出分辨率和批次限制也制约了其扩展性。

未来研究方向

下一代合成图像：未来研究应探索更先进的生成模型（如DALL-E 3、Stable Diffusion）以及提示词工程对合成图像质量和ODM性能的影响。需在更复杂的生态场景（如多物种检测、杂乱自然环境）中测试模型泛化能力。

真实与合成卫星图像：随着超高分辨率（VHR）卫星影像在野生动物调查中的应用兴趣增长，未来可探索使用合成卫星图像训练ODM的可行性，并开发针对野生动物监测的领域专用生成模型，以弥补数据可用性的缺口。

本研究展示了合成图像在缓解野生动物调查数据稀缺、提升自动化监测能力方面的巨大潜力，为零样本和少样本学习策略在该领域的应用提供了重要实证。

热点排行

新闻专题