《Scientific Reports》:A UAV RGB dataset and method for instance tree crown segmentation for biodiversity monitoring
编辑推荐:
本研究针对密集森林环境中单木树冠实例分割的难题,提出了一种名为TreeCoG的创新方法。该方法采用深度边缘检测网络(EDTER)进行过分割生成候选轮廓,通过提取形状特征(面积、延展度、坚实度、纵横比、偏离度)和外观相似性特征(LPIPS),构建轮廓图并利用图卷积网络(GCN)进行轮廓合并,有效解决了树冠严重重叠和边界模糊问题。在自建的多季节无人机RGB数据集ForestSeg(包含2,944张标注图像)和公开数据集BAMFORESTS上的实验表明,TreeCoG在实例分割精度(AP分别达到57.01%和53.21%)和推理效率(6.2 ms/图像)上均优于现有主流方法(如Mask R-CNN、YOLOv11),为生物多样性监测提供了可靠的技术支撑。
在应对全球气候变化和生物多样性丧失的严峻挑战中,对森林生态系统进行精准、高效的监测变得至关重要。传统的人工调查方法不仅耗时费力,而且难以实现大范围的连续观测。近年来,搭载摄像头的无人机(Unmanned Aerial Vehicles, UAV)因其灵活、高效的特点,在林业资源调查和生物多样性监测中展现出巨大潜力。其中,单木水平的树冠实例分割是无人机影像分析中的关键一步,它为后续的树种识别、森林结构分析、生物量估算等任务提供了基础数据。然而,在茂密的热带森林中,树木冠层常常紧密相连甚至相互重叠,不同树种的视觉特征可能相似,加之光照、阴影等环境因素的变化,使得准确区分每一棵树的边界变得异常困难,这对现有的实例分割方法提出了巨大挑战。
为了攻克这一难题,发表在《Scientific Reports》上的一项研究提出了一种名为TreeCoG的创新方法,用于从无人机拍摄的RGB影像中进行实例级的树冠分割。与试图直接分割完整树冠的传统思路不同,研究团队另辟蹊径,采用了一种“先过度分割,再智能合并”的策略。该方法首先利用深度边缘检测Transformer(EDTER)将复杂的树冠区域分解为更小、更基础的轮廓单元,从而避免将不同树木错误地合并在一起。接着,为每个轮廓计算描述其形态的特征(如面积、延展度、坚实度、纵横比、偏离度),并利用学习感知图像块相似度(Learned Perceptual Image Patch Similarity, LPIPS)度量来计算相邻轮廓外观上的相似性,以此构建一个以轮廓为节点、相似性为边权重的图结构。最后,通过图卷积网络(Graph Convolutional Network, GCN)来学习判断图中的哪些节点(轮廓)应该被合并,从而最终生成精确的单木实例分割掩模。
该项研究的另一大贡献是发布了名为ForestSeg的新数据集。该数据集在越南的热带森林中利用无人机(DJI Air 3和DJI Phantom 4 RTK)采集,涵盖了不同季节和飞行高度(70-211米),总共包含2,944张经过精细标注的图像,分为四个子集(ForestSeg-T1至T4)。这种多时相、多高度的特性使得该数据集能够支持对实例树冠分割方法鲁棒性的严格评估,并有助于分析树木特征随时间的变化规律。
为开展研究,作者主要应用了几项关键技术:基于深度边缘检测Transformer(EDTER)的轮廓初始提取;结合轮廓形状特征(面积、延展度、坚实度、纵横比、偏离度)和基于LPIPS的外观相似性度量的图结构构建;以及基于图卷积网络(GCN)的轮廓合并算法。实验在两个数据集上进行:作者自建的ForestSeg数据集和公开的BAMFORESTS数据集。
研究结果
不同轮廓生成方法的评估:研究比较了PiDiNet、DexiNed和EDTER三种边缘检测方法用于轮廓初始化的效果。结果表明,基于EDTER的方法在分类准确率和实例分割的平均精度(AP)上均优于其他两种方法,在ForestSeg-T1上分别达到65.37%和57.01%,证明其能产生更可靠、更具判别力的边界轮廓,为后续合并打下良好基础。
特征贡献度分析:通过消融实验分析了轮廓合并步骤及各特征的重要性。结果显示,完全省略合并步骤会导致性能急剧下降(AP降至20.03%),凸显了轮廓合并的核心作用。在形状特征中,偏离度(Deviation)特征的缺失对性能影响最大,而面积(Area)特征的贡献相对较小。使用 extent, solidity, aspect ratio, deviation 这四个形状特征并结合外观相似性时,模型取得了最佳性能。
与先进方法的比较:在ForestSeg-T1数据集上,TreeCoG与Mask R-CNN(ResNet-50及Swin Transformer backbone)、Detectree2、YOLOv11、Mask2Former等主流实例分割方法进行了比较。TreeCoG在平均精度(AP: 57.01%)、AP@50 (62.21%) 和 AP@70 (55.32%) 上均取得了最优结果。更重要的是,TreeCoG的推理速度最快(6.2毫秒/图像),模型效率显著高于对比方法,展现了其在实时处理方面的潜力。
不同时相下的性能评估:研究评估了模型在ForestSeg四个不同子集(代表不同采集时间和条件)上的表现。模型在ForestSeg-T4(使用长焦相机在100米高度拍摄)上表现最好(AP: 60.82%),而在正午强光下、150米较高海拔拍摄的ForestSeg-T3上性能相对较低(AP: 54.92%),这表明成像条件和空间分辨率对分割效果有显著影响,也体现了多季节数据集对于评估方法鲁棒性的价值。
在基准数据集上的评估:在BAMFORESTS数据集上的测试进一步验证了TreeCoG的泛化能力,其AP(53.21%)和AP@50(73.14%)均优于其他对比方法,表明该方法能够适应不同地理区域的森林场景。
跨数据集评估:当使用在ForestSeg-T1上训练的模型直接测试BAMFORESTS数据集时,性能出现明显下降(AP从57.01%降至24.14%),这揭示了不同森林数据集之间存在显著的域间差异,为未来研究如域自适应(Domain Adaptation)技术的应用指明了方向。
结论与意义
本研究提出的TreeCoG方法,通过创新的“轮廓提取-特征表示-图网络合并”三阶段流程,有效解决了密集森林环境中单木树冠实例分割的边界模糊和重叠难题。该方法不仅在自建的、具有多季节多样性的ForestSeg数据集上取得了领先的精度和效率,在公开的BAMFORESTS基准测试中也展现了良好的泛化性能。同时,发布的ForestSeg数据集本身也为该领域的研究提供了宝贵的资源。这项工作显著推进了基于无人机遥感技术的自动化树木分析水平,为生物多样性监测、森林资源管理和生态系统研究提供了强有力的工具。未来,研究者可以考虑引入自监督学习以进一步提升特征表示能力,并探索跨域适应技术以增强模型在不同森林类型和成像条件下的普适性。