SATree：基于3D激光雷达点云的结构感知树状实例分割方法

《Urban Forestry & Urban Greening》：SATree: Structure-aware tree instance segmentation from 3D LiDAR point clouds

【字体：大中小】 时间：2026年03月24日 来源：Urban Forestry & Urban Greening 6.7

编辑推荐：

　　盛兰杜 | 詹蒂安·斯托特 | 朱利安·F.P. 库伊 | 刘亮亮 3D地理信息组，代尔夫特理工大学建筑与建成环境学院，代尔夫特，2628 BL，荷兰 **摘要** 从3D点云中准确分割和分析单个树木是城市规划和环境研究中的关键且具有挑战性的任务。大多数现有的树木实

　　盛兰杜 | 詹蒂安·斯托特 | 朱利安·F.P. 库伊 | 刘亮亮
3D地理信息组，代尔夫特理工大学建筑与建成环境学院，代尔夫特，2628 BL，荷兰

**摘要**
从3D点云中准确分割和分析单个树木是城市规划和环境研究中的关键且具有挑战性的任务。大多数现有的树木实例分割方法都存在欠分割或过分割的错误，这主要是由于环境的复杂性和树木几何形状的多样性。在本文中，我们提出了一种新的结构感知方法SATree，该方法可以直接从点云中识别出重要的树木结构，如树冠和树干，从而实现对树木重叠和不同大小的树木的鲁棒分割。我们的方法利用了一个多任务学习框架，同时执行以下任务：
(i) 语义分割，将点分类为树冠、树干或其他类型；
(ii) 热图预测，根据以树干位置为中心的2D高斯核为每个点分配一个热值；
(iii) 偏移量预测，估计指向实例质心的点对点偏移量。
我们方法的关键在于树干定位模块，该模块将语义和热图预测融合在一起，以可靠地从网络输出中定位树干。之后，我们使用基于图的最短路径算法，通过整合学习到的偏移量嵌入来对单个树木点进行分组。在两个公共林业数据集TreeML和ForInstance上的广泛实验表明，SATTree在AP、AP50和AP25分数方面始终优于现有方法，显著减少了欠分割或过分割的错误。我们的研究成果支持下游的林业清查、3D树木重建以及树木的细粒度部分分割。SATTree的源代码可在以下链接获取：https://github.com/shenglandu/SATree

**1. 引言**
树木在城市生态系统中发挥着重要作用。它们通过提供光合作用、维持碳平衡和调节温度等方式，为人类健康带来巨大的生态和经济效益（Hyypp?等人，2012年）。准确测量和评估树木是许多应用的基础任务，例如城市规划、林业管理和环境模拟。例如，估计单个树木的生物量和体积对于准确的碳储存评估至关重要，这有助于制定气候变化缓解策略（Shrestha等人，2018年）；在城市绿地中建模树木对景观建筑师和城市设计师也很重要，有助于现代城市的规划和可持续性发展。所有这些应用都需要在实例级别进行精确的树木清查。
传统的树木和植被清查严重依赖于实地调查，这可能劳动密集、耗时且成本高昂（Hyypp?等人，2001年）。随着遥感技术的进步，2D卫星图像和3D激光雷达（LiDAR）数据已被用于高效地描述大范围的森林结构（Dassot等人，2011年）。特别是，已经提出了一系列基于图像的人工智能（AI）方法来促进植被分割（Arief等人，2018年）、识别树种（Hakula等人，2023年）、划分单个树冠（Weinstein等人，2020年，Yun等人，2021年）以及分析树木结构（Reche-Martinez等人，2004年）。然而，图像存在分辨率低、受天气影响和遮挡问题，这些因素阻碍了数据的准确获取（Wang等人，2023年）。此外，图像自然无法捕捉树木结构的细节，难以实现细粒度的树木实例分割。相比之下，LiDAR点云可以直接捕获具有精确3D测量值和丰富几何细节的物体表面。由于其高空间分辨率和准确性，LiDAR数据已被广泛用于单个树木分割，使研究人员能够推导出关键的植物结构参数，如树高（Olofsson等人，2014年）、胸径（DBH）（Sun等人，2022a年）以及树木体积和生物量（Fan等人，2020年）。

从3D点云中分割单个树木可以分为启发式方法和基于学习的方法。启发式方法通常假设树顶是局部最大值，因此可以通过分水岭算法检测到（Chen等人，2006年）。另一个假设是树冠点在欧几里得空间中形成密集的簇，因此可以通过各种聚类技术进行分割，包括均值漂移聚类（Malladi等人，2024年）、基于密度的聚类（J. Wang等人，2018年，Hakula等人，2023年）、层次聚类（Lee等人，2010年）和图最短路径算法（Livny等人，2010年，Tao等人，2015年）。然而，这些方法高度依赖于特定领域的先验知识。另一方面，由于深度学习在计算机视觉和点云分析中的成功，引入了几种基于深度学习的方法。早期方法通常将点云转换为离散模型，如树冠高度模型（CHMs）或数字表面模型（DSMs），并应用图像处理技术（例如卷积神经网络（CNNs）来实现单个树木分割（Chang等人，2022年，Hamraz等人，2019年，Wang等人，2019年）。然后将2D分割结果投影回原始3D空间以获得3D树木实例。为了避免数据转换过程中的潜在信息丢失，更近期的方法（Wang等人，2023年，Z. Luo等人，2021年，H. Luo等人，2021年，Jiang等人，2023a年，Jiang等人，2023b年，Henrich等人，2024年）直接处理点云并在3D空间中进行逐点实例预测。其中，（Wang等人，2023年）设计了一个双分支网络，融合了语义和实例分支的特征以实现树木实例分割。H. Luo等人（2021年），Jiang等人（2023a年），Henrich等人（2024年）执行联合语义分割和偏移量预测（即指向树木实例质心的方向向量），然后将点聚类为单个树木。

尽管这些方法表现优异，但在复杂的城市森林场景中，许多方法难以准确识别单个树木。在这些环境中，异质的树冠结构、不同的树木大小和密集的树叶可能导致显著的树冠重叠或遮挡。结果，分割输出经常出现欠分割，即多个相邻的树木被分割成一个实例，或者过分割，即一个树冠被分割成多个部分。这些错误可能会传播并最终影响下游分析，如树木属性计算、生物量估计和城市生态系统建模。

在本文中，我们提出了SATTree，一种结构感知的树木实例分割方法，以应对大规模的城市林业场景。我们的方法受到一个直观见解的启发，即一个树木实例自然包含一个树干和一个树冠。通过明确检测关键结构（例如树干），我们可以利用它们作为几何锚点来指导复杂城市森林中单个树木的分割，特别是对于树冠重叠密集、树枝干扰、遮挡和树木形状复杂的林业场景。我们引入了一个简单统一的点云学习框架，包含语义分割分支、高斯热预测分支和以实例质心为导向的偏移量预测分支。这个统一框架能够并行自动检测树冠和定位树干，无需任何预处理或辅助学习模块。

**下载：**
下载高分辨率图像（2MB）
下载全尺寸图像

**图1. SATTree同时执行三项任务：**
(i) 语义分割，将点分类为树冠（绿色）、树干（棕色）或其他（黑色）；
(ii) 热图预测，为每个点分配一个热值，范围从0（蓝色）到1（红色）。高值表示树干或主要树枝；
(iii) 偏移量预测，预测指向相应树木实例质心的向量。树木点和偏移量向量以绿色和黑色显示（左下角）。通过结合这些预测，SATTree实现了准确的树木实例分割。与现有方法（Jiang等人，2023b年，Henrich等人，2024年）不同，SATTree同时分类树冠和树干点，并预测热图以实现稳健的树干定位。特别是，所提出的语义和热图分支在各种大小和形状的树木中都显示出有效性（右下角）。（关于图中颜色参考的解释，请参阅本文的网络版本。）

图1概述了SATTree的工作流程，我们使用一个网络同时执行三项任务。首先，语义分割任务将每个点分类为树冠、树干或其他类型。然后，热图预测任务根据以树干位置为中心的2D高斯核预测每个点的热响应。随着点接近树干或主要树枝，热值增加，以支持更准确的树干定位。在最后的偏移量预测任务中，为每个点预测一个3D偏移量向量，将其指向相应的树木实例质心。一旦识别出树干，我们使用基于图的最短路径方法来隔离单个树木，该方法考虑了点在欧几里得空间中的接近程度及其朝向实例质心的偏移方向。这种策略有助于精确划定树木实例边界。我们的工作有三个主要贡献：
• 我们提出了一个多任务学习框架，可以同时分割城市林业场景中的树冠和树干。利用这些关键结构组件的互补预测大大提高了整体树木实例分割的效果。
• 我们提出了一个热图预测模块，学习主要树木结构的高响应表示，以有效指导树木实例分割。
• 我们开发了一种方向感知的基于图的方法，整合学习到的偏移量嵌入，以在复杂区域精确划定树木边界。

**2. 相关工作**
在本节中，我们回顾了与单个树木检测和树木实例分割相关的早期研究，从传统的启发式方法到最近的基于深度学习的方法。

**2.1. 传统的树木实例分割**
由于树木形状的不规则性和森林生态系统的固有复杂性，自动分割单个树木具有挑战性。早期方法主要集中在从2D航空图像中识别和提取树顶（Dralle和Rudemo，1996年，Wulder等人，2000年），后来扩展到3D LiDAR数据（Chen等人，2006年）。在树顶检测之后，可以应用经典的图像分割技术（如分水岭分割（Beucher，1979年）来识别单个树木。为了增强树木形态的分割，Yun等人（2021年）引入了双高斯滤波器与各向异性水膨胀算法结合使用，用于树冠边界分割。这些方法将树顶检测为图像或CHMs中的局部最大值，可能会导致较大的遗漏误差（Chen等人，2006年）。另一类方法采用基于分组的策略从点云中分割单个树木，基于树冠点在3D空间中自然形成密集簇的观察。用于分组点的聚类算法包括k-means（Gupta等人，2010年）、层次聚类（Lee等人，2010年）和均值漂移（Malladi等人，2024年）。Ayrey等人（2017年），J. Wang等人（2018年），Hakula等人（2023年）的研究提出了一种分层堆叠策略，以减少密集森林区域中的聚类误差。这些方法将森林树冠分层，每层聚类点，并将层级的簇聚合成树木实例。一些工作还利用图结构进行树木实例分割。Livny等人（2010年），Tao等人（2015年）应用图最短路径算法对单个树木进行分组。Heinzel和Huber（2018年）在点上构建了一个相似性图，并使用马尔可夫随机场框架对树木进行分割。Wang等人（2021年）开发了一种结合Delaunay图和k-最近邻（kNN）图的混合方法，其中每个节点反复向其最低邻居移动以定位其树木来源。Burmeister等人（2024年）引入了一种计算效率高的标记控制分水岭算法，通过3D区域生长以粗到细的方式分割单个树木。

启发式方法的一个主要限制是它们严重依赖于特定领域的先验知识，这使得它们难以推广到广泛的林业场景。对于特定的城市场景或树木类型，找到最优解往往并非易事。

**2.2. 深度学习在3D实例分割中的应用**
在过去十年中，深度学习彻底改变了点云处理和3D计算机视觉。开创性的PointNet（Qi等人，2017a）和PointNet++（Qi等人，2017b）设定了从原始点云学习的趋势，无需将点转换为图像平面或3D体素等中间格式。此后，引入了许多逐点特征学习网络，专注于在局部邻域中聚合几何信息。根据局部特征聚合函数的设计，这些方法可以大致分为基于多层感知器（MLP）的方法（Qian等人，2022年；Lin等人，2023年）、基于卷积的方法（Thomas等人，2019年；Xu等人，2021年）、基于Transformer和Attention的方法（Zhao等人，2021年；Lai等人，2022年）。由于点学习网络的成功，已经提出了许多研究来解决点云上的3D实例分割任务，该任务旨在在对象实例级别识别每个点。最早的研究之一是SGPN（W. Wang等人，2018年），它通过形成特征相似性矩阵来学习3D实例分割表示。这种方法在计算上可能较为昂贵。PointGroup（Jiang等人，2020年）引入了一个框架，该框架根据语义和偏移预测将点分组到实例簇中。这个想法后来被扩展到HAIS（S. Chen等人，2021年）和SoftGroup（Vu等人，2022年），因为它们简单且有效。HAIS（Jiang等人，2020年）通过添加层次聚合方案进行了改进。SoftGroup执行自下而上的软分组，允许每个点被分配到多个实例中，然后自上而下地细化分割结果。最近，PointGroup和SoftGroup被采用为3D树实例分割的骨干架构（Wielgosz等人，2024年；Henrich等人，2024年）。SATree架构的设计在很大程度上受到了最近基于深度学习的方法在一般3D实例分割任务上的启发的影响。然而，SATree是专门为树实例分割设计的。它专注于树点的语义分割和特定树部分的检测作为结构先验来指导实例分割，这在我们的知识范围内是现有研究中缺乏的。

2.3. 树实例分割的深度学习
得益于深度学习在计算机视觉和点云分析中的广泛应用，已经开发了许多基于学习的方法来解决树实例分割问题。许多研究直接应用基于图像的对象检测网络从捕获的RGB图像中识别2D城市树实例。其中，DeepForest（Weinstein等人，2019年；Weinstein等人，2020年）采用RetinaNet（Lin等人，2017年）检测器从航拍图像中生成树边界框预测。后续研究采用了基于区域的卷积神经网络（RCNNs），例如Faster RCNN和C-Mask RCNN，用于单个树的检测和计数（Sun等人，2022b年；Oscio等人，2020年）。Ammar等人（2021年）比较了几种基于CNN的对象检测方法用于大型农场区域的棕榈树计数，得出结论Yolov4（Bochkovskiy等人，2020年）和EfficientDet-D5（Tan等人，2020年）在准确性和推理速度之间提供了最佳的平衡。此外，许多研究也致力于从LiDAR点云中进行3D树实例分割。其中，基于离散化的方法首先将树点离散化为基于网格的模型（例如DSMs和CHMs），然后采用2D对象检测网络来定位树边界框。Chang等人（2022年）将树点投影到地面平面上，并使用Yolov3（Redmon，2018年）进行树实例分割。Xi和Hopkinson（2021年）将树点转换为鸟瞰图，并使用CenterNet（Duan等人，2019年）进行单个树的检测。另一种方法是基于点的方法直接对3D树点进行实例分割，避免了数据转换过程中的潜在信息损失。Wang等人（2023年）提出了一个双分支网络，该网络融合了来自语义分支和实例分支的特征来分割树实例。X. Chen等人（2021年）使用PointNet（Qi等人，2017a）对树点进行分类，并通过分析高度梯度获得单个树冠边界。H. Luo等人（2021年）首先对树进行语义分割，然后加入一个额外的网络来预测指向对象质心的点偏移向量，使点能够聚合成不同的树实例。这一策略后来被扩展到Jiang等人（2023b）的研究中，他们从学习到的偏移嵌入中提取树质心以提高树实例分割的准确性。Yang等人（2024年）采用Point Transformer（Zhao等人，2021年）进行树的语义分割，然后使用形态学开运算和闭运算技术实现单树分割。最近，Segmentanytree（Wielgosz等人，2024年）和TreeLearn（Henrich等人，2024年）采用了最先进的3D实例分割网络，例如PointGroup和SoftGroup，用于单个树的分割。为了进一步处理具有重叠树冠和相互干扰树枝的具有挑战性的林业区域，Ning等人（2025年）加入了一个边界处理模块来分析相邻树内的边界点，从而提高了单个树边界的清晰度。Ma等人（2025年）引入了一种对比学习策略，提高了树实例表示的特征区分度。此外，一些研究（Wang等人，2019年；Pu等人，2023年）专注于检测树干以分离单个树，依靠将树干点转换为CHMs并使用2D图像处理技术进行检测。

与一些先前的研究类似，SATree也执行语义分割和偏移预测。然而，SATree明确检测主要树部分，如树干和树冠。使用这些结构作为先验，我们可以在具有挑战性的城市区域中精确地定位、识别和划分单个树，同时保持对树重叠和不同树大小的鲁棒性。

下载：下载高分辨率图像（296KB）
下载：下载全尺寸图像

图2. SATree的框架。我们方法的输入是一个包含坐标和额外特征的点云。在所有实验中，我们使用强度作为输入特征，即C=1。SATree有一个共享的点特征编码器和三个解码器，它们共同执行语义分割、高斯热图预测和偏移向量预测。N是输入点的数量，N′×F表示潜在空间中的稀疏点特征，且N′
3. 方法
我们的输入是一个从包含树木和非树对象的 urban scene 中捕获的点云 p∈rn×(3+c)，其中n表示点的数量，c表示输入点特征的维度。理论上，任何有用的几何或光谱属性都可以用作输入点特征。在这项研究中，我们使用点强度值作为特征，因为它简单且适用范围广，即c=1。以p为例，我们使用基于点的深度学习骨干来编码点特征，然后是三个解码分支：
- 一个语义分割分支，用于将点分类为树冠、树干和其他；
- 一个高斯热图预测分支，用于为每个点分配一个热值。我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。如图3所示，靠近树干或主要分支的点被预测为高热值，这有助于精确定位树根；
- 一个偏移预测分支，用于预测指向树实例质心的点偏移向量。

我们可以使用语义分割和热图预测的输出来识别高保真的树干位置。随后，结合这三个分支的输出，我们根据提取的树干位置对树点进行分组，以获得最终的树实例。satree的总体框架如图2.3.1所示。

3.1. 网络架构
我们的网络有一个共享的特征编码器和三个独立的解码分支。我们使用pointmetabase（lin等人，2023年）作为特征编码器的骨干，以获得高级点特征。理论上，任何基于点的学习网络（例如pointnet++（qi等人，2017b）；kp-conv（thomas等人，2019年）；point transformer（zhao等人，2021年）；stratified transformer（lai等人，2022年）都可以使用。在这项工作中，我们选择pointmetabase，因为它在性能准确性和计算效率之间取得了良好的平衡。在共享特征编码器之后，网络由三个解码分支组成：语义分割分支、热图预测分支和偏移预测分支。每个分支执行不同的任务，具体如下：
- 语义分割分支。该分支输出一个语义logit图s∈rn×k，其中k是语义类别的数量。在这项研究中，类别包括树冠、树干和其他，因此k=3。树冠和树干被视为不同的类别，而场景中的所有其他点（例如建筑物、道路、路灯柱、行人）被归类为其他，鉴于我们关注的是树对象。类别不平衡对标准监督提出了挑战。对于城市环境，其他（例如地面、建筑物、道路）占数据集的大部分，而树干只占很小的一部分。因此，我们使用加权交叉熵损失来监督这个分支，其中我们为树干类别分配更高的权重，为其他类别分配较低的权重。
(1)ls=?∑i=1nwklogpik，
其中n是点的总数，k是第i个点的ground truth（gt）语义标签，pik是从网络softmax层获得的第i个点属于其gt类别的预测概率，wk是类别k的权重。

热图预测分支。为了更好地定位树干，我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。然后，我们使用这个分支来预测一个高斯热图h∈rn×1。我们的设计原则是确保与树干或主要分支结构相关的点被赋予高热响应，而细小的树枝和背景点具有低热值。理论上，也可以设计一个3d高斯热图预测任务。然而，如图3所示，所提出的2d高斯表示比3d表示更好地突出了树干和主要分支结构。这是因为树干基部在垂直方向上延伸，但在水平x–y平面上保持空间一致性。3d高斯公式可能会引入不必要的自由度，这些自由度受到数据的弱约束，可能会降低定位的鲁棒性。相反，2d表示可以有效地抑制垂直稀疏性、分支噪声和密集的树冠干扰。此外，2d高斯热图表示自然地为每个树实例展示出一个局部最大值，这直接支持了后续的树干定位（第3.2节）。

下载：下载高分辨率图像（587kb）
下载：下载全尺寸图像

图3. 同一个树实例的2d高斯表示（左）和3d高斯表示（右）的可视化比较。高斯热值范围从0到1，从蓝色到红色。（关于此图例中颜色的解释，请参阅本文的网页版本。）

gt热图h?是通过检索每个树实例并在其相应的树干位置放置一个2d高斯核来创建的，该位置定义为树干点的几何中心。第i个点的gt热值计算如下：
(2)hi?=e?αdi/r，
其中di是从第i个点到其在2d x–y平面上投影的对应树干质心的距离。r是高斯核半径，定义为从当前树实例在2d x–y平面上投影到的最大点到树干的距离。α是缩放高斯分布的超参数。gt高斯热图可以直接从原始数据集中获得，只需为训练数据集生成。然后，在推理过程中，网络学习为未见过的测试数据集预测点级的高斯热值。我们使用均方误差损失来监督热图分支：
(3)lh=∑i=1n|hi?hi?|2，
其中hi是第i个点的预测热值，hi?是相应的gt值。

偏移预测分支。遵循先前研究中的标准做法（h. luo等人，2021年；jiang等人，2023b年；jiang等人，2023a年；henrich等人，2024年；wielgosz等人，2024年），我们使用这个分支输出一个偏移图o∈rn×3，其中对于每个点，我们预测一个指向其树实例质心的3d偏移向量。预测的偏移向量进一步用于树点分组步骤，以增强树实例的分割。 3. 方法我们的输入是一个从包含树木和非树对象的 urban scene 中捕获的点云 p∈rn×(3+c)，其中n表示点的数量，c表示输入点特征的维度。理论上，任何有用的几何或光谱属性都可以用作输入点特征。在这项研究中，我们使用点强度值作为特征，因为它简单且适用范围广，即c=1。以P为例，我们使用基于点的深度学习骨干来编码点特征，然后是三个解码分支： - 一个语义分割分支，用于将点分类为树冠、树干和其他； - 一个高斯热图预测分支，用于为每个点分配一个热值。我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。如图3所示，靠近树干或主要分支的点被预测为高热值，这有助于精确定位树根； - 一个偏移预测分支，用于预测指向树实例质心的点偏移向量。我们可以使用语义分割和热图预测的输出来识别高保真的树干位置。随后，结合这三个分支的输出，我们根据提取的树干位置对树点进行分组，以获得最终的树实例。satree的总体框架如图2.3.1所示。 3.1. 网络架构我们的网络有一个共享的特征编码器和三个独立的解码分支。我们使用pointmetabase（lin等人，2023年）作为特征编码器的骨干，以获得高级点特征。理论上，任何基于点的学习网络（例如pointnet++（qi等人，2017b）；kp-conv（thomas等人，2019年）；point transformer（zhao等人，2021年）；stratified transformer（lai等人，2022年）都可以使用。在这项工作中，我们选择pointmetabase，因为它在性能准确性和计算效率之间取得了良好的平衡。在共享特征编码器之后，网络由三个解码分支组成：语义分割分支、热图预测分支和偏移预测分支。每个分支执行不同的任务，具体如下： - 语义分割分支。该分支输出一个语义logit图s∈rn×k，其中k是语义类别的数量。在这项研究中，类别包括树冠、树干和其他，因此k=3。树冠和树干被视为不同的类别，而场景中的所有其他点（例如建筑物、道路、路灯柱、行人）被归类为其他，鉴于我们关注的是树对象。类别不平衡对标准监督提出了挑战。对于城市环境，其他（例如地面、建筑物、道路）占数据集的大部分，而树干只占很小的一部分。因此，我们使用加权交叉熵损失来监督这个分支，其中我们为树干类别分配更高的权重，为其他类别分配较低的权重。 (1)ls=?∑i=1Nwklogpik，其中n是点的总数，k是第i个点的ground truth（gt）语义标签，pik是从网络softmax层获得的第i个点属于其gt类别的预测概率，wk是类别k的权重。热图预测分支。为了更好地定位树干，我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。然后，我们使用这个分支来预测一个高斯热图h∈rn×1。我们的设计原则是确保与树干或主要分支结构相关的点被赋予高热响应，而细小的树枝和背景点具有低热值。理论上，也可以设计一个3d高斯热图预测任务。然而，如图3所示，所提出的2d高斯表示比3d表示更好地突出了树干和主要分支结构。这是因为树干基部在垂直方向上延伸，但在水平x–y平面上保持空间一致性。3d高斯公式可能会引入不必要的自由度，这些自由度受到数据的弱约束，可能会降低定位的鲁棒性。相反，2d表示可以有效地抑制垂直稀疏性、分支噪声和密集的树冠干扰。此外，2d高斯热图表示自然地为每个树实例展示出一个局部最大值，这直接支持了后续的树干定位（第3.2节）。下载：下载高分辨率图像（587kb）下载：下载全尺寸图像图3. 同一个树实例的2d高斯表示（左）和3d高斯表示（右）的可视化比较。高斯热值范围从0到1，从蓝色到红色。（关于此图例中颜色的解释，请参阅本文的网页版本。） gt热图h?是通过检索每个树实例并在其相应的树干位置放置一个2d高斯核来创建的，该位置定义为树干点的几何中心。第i个点的gt热值计算如下： (2)hi?=e?αdi/r，其中di是从第i个点到其在2d x–y平面上投影的对应树干质心的距离。r是高斯核半径，定义为从当前树实例在2d x–y平面上投影到的最大点到树干的距离。α是缩放高斯分布的超参数。gt高斯热图可以直接从原始数据集中获得，只需为训练数据集生成。然后，在推理过程中，网络学习为未见过的测试数据集预测点级的高斯热值。我们使用均方误差损失来监督热图分支： (3)lh=∑i=1N|hi?hi?|2，其中hi是第i个点的预测热值，hi?是相应的gt值。偏移预测分支。遵循先前研究中的标准做法（h.>
3. 方法
我们的输入是一个从包含树木和非树对象的 urban scene 中捕获的点云 p∈rn×(3+c)，其中n表示点的数量，c表示输入点特征的维度。理论上，任何有用的几何或光谱属性都可以用作输入点特征。在这项研究中，我们使用点强度值作为特征，因为它简单且适用范围广，即c=1。以p为例，我们使用基于点的深度学习骨干来编码点特征，然后是三个解码分支：
- 一个语义分割分支，用于将点分类为树冠、树干和其他；
- 一个高斯热图预测分支，用于为每个点分配一个热值。我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。如图3所示，靠近树干或主要分支的点被预测为高热值，这有助于精确定位树根；
- 一个偏移预测分支，用于预测指向树实例质心的点偏移向量。

我们可以使用语义分割和热图预测的输出来识别高保真的树干位置。随后，结合这三个分支的输出，我们根据提取的树干位置对树点进行分组，以获得最终的树实例。satree的总体框架如图2.3.1所示。

3.1. 网络架构
我们的网络有一个共享的特征编码器和三个独立的解码分支。我们使用pointmetabase（lin等人，2023年）作为特征编码器的骨干，以获得高级点特征。理论上，任何基于点的学习网络（例如pointnet++（qi等人，2017b）；kp-conv（thomas等人，2019年）；point transformer（zhao等人，2021年）；stratified transformer（lai等人，2022年）都可以使用。在这项工作中，我们选择pointmetabase，因为它在性能准确性和计算效率之间取得了良好的平衡。在共享特征编码器之后，网络由三个解码分支组成：语义分割分支、热图预测分支和偏移预测分支。每个分支执行不同的任务，具体如下：
- 语义分割分支。该分支输出一个语义logit图s∈rn×k，其中k是语义类别的数量。在这项研究中，类别包括树冠、树干和其他，因此k=3。树冠和树干被视为不同的类别，而场景中的所有其他点（例如建筑物、道路、路灯柱、行人）被归类为其他，鉴于我们关注的是树对象。类别不平衡对标准监督提出了挑战。对于城市环境，其他（例如地面、建筑物、道路）占数据集的大部分，而树干只占很小的一部分。因此，我们使用加权交叉熵损失来监督这个分支，其中我们为树干类别分配更高的权重，为其他类别分配较低的权重。
(1)ls=?∑i=1nwklogpik，
其中n是点的总数，k是第i个点的ground truth（gt）语义标签，pik是从网络softmax层获得的第i个点属于其gt类别的预测概率，wk是类别k的权重。

热图预测分支。为了更好地定位树干，我们在x–y平面上生成一个以树干位置为峰值的2d高斯热图。然后，我们使用这个分支来预测一个高斯热图h∈rn×1。我们的设计原则是确保与树干或主要分支结构相关的点被赋予高热响应，而细小的树枝和背景点具有低热值。理论上，也可以设计一个3d高斯热图预测任务。然而，如图3所示，所提出的2d高斯表示比3d表示更好地突出了树干和主要分支结构。这是因为树干基部在垂直方向上延伸，但在水平x–y平面上保持空间一致性。3d高斯公式可能会引入不必要的自由度，这些自由度受到数据的弱约束，可能会降低定位的鲁棒性。相反，2d表示可以有效地抑制垂直稀疏性、分支噪声和密集的树冠干扰。此外，2d高斯热图表示自然地为每个树实例展示出一个局部最大值，这直接支持了后续的树干定位（第3.2节）。

下载：下载高分辨率图像（587kb）
下载：下载全尺寸图像

图3. 同一个树实例的2d高斯表示（左）和3d高斯表示（右）的可视化比较。高斯热值范围从0到1，从蓝色到红色。（关于此图例中颜色的解释，请参阅本文的网页版本。）

gt热图h?是通过检索每个树实例并在其相应的树干位置放置一个2d高斯核来创建的，该位置定义为树干点的几何中心。第i个点的gt热值计算如下：
(2)hi?=e?αdi/r，
其中di是从第i个点到其在2d x–y平面上投影的对应树干质心的距离。r是高斯核半径，定义为从当前树实例在2d x–y平面上投影到的最大点到树干的距离。α是缩放高斯分布的超参数。gt高斯热图可以直接从原始数据集中获得，只需为训练数据集生成。然后，在推理过程中，网络学习为未见过的测试数据集预测点级的高斯热值。我们使用均方误差损失来监督热图分支：
(3)lh=∑i=1n|hi?hi?|2，
其中hi是第i个点的预测热值，hi?是相应的gt值。

偏移预测分支。遵循先前研究中的标准做法（h. luo等人，2021年；jiang等人，2023b年；jiang等人，2023a年；henrich等人，2024年；wielgosz等人，2024年），我们使用这个分支输出一个偏移图o∈rn×3，其中对于每个点，我们预测一个指向其树实例质心的3d偏移向量。预测的偏移向量进一步用于树点分组步骤，以增强树实例的分割。>我们使用均方误差（Mean Squared Error）损失函数来监督这项任务，其公式如下：(4)Lo=∑i=1N‖di?di?‖2，其中di∈R3是预测的偏移方向向量，di?是第i个点的真实偏移向量。在训练过程中，背景（即其他）点被屏蔽掉，只有树点（即树冠和树干）参与监督。网络监督是通过为三个独立分支定义的三个损失项共同进行的。总损失表示为：(5)L=Ls+λ1Lh+λ2Lo，其中λ1和λ2是用于平衡相应损失的超参数。下载：下载高分辨率图像（499KB）下载：下载全尺寸图像图4. 从预测的场景语义图和热图中定位树干。在语义图中，树冠点、树干点和背景点分别用绿色、棕色和黑色表示。（关于此图例中颜色的解释，请参阅本文的网络版本。）3.2. 树干定位在获得网络输出后，我们首先选择被预测为树干的点，并在x-y平面上对树干点进行基于密度的聚类，以初步定位单个树根。这是基于观察到的树干点通常在树根处形成密集簇的事实。实际上，并非所有识别的树干簇都对应于实际的树干，因为存在噪声和先前语义预测的错误。例如，路灯柱等物体经常被错误地分类为树干。为了减少这些错误，我们对聚类的树干候选者进行一系列的真实性检查。图4展示了树干定位过程，具体步骤和标准在算法1中有详细说明。设计了三个基于树根几何特性和热值分布的标准：(i) 接近地面。我们使用高度阈值?z（算法1第9行）来衡量树干候选者的最低点是否足够接近地面。这确保了检测到的树干在场景中位置正确。下载：下载高分辨率图像（303KB）下载：下载全尺寸图像(ii) 高热值。如图3所示，真实的树干点很可能具有较高的热值。因此，我们使用经验热阈值?h来过滤掉热值不足的树干簇候选者。(iii) 热值分布的局部最大值。在某些情况下，例如小树的 urban 场景中，真实的树干点可能显示出较低的热值预测，因为热图预测是一个输出连续值的回归任务。使用?h进行简单阈值处理可能会忽略这些热值较低的小树。为了提高树干检测的鲁棒性，我们应用了一个双环圆柱形邻域，内环邻域的半径大小为?r，以评估树干簇是否代表热值分布的局部最大值。形成这种局部最大值的树干簇候选者也被分类为真实的树干，这是第二个标准的细化。基于局部最大值的树干过滤在算法1的第14-16行中有详细说明。我们的树干定位需要手动调整的超参数，如热值阈值?h和半径大小?r。我们在第3.4节中详细介绍了这些超参数的选择，并在第5.2节中进一步讨论了超参数敏感性的分析。3.3. 树点分组在定位树干之后，我们使用基于图的方法对单个树进行隔离。与DBSCAN等空间聚类方法相比，基于图的方法对数据稀疏性和异常值不那么敏感，因此能够在异构点密度分布和不同树几何形状的情况下实现更鲁棒的树实例分割。我们在输入的树点（即预测为树干或树冠的点）上构建一个Delaunay三角剖分图G=(V,E)。从算法1获得的检测到的树根位置R={r1,r2,r3,…}被手动添加到G中作为额外的顶点。然后，我们应用Dijkstra最短路径算法来构建最小生成树（MST），确定图中每个顶点的树源。我们还在R中的根顶点之间添加了权重为零的伪边，以保证每个树顶点都可以追溯到结果MST中的某个根顶点。Livny等人（2010年）和Tao等人（2015年）的工作也使用了最短路径方法，根据G中顶点对之间的3D欧几里得距离来对单个树点进行分组。虽然这种方法直接，但它没有考虑到复杂森林场景中不同树实例的大小差异。例如，如果大树的树枝或细枝到邻近小树的最短路径更短，它们可能会被错误地分配给小树。这通常会导致树实例之间的边界划分不准确。为了克服这些限制，我们提出使用预测的偏移嵌入来移动顶点坐标（第3.1节）。然后，G中的边根据移动后顶点对之间的3D欧几里得距离进行加权。给定原始顶点vi的3D坐标，我们使用以下公式将其移动到新坐标vi′：(6)vi′=vi+β(1?hi)di‖di‖2，其中hi和di是图中第i个点的预测热值和偏移向量。β是一个用户定义的超参数。这种移动机制使每个树点能够逐步向其对应的实例中心移动。在公式(6)中，移动方向由预测的偏移量d决定，移动幅度由预测的热值h调节。因此，靠近树干或主枝的点几乎不会移动，而靠近实例边界的点则会向实例中心移动更多。然后，计算图中第i个顶点与第j个顶点之间的边权重eij：(7)eij=‖vi′?vj′‖2。我们应用Dijkstra最短路径算法根据公式(7)获得的边权重来分离单个树，从而增强树分割对树大小和形状变化的鲁棒性。3.4. 测试数据集和实现细节由于我们的方法主要是为了从场景级别的城市点云中分割城市树木，我们使用TreeML（Yazdi等人，2024年）来评估所提出的SATree的有效性，这是一个可以在线公开访问的大规模标记城市森林点云数据集。TreeML包含慕尼黑由移动激光扫描仪（MLS）捕获的40个城市街道场景，包含3755棵代表各种大小和种类的树木。每棵树都通过定量结构建模（QSM）方法进行了测量，使我们能够提取GT树干点。我们使用30个场景进行训练，5个场景进行验证，5个场景进行测试。测试场景的选择基于它们在树实例数量和森林结构复杂性方面的差异。此外，我们还使用ForInstance（Puliti等人，2023年）数据集来评估我们的方法对自然森林场景的泛化能力。ForInstance是一个机载激光扫描（ALS）数据集，它捕获了密集的森林区域，包括来自不同全球地区（即挪威、捷克共和国、奥地利和新西兰）的五个集合，代表了不同的森林类型。它包含实例级注释和部分级注释，如树干和树枝。从公开可用的32个森林场景中，我们使用21个场景进行训练，11个场景进行测试。我们的训练-测试划分遵循官方基准，确保测试集涵盖了所有五个不同的森林集合。鉴于两个树数据集的几何特性不同，我们分别为每个数据集调整超参数。表1总结了SATree中使用的所有超参数值，顶部行对应TreeML，底部行对应ForInstance。在公式(1)中，为语义类别树冠、树干和其他分配了特定于类别的权重w，以减轻语义分割任务中的类别不平衡。我们大致将这些权重设置为与相应数据集中每个类别的样本数量成反比。在公式(2)中，α设置为较大的值，例如10.0，以鼓励在树干和主枝结构附近形成尖锐的高斯热图分布。在公式(5)中，我们将λ1设置为10.0，以强调网络训练期间的热图预测任务。对于ForInstance，我们为λ2分配了较大的值。我们的选择是基于ForInstance主要由针叶树组成，这些树的偏移向量幅度比TreeML中的阔叶树小。因此，我们使用较大的λ2来增加ForInstance数据集中偏移预测任务的重要性。此外，超参数β、?h和?r是根据两个数据集在树种和几何形状上的差异经验性选择的。在第5.2节中，我们提供了关于不同超参数对树分割性能影响的全面分析。表1. 网络监督和分割超参数的详细信息。空单元格公式(1)公式(2)公式(5)公式(6)算法1空单元格wcrownwstemwotherαλ1λ2β?z?h?rTreeML2.015.01.010.010.00.053.52.00.50.15ForInstance2.06.03.010.010.00.22.52.00.90.1对于网络骨干，我们选择了PointMetaBase（Lin等人，2023年），这是一种基于MLP的点特征编码架构。它是点云学习中的先进方法，提供了分割精度和计算效率之间的良好平衡。由于两个数据集都包含大量对网络直接处理来说具有挑战性的点，我们将扫描场景裁剪成小块作为网络的输入。在PointMetaBase中，采用了体素子采样策略来进一步减少点数。我们将体素网格大小设置为20厘米，遵循处理大规模城市场景的常见做法（Hu等人，2021年）。使用点强度作为输入特征，并将其归一化到[-1,1]的范围。此外，还应用了几种数据增强技术，如向点坐标添加抖动噪声、随机旋转点和随机降低点强度。在训练过程中，PointMetaBase随机将点裁剪成批次，每个批次包含24,000个点。批次大小设置为16。使用余弦学习率调度器，初始速率为0.01，并采用AdamW优化器，权重衰减为0.0001。我们遵循PointMetaBase的原始训练配置，在两个数据集上训练网络50个周期。训练实验在单个NVIDIA GeForce RTX 2080 Ti上进行。大约需要30小时来训练大规模的城市TreeML数据集，5小时来训练自然ForInstance数据集。随后的树干定位和树点分组是用C++实现的。有关更多实现细节，请参阅我们的SATree开源版本。4. 结果我们评估了所提出的SATree在TreeML和ForInstance数据集上的性能，并将其与传统的基于启发式的方法和最近的基于深度学习的方法进行了比较。在接下来的4.2节TreeML结果和4.3节ForInstance结果中，我们分别展示了定量结果和定性结果。4.1. 比较和评估为了实验比较，我们选择了两种最先进的方法：TreeSeparation（J. Wang等人，2018年）和TreeLearn（Henrich等人，2024年）。它们分别代表了基于启发式和基于学习的方法。此外，这两种方法都是开源的，这使得比较公平且可重现。TreeSeparation是一种基于启发式的方法，它以纯树点作为输入。因此，我们使用我们网络的语义预测作为其输入。TreeSeparation的核心思想是对ALS树点云实例进行分层聚类，其中聚类半径和最小点数是关键超参数。我们为实验中使用的数据集重新调整了这些超参数。具体来说，对于TreeML数据集，我们将半径设置为1.0米，点数设置为500个。对于ForInstance数据集，我们将这些值分别设置为0.5米和200个。表2. 在TreeML（Yazdi等人，2024年）上的树实例分割结果，使用AP、AP50和AP25。SATree获得了最高的分数（以粗体显示），在所有场景中都大幅超过了其他两种方法。场景街道名称度量TreeSeparation（J. Wang等人，2018年）TreeLearn（Henrich等人，2024年）SATree2023-01-09_tum_campusAP0.6970.6850.935AP500.8150.8000.969AP250.8460.8450.9852023-01-10_47AP0.7700.7260.869AP500.8210.7860.893AP250.9270.7840.9642023-01-12_57AP0.9050.8450.972AP500.9640.9291.000AP250.9640.9291.0002023-01-13_70AP0.8100.6840.918AP500.9240.7710.983AP250.9320.7800.9832023-01-16_44AP0.6650.8510.981AP500.8750.9180.997AP250.9440.9361.000另一方面，TreeLearn代表了基于深度学习的方法的最新进展。它以场景点云作为输入，并直接生成树实例预测。TreeLearn采用SoftGroup（Vu等人，2022年）作为其骨干，并优化了用于森林场景分割的训练超参数。因此，我们使用它们的默认训练配置。TreeLearn在体素化的点云上生成实例预测，然后将其体素级别的预测投影回原始点云。为了确保公平比较，我们使用相同的输入特征（即点强度）和体素分辨率，并为TreeLearn和我们的方法设置相同的训练-测试分割。对于定量评估，我们采用广泛使用的平均精度（AP）指标来评估树实例分割性能。AP是精确度-召回曲线下的面积，是模型在实例分割任务中性能的一个稳健指标。按照惯例，我们使用25%和50%的交并比（IoU）阈值来报告AP分数，分别表示为AP25和AP50。我们还报告了在50%到95%的IoU阈值范围内平均的总体AP分数，步长为5%。

4.2. treeml的结果
我们对提出的SATree在TreeML数据集上进行了树实例分割，并与TreeSeparation和TreeLearn进行了比较。表2报告了定量结果。结果表明，SATree在所有五个测试场景中都取得了最高的分数，无论是通过AP、AP50还是AP25来评估，都大幅超过了其他方法。特别是在五个场景中的四个场景中，SATree的AP分数超过了0.9。这表明SATree在大多数城市场景中能够提供有希望的树实例分割效果，突显了我们的方法在城市环境中的树实例分割任务中的实用性。

图5直观地比较了TreeSeparation、TreeLearn和SATree的分割结果。TreeML捕捉到了复杂的城市街道级场景，其中包含大小和形状各异的树木，这对现有方法来说是一个重大挑战，可能导致欠分割或过分割。例如，在图5的第1行中，三棵树枝和细枝紧密缠绕的树木被TreeSeparation和TreeLearn错误地分割成了一棵树。相比之下，SATree成功识别并分割出了这三棵独立的树。同时，由于树冠体积庞大，过分割现象也很常见，这可以在图5的第2行、第4行和第5行中观察到。与TreeSeparation和TreeLearn不同，SATree通过利用其稳健的树干定位策略减轻了大多数过分割错误。

我们还观察到SATree能够检测到小型树木，而这些树木经常被比较方法TreeLearn忽略（见图5的第3行）。在TreeLearn中，小于10米的树木可能会因为训练数据集中小型树木表示的稀疏性而被错误地分类为背景点。然而，尽管使用了相同的训练数据，SATree仍然能够有效地识别小型树木，因为它能够准确检测到这些树木的根部。此外，我们的方法可以直接集成到TreeSeparation中。使用我们的语义预测作为输入，TreeSeparation也能成功识别小型树木。

下载：下载高分辨率图像（3MB）
下载：下载全尺寸图像

图5. 在TreeML数据集上应用TreeSeparation、TreeLearn和SATree分别得到的树实例分割结果。分割出的树实例被随机着色，背景点显示为黑色。（关于此图例中颜色的解释，请参阅本文的网页版本。）

表3. 在ForInstance（Puliti等人，2023年）数据集上的3D实例分割结果，包括AP、AP50和AP25分数。SATree在五个森林场景中的三个场景中取得了最高的分数。

森林场景名称
指标
TreeSeparation（J. Wang等人，2018年）
TreeLearn（Henrich等人，2024年）
SATree
CULS
AP0.92
20.83
91.00
AP50
1.00
0.90
1.00
AP25
1.00
0.90
1.00
NIBIO
AP0.45
60.64
70.66
AP50
0.60
40.76
40.81
AP25
0.62
90.78
30.85
RMIT
AP0.34
80.15
30.36
6
AP50
0.50
0.23
0.54
1
AP25
0.61
60.34
30.67
SCION
AP0.35
40.82
20.78
8
AP50
0.69
0.88
40.90
7
AP25
0.85
70.88
40.93
TUWIEN
AP0.16
20.34
90.29
5
AP50
0.34
30.51
40.48
6
AP25
0.45
70.62
70.74

下载：下载高分辨率图像（3MB）
下载：下载全尺寸图像

图6. 在ForInstance数据集上应用TreeSeparation、TreeLearn和SATree分别得到的树实例分割结果。从上到下显示了五个森林场景（CULS、NIBIO、RMIT和TUWIEN）。我们使用随机颜色来可视化分割出的树实例，而背景点显示为黑色。（关于此图例中颜色的解释，请参阅本文的网页版本。）

4.3. ForInstance的结果
SATree主要设计用于解决城市树实例分割任务。为了进一步评估其在自然林业环境中的适用性，我们还在ForInstance（Puliti等人，2023年）数据集上对其进行了评估。表3报告了我们的性能分数与TreeSeparation（J. Wang等人，2018年）和TreeLearn（Henrich等人，2024年）的比较结果。总体而言，SATTree在大多数场景中的表现都优于其他两种方法，在CULS、NIBIO和RMIT森林场景中取得了最高的AP、AP50和AP25分数。值得注意的是，SATTree在CULS场景中的实例分割精度达到了100%。对于SCION和TUWIEN森林场景，TreeLearn取得了最高的总体AP分数。尽管如此，SATTree在AP50和AP25方面的表现仍然优于TreeLearn，证明了其在不同评估指标下的稳健性。

图6直观地比较了三种方法的树实例分割结果。与TreeML一样，SATTree减少了欠分割和过分割错误，表现优于其他两种方法。在CULS场景（图6的第一行）中，SATTree避免了将一棵树的树冠分割成多个子树。在NIBIO（图6的第二行）和RMIT（图6的第三行）场景中，SATTree成功检测并分割出了其他方法忽略的树木，展示了其树干定位策略的稳健性。对于TUWIEN（图6的第五行）场景，SATTree生成的分割结果与真实情况非常接近。然而，尽管有这种视觉上的对齐，SATTree报告的AP分数仍然低于TreeLearn。在SCION场景中，SATTree在定量指标（表3）和定性结果（图6的第四行）方面的表现都不如TreeLearn。观察到对于针叶树，尽管SATTree可以通过检测树干来正确定位单个树木，但在树木间距过小时，它难以清晰地划分树实例边界。

总体而言，SATTree在针对自然森林场景的特定设计的其他现有方法中取得了相当或更优的结果，表明其具有泛化到这些应用场景的潜力。

5. 讨论
在本节中，我们将详细讨论提出的SATTree，包括消融研究以验证我们方法设计的有效性、超参数敏感性分析和点密度分析。

5.1. 消融研究
消融研究的目的是系统地分析SATTree整体流程中各个组件的贡献。具体来说，我们引入了几种新策略来提高树实例分割的准确性：首先，我们在网络中预测一个高热图，这有助于树干提取（第3.1节）；其次，我们利用热分布中的局部最大值来稳健地识别树干候选者（第3.2节）；此外，我们使用偏移坐标而不是原始坐标将树点分组为不同的实例，以更好地划分树边界（第3.3节，公式（6））。为了验证这些提出策略的有效性，我们使用了TreeML中的2023-01-09_tum_campus测试场景进行实验。鉴于该场景具有挑战性的林业结构，如树木密集重叠和树木大小差异显著，其性能分数将很好地衡量所提出策略的效果。消融实验的结果报告在表4中。

表4. 通过省略以下关键组件获得的消融结果：热图预测（第3.1节）、用于树干提取的局部最大值识别（第3.2节）以及使用偏移坐标进行树点分组（第3.3节，公式（6））。

测试场景
指标
无热图
无局部最大值
无偏移坐标进行树点分组
SATTree
2023-01-09_tum_campus
AP0.83
10.89
20.71
30.93
AP50
0.89
20.92
30.86
20.96
9
AP25
0.93
80.93
80.96
9
0.98

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图7. 采用和不采用网络中热图预测任务所获得结果的视觉比较。

5.1.1. 热图预测
为了评估热图预测任务的有效性，我们从网络中移除了这个分支以及公式（5）中的监督项Lh。此外，我们还从算法1中移除了与热值相关的标准，仅依赖几何标准进行树干提取。因此，公式（6）被修改为（8）vi′=vi+di，其中我们使用预测偏移向量d的大小来确定偏移的程度。如表4所示，添加热图预测任务后，性能得到了提升，AP提高了0.104，AP50提高了0.077，AP25提高了0.047。图7展示了有无热图预测分支时获得结果的视觉比较。这些结果表明，热图预测提高了树干定位的准确性，并产生了更清晰的树实例分割。

5.1.2. 通过检测局部最大值进行树干提取
在第3.2节中，我们通过检测热分布中的局部最大值来细化树干定位。为了验证这一策略的有效性，我们移除了局部最大值的检测，仅使用热值阈值从簇候选者中选择树干。表4显示，没有局部最大值检测时，性能分数下降了0.043（AP）、0.046（AP50）和0.047（AP25）。主要原因是检测局部最大值有助于识别具有细小树干结构的小树，而这些小树在使用热值阈值时经常被忽略。图8表明，没有局部最大值检测会导致小树的分割效果较差，要么将它们与附近的树木合并，要么将它们标记为背景噪声。相比之下，包括局部最大值检测显著提高了性能，可靠地识别了大多数较小的树木。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像

图8. 采用和不采用热图分布中的局部最大值进行树干识别所获得结果的视觉比较。

5.1.3. 使用偏移坐标进行树点分组
在少数研究中探索了构建森林图并应用最短路径算法来隔离单个树木的方法（Livny等人，2010年；Tao等人，2015年）。然而，这些方法主要是根据3D欧几里得空间中的空间代理将树点分配给实例根。与此不同，我们使用学习到的偏移嵌入来偏移3D树点的原始坐标，并在偏移的3D空间中分割树实例。在表4中，我们比较了基于原始坐标分组树点与使用偏移坐标分组树点所获得的结果。不使用偏移坐标进行树点分组时，性能分数下降了0.222（AP）、0.107（AP50）和0.016（AP25）。具体来说，与其他消融实验相比，这种配置获得了更高的AP25分数，但在AP50和AP方面的分数较低。原因是使用原始坐标分组树点不会影响树干提取过程。树干仍然可以准确定位，因此AP25分数较高。然而，它无法分割靠近树边界的区域，特别是在树木分支重叠严重的情况下，导致AP和AP50的性能较差。图9中的视觉比较显示，使用原始坐标分组树点无法保持树边界，特别是当附近树木大小不同时。结果，来自大型树木的点可能会被分配给较小的邻近树木。相比之下，使用偏移坐标分组树点显著防止了此类错误，并获得了更自然的树实例边界。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像

图9. 使用原始坐标或使用偏移坐标进行树点分组所获得结果的视觉比较。

5.2. 超参数敏感性分析
提出的SATTree涉及多个需要手动调整的超参数。我们选择了四个重要的超参数，包括来自网络监督损失的λ2（公式（5））、来自算法1的?h和?r，以及来自公式（6）的β。然后，我们使用整体AP指标来评估它们对最终分割性能的敏感性，因为AP分数提供了在广泛IoU阈值范围内的综合评估。所有实验都在TreeML的2023-01-09_tum_campus集和ForInstance的NIBIO集上进行，以提供一致的分析。

5.2.1. 来自网络监督的λ2的影响
λ2是公式（5）中的网络监督损失中的一个系数，用于控制网络训练期间偏移预测任务的贡献。为了找到λ2的最佳值，我们将其初始化为0.005，并逐渐增加到0.4。图10(a)展示了在不同λ2值下获得的AP分数。通常，过小的λ2会导致分割性能下降。这是由于网络在小系数值下倾向于忽略偏移量预测任务，这可能导致偏移量预测结果噪声较大，并影响后续的树点分组。另一方面，过大的λ2值会过度优先考虑偏移量预测任务，从而对语义分割和热图回归的准确性产生负面影响。因此，找到合适的λ2值以在三个任务之间实现平衡优化非常重要。对于TreeML数据集，最优的λ2值为0.05；而对于ForInstance数据集，这个最优值略大，例如为0.2。这是因为ForInstance数据集主要包含针叶树，其偏移量向量的幅度比TreeML数据集中的阔叶树小，因此需要更大的λ2值来在网络训练过程中充分强调偏移量预测任务。

图10. 超参数λ2、?h、?r和β对两个数据集AP分数的影响。

5.2.2. 来自茎部定位的?h和?r的影响
在茎部定位算法1中，?h是一个阈值超参数，用于丢弃热值不足的茎部簇候选者。然而，仅依赖?h会忽略那些热响应较弱的小树。?r是用于识别热图中局部最大值的搜索半径，作为基于?h的过滤策略的补充标准。我们将?h从0逐步增加到0.9，将?r从0.05米增加到0.25米，以分析它们对分割性能的影响。图10(b)–(c)中可视化的定量结果表明，我们提出的SATree方法对不同的?h和?r值具有鲁棒性。这是因为基于?h和?r的标准相互补充。如果基于?h的阈值未能检测到热响应较低的小树茎部，这些茎部仍然可以通过基于?r的局部最大值检测来恢复。只有当?h极低（即?h=0）时，才可能引入假阳性树茎部检测，导致AP分数略有下降。此外，由于TreeML是一个主要包含具有规则空间分隔的街道级树木的城市林业数据集，我们建议将?r设置在0.05米到0.25米之间。

对于ForInstance数据集，它对?h和?r的值更为敏感。这是因为测试集NIBIO场景主要包含具有粗壮直立茎部的针叶树。这些茎部往往表现出较高的高斯热响应。因此，我们建议设置较高的?h以防止假阳性茎部检测。如图10(b)所示，?h为0.9时，该数据集的分割性能最佳。关于搜索半径?r，自然森林中的针叶树通常分布密集且不规则。过大的搜索半径可能会包含相邻的茎部，导致错误的局部最大值检测。因此，我们建议将这个数据集的?r设置为0.01米。

5.2.3. 来自树点分组的β的影响
超参数β在树点分组阶段（公式（6）中作为一个用户定义的步长，旨在鼓励各个树点向它们的实例中心移动。为了分析β对分割性能的影响，我们将其初始化为1.5米，并逐渐增加到5.5米，在图10(d)中报告了两个数据集的结果AP分数。可以看出，当β在[3.5米, 4.5米]范围内时，SATree在TreeML数据集上获得了最高的AP分数；而当β在[2.5米, 3.5米]区间内时，在ForInstance数据集上获得了最佳的分割性能。这表明理想的β应该尊重不同树种的自然空间尺度。对于处理城市阔叶林，稍大的β（例如3.5米–4.5米）更为合适。对于针叶树，我们建议使用较小的β（例如2.5米–3.5米）。尽管如此，SATree在各种β值下都能在两个数据集上获得相对稳定的AP分数，表明所提出的方法对这一超参数的适度变化具有鲁棒性。

5.3. 点密度分析
为了评估所提出的茎部定位和基于图的树点分组策略在不同点密度下的鲁棒性，我们从第3.1节生成的点云中随机删除了一定比例的点。然后，我们对子采样点云进行茎部定位和树点分组。使用TreeML的2023-01-09_tum_campus集和ForInstance的NIBIO集进行实验，以保持与前面章节的一致性。图11报告了在不同点删除率下两个数据集的性能分数。我们的方法在TreeML数据集上表现出很强的鲁棒性，AP分数在点删除率达到70%之前保持稳定。只有当删除率增加到90%时，性能才会有明显下降。这表明我们的方法在处理城市林业分割任务方面非常有效。然而，ForInstance数据集的性能对点密度的变化更为敏感，表明准确分割自然针叶林需要更高质量和更密集的点云。在下一节中，我们进一步可视化了一些失败案例，以分析基于图的最短路径算法为何仅限于此类针叶林场景。

图11. SATree在两种不同下采样水平下的分割性能。横轴表示从点云中随机删除的点的百分比。

图12. 与TreeLearn相比，SATree在ForInstance数据集的两个自然森林场景上的性能下降。顶部行代表SCION，底部行代表TUWIEN。我们使用黄色矩形框来指示观察到分割性能下降的区域。

6. 局限性和未来工作
我们提出的SATree主要针对城市和半结构化的树环境设计。它通过利用检测到的树结构（如茎部和树冠）在复杂的城市环境中实现了高保真的树实例分割。然而，它仍然存在一些局限性。首先，当将SATree从城市林业场景扩展到自然林业场景时，我们在SCION和TUWIEN场景上的性能不如TreeLearn（Henrich等人，2024年）（见表3）。SCION包含密集分布的针叶树，这些树的茎部垂直且树冠形状狭窄。尽管我们的方法可以可靠地检测到树茎，但它无法正确划分树实例边界，如图12的顶部行所示。这是因为我们使用基于图的方法根据欧几里得空间中的最短路径将每个树点映射到树茎。对于紧密相邻的针叶树，即使有学习到的偏移量嵌入的指导，最短路径算法也可能错误地将邻近树的点分配给同一个树实例。与SCION不同，TUWIEN代表了一个更加异质的自然森林环境，其中的树木在高度、大小、种类和茎部形态上差异很大。这对所有三种分割方法（TreeSeparation（J. Wang等人，2018年）、TreeLearn（Henrich等人，2024年）和SATree）来说都是一个极具挑战性的场景。与TreeLearn相比，我们的方法错误地将低植被和灌木分割为单独的树实例，导致更多的假阳性树实例和AP分数下降。未来，我们计划将额外的结构约束纳入基于最短路径的分割策略中，通过强制学习到的偏移量嵌入的一致性，并通过建模生物学上合理的树枝生长模式来改进这一点。这些改进将减少相邻树点或数据异常值的错误分配。

另一个局限性在于依赖手动调整的茎部定位和树点分组超参数。图10中的超参数分析表明，尽管后处理策略在各种超参数值下对城市TreeML数据集表现出相对鲁棒的性能，但在自然ForInstance数据集上的分割性能对超参数选择更为敏感。然而，由于我们方法中的关键超参数（如?h、?r、β）具有明确的几何或光谱含义，在合理范围内选择反映树种特性和树形态的值自然可以获得良好的分割性能。未来，我们计划结合一个可学习的回归模块，根据学习到的高斯热响应显式预测和回归3D树茎位置。这个模块将取代当前的茎部定位算法1，消除手动调整超参数的需要，并提高对多样化自然森林环境的泛化能力。

最后，在将SATree扩展到极其大的林业场景时存在潜在挑战。目前，我们将大规模场景分割成较小的子场景作为网络输入，这样可以获得良好的树分割性能。例如，TreeML中的2023-01-16_44场景是包含327棵树的最大测试场景。使用这种分割策略，SATree获得了0.981的AP分数。然而，分割引入了数据预处理和后处理的额外复杂性，并可能使完整的树实例在片段边界之间断裂。在未来的工作中，我们考虑探索替代的数据表示方法，如基于超体素或超点的3D表示方法，以实现无需分割即可高效处理极大规模场景，并保证实例的完整性。

7. 结论
树木的3D实例分割是林业遥感研究中的一个基本而具有挑战性的任务。由于3D场景的复杂性以及树木几何形状、大小和种类的多样性，大多数现有方法要么过度分割要么欠分割。为了解决这个问题，我们提出了SATree，这是一种基于深度学习的新方法，能够在具有挑战性的城市林业场景中准确分割3D树实例。SATree基于一个直观的观察：单个树木在结构上由茎部和树冠组成，因此它被设计用来明确检测并利用关键的结构组件（如茎部）来指导复杂城市场景中的树实例分割。具体来说，检测到的茎部结构作为几何锚点，有效地划分了树冠重叠密集、树枝干扰、遮挡和树形复杂的场景中的单个树木。与现有方法（Z. Luo等人，2021年；Jiang等人，2023b年；Henrich等人，2024年）不同，这些方法不寻求对树结构组件进行建模，我们开发了一个多任务学习网络，同时分类树冠点和茎点。进一步预测2D高斯热图以实现稳健的树茎定位。关键策略，如通过检测热图中的局部最大值来定位茎部，以及通过整合偏移量嵌入进行基于图的树点分组，被证明在获得准确的树实例方面有效。在两个公共林业数据集上的广泛实验表明，SATree优于现有方法。SATTree在分割大型城市街道级场景的树木方面表现出色，并且能够很好地泛化到自然森林环境。

我们的研究成果是在城市环境中准确分割3D树实例，这些成果有利于各种下游应用，如城市林业清查、树木结构参数测量、生物量估算和碳循环建模。此外，SATTree还学会了为城市树木生成高斯热图，其中高热值表示树茎或主要树枝结构，而低热值对应于靠近树边缘的小树枝。热图的这一特性表明它们在树木的细粒度部分级分割中具有潜在用途。另一个副产品是在树点分组中生成的MST图（第3.3节）。这些MST近似了树实例的骨架结构，可以为从原始输入数据重建3D森林结构提供有价值的信息。作为这项工作的延伸，我们计划应用SATTree来后续估计树木结构参数、树木碳储存和生物量。通过这些努力，我们旨在加强基于证据的城市绿化策略，改进规划者的决策支持工具，并为气候韧性、生物多样性和绿色基础设施研究提供新的见解。

CRediT作者贡献声明：
Shenglan Du：撰写——原始草稿、可视化、验证、方法论。
Jantien Stoter：撰写——审阅与编辑、监督、项目管理、资金获取。
Julian F.P. Kooij：撰写——审阅与编辑、监督、资金获取。
Liangliang Nan：撰写——审阅与编辑、监督、资源管理、资金获取、概念化。

热点排行