地表地质特征的三维语义映射

《Computers & Geosciences》：3D semantic mapping of surface geological features

【字体：大中小】 时间：2026年05月11日 来源：Computers & Geosciences 4.4

编辑推荐：

　　张晨 | 德文·麦克菲利普斯 | 凯瑟琳·沙勒 | 扎卡里·E·罗斯美国加利福尼亚理工学院摘要在3D中进行的语义映射对于广泛的地球科学研究和应用至关重要，包括地貌学、灾害评估和环境监测。然而，从大规模摄影测量数据集中自动分割地质特征仍然是一个重大挑战。我们提出

　　张晨 | 德文·麦克菲利普斯 | 凯瑟琳·沙勒 | 扎卡里·E·罗斯
美国加利福尼亚理工学院

摘要
在3D中进行的语义映射对于广泛的地球科学研究和应用至关重要，包括地貌学、灾害评估和环境监测。然而，从大规模摄影测量数据集中自动分割地质特征仍然是一个重大挑战。我们提出了一种方法来解决这一难题。通过使用在感兴趣环境中收集的重叠图像，结构从运动（Structure-from-Motion, SfM）技术生成地理参考的点云并估计相机姿态。现有的大型视觉模型（如Segment Anything Model）可以分割图像中的对象，生成像素分割关联。为了产生像素-点关联，我们将点投影回相机图像平面。由于对象在具有不同视角的多张图像中被独立分割，我们开发了一种分割镶嵌算法，将像素分割关联和像素-点关联结合起来。我们的方法使用Kubric生成的合成数据和真实的UAV-SfM数据进行了验证。该实现设计为与现有的SfM软件（如Agisoft和OpenDroneMap）兼容，用于地球科学研究中的摄影测量映射。作为案例研究，我们将该方法应用于对不稳定岩石（PBRs）的语义映射，这些岩石提供了历史地面运动震级的上限约束。为了支持PBRs的对象级识别，我们还集成了Grounding DINO，能够根据文本提示在UAV影像中分割感兴趣的特征。这个案例研究展示了我们的方法在生成PBRs的3D语义图方面的有效性，从而能够分析地震灾害中的PBRs的空间分布特性。

1. 引言
理解地表地质特征越来越不仅需要几何重建，还需要对景观进行语义解释（Harvey和Fotopoulos, 2016）。传统的地质制图，无论是通过野外观察、航空调查还是结构从运动（SfM；Schonberger和Frahm, 2016）进行的，都侧重于划定地貌单元或结构特征。尽管这些方法可以生成3D环境的数字表示（如点云），但它们不提供每个点的语义标签或对象级的场景理解。相比之下，语义映射为数据集中的每个空间元素分配有意义的分类标签，生成具有明确对象意识的密集3D点云（Kostavelis和Gasteratos, 2015）。这种语义细节水平支持定量分析，例如自动识别岩石露头、几何特征提取、下游地质解释和灾害评估。

尽管兴趣日益增长，但3D语义映射在地球科学中仍受到数据获取、分割和可扩展性方面的限制。虽然2D语义映射在各种地球科学应用中已经取得了成功（例如地质制图，Lombardo等人，2018；断层陡坡特征分析，Chen等人，2020，Chen等人，2023；以及滑坡易发性评估，Du等人，2021），但在需要3D几何信息来提高地质分析准确性和洞察力的情况下，3D语义映射才受到关注。然而，将这些2D方法扩展到3D地质特征会增加复杂性。一个主要瓶颈是在大空间范围内获取准确且注释密集的3D数据。用于3D数据收集的两种常见方法是：（1）来自机载（Liu, 2008）、无人机（Wallace等人，2012）和地面平台的激光雷达扫描（Buckley等人，2008）；（2）使用立体成像（Tian等人，2013）、SfM（Schonberger和Frahm, 2016）和视觉同步定位与地图构建（vSLAM，Labbé和Michaud, 2019）的摄影测量。尽管这些方法可以构建点云，但注释点云比注释2D图像更具挑战性，导致用于地质研究的通用训练数据集的可用性有限，尤其是在超过数百米和数百万点的规模上（Dai等人，2017；Liao等人，2022；Guo等人，2024）。创建特定领域的训练数据集还因数据收集挑战而变得更加复杂，特别是在灾难等时间敏感的情况下。这些数据获取挑战阻碍了3D语义映射在地质特征中的应用。此外，当前计算机视觉社区设计的最新（SOTA）模型并未针对非结构化户外数据集进行优化，或者依赖于点云的分割和合并（Schult等人，2023；Landrieu和Simonovsky, 2018）。

虽然分割地质特征的点云存在显著挑战，但大型视觉模型（LVMs）的最新进展在2D图像分割任务中表现出了强大的性能。在数十亿张图像上预训练的Segment Anything Model（SAM）使用点、边界框和掩膜等提示在分割对象方面表现出色（Kirillov等人，2019）。在此基础上，SAM2引入了架构改进，以提高准确性和效率（Ravi等人，2024）。尽管SAM和SAM2在图像分割方面表现良好，但它们并不对对象进行分类。对于需要识别特定对象的任务，Grounding DINO利用文本-图像对齐来检测和定位基于文本提示的对象，有效地弥合了语言理解和对象检测之间的差距（Liu等人，2025）。这些LVMs提供了零样本学习能力，使它们能够适应各种图像数据，包括特定领域的数据集，而无需训练数据。

现有关于地质学中3D语义映射的研究有限，这激发了本研究的设计，旨在解决复杂地表地质特征和注释数据集稀缺所带来的挑战。我们介绍了SegMo3D，这是一种通过整合结构从运动（SfM）、大型视觉模型（LVMs；例如SAM2和Grounding DINO）和分割镶嵌算法来进行地表地质特征3D语义映射的流程。我们使用LVMs生成像素级分割，并通过将3D点投影到图像平面上来提供像素到点的关联。为了结合像素分割关联和像素-点关联，我们开发了一种分割镶嵌算法，从而产生概率点分割关联。在分割镶嵌过程中，为了准确地合并来自重叠视图的分割，我们提出了一个基于投影过滤的3D交集（IoU）的标准。我们的方法使用Kubric合成数据（Greff等人，2022）和真实的UAV-SfM数据集进行了评估，并将我们的结果与SOTA方法进行了比较。我们的分割镶嵌算法在图像数量方面实现了线性可扩展性。

作为案例研究，我们将我们的流程应用于亚利桑那州Prescott地区的Granite Dells地区不稳定岩石（PBRs）的语义映射。PBRs通过提供历史地面震动强度的上限约束，作为天然地震仪的指标（Chen等人，2024）。然而，在野外定位和映射PBRs仍然是一项劳动密集型且物流上有挑战的任务。此外，2D语义映射对于这项任务来说是不足的，因为评估PBR的脆弱性需要准确的3D几何信息。我们的流程能够利用UAV-SfM数据自动进行独立岩石特征的3D语义映射，包括PBRs。从得到的3D语义图中，我们计算了单个岩石的高宽比，这是准静态分析中衡量脆弱性的一个重要指标（Housner, 1963；Veeraraghavan等人，2017）。根据高宽比，我们构建了一个地图来显示空间脆弱性分布。这个案例研究展示了我们的3D语义映射流程在提取地质特征方面的有效性。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图1. 3D语义映射的工作流程。工作流程的输入包括（a）重叠图像。大型视觉模型从这些图像中提取感兴趣的地质特征，生成（c）像素分割关联。结构从运动处理这些图像以构建（b）点云并估计相机姿态。通过将3D点投影回相机平面，我们建立了像素-点关联。然后，我们的分割镶嵌算法将不同图像视角的2D分割合并到点云中，通过结合像素分割和像素-点关联建立概率点分割关联。后处理技术完善结果，生成（d）3D语义图。该示例展示了悬崖上独立岩石的3D语义映射。背景被明确处理为分割，但在最终结果中没有显示。

2. 相关工作
2.1 多视图方法用于3D分割
与使用深度神经网络直接处理点云的方法（Schult等人，2023；Thomas等人，2019）相比，多视图方法首先对每个相机视图进行2D分割，然后将分割区域与相应的3D点关联起来（Brostow等人，2008；Boulch等人，2018；Yang等人，2023；Xu等人，2023；Croce等人，2023）。早期的工作引入了这种自下而上的流程，使用随机森林进行2D分割（Brostow等人，2008）。SnapNet后来通过加入卷积神经网络改进了分割性能（Boulch等人，2018）。然而，这两种方法都依赖于监督学习，并且需要注释的训练数据来进行2D分割。更重要的是，这两种方法都没有解决跨不同视角合并分割（即分割特征）的挑战。在地表地质特征的3D语义映射中，从不同视角拼接分割对于减少过度分割并实现一致的3D对象分割至关重要。
最近的多视图方法利用LVMs消除了对标记训练数据的需求。SAM3D应用SAM对RGB图像中的对象进行分割，并使用相应的深度图像构建3D点，为每个RGB-D图像生成一个分割点云（Yang等人，2023）。为了合并跨视图的分割，SAM3D采用了一种双向合并算法，当满足以下条件时两个分割被关联：
min|Π?1(Mmi)∩Π?1(Mnj)||Π?1(Mmi)|,|Π?1(Mmi)∩Π?1(Mnj)||Π?1(Mnj)|>σ
其中Mmi和Mnj分别表示图像m和n中的第i个和第j个分割掩膜。Π?1是一个操作，它使用相机模型将2D分割掩膜中的像素投影回3D点。|?|表示集合的基数，即3D点的数量。σ是一个预定义的阈值。然而，当物体之间的重叠较小时，这种合并标准会出现问题，因为相机视角差异较大。由于SAM3D是从RGB-D图像构建部分点云的，该方法需要为每对图像执行k次最近邻查询，显著影响了点云的计算效率。此外，合并过程在所有图像上递归进行，进一步限制了可扩展性。
类似的限制也出现在较新的方法SAMPro3D（Xu等人，2023）中。SAMPro3D使用最远点采样从点云中选择3D提示，并通过2D引导的提示过滤算法对这些3D提示进行聚类（Ester等人，1996），然后通过类似于SAM3D的标准合并重叠的提示。此外，SAM3D和SAMPro3D都没有明确解决选择相机视图的问题（Kundu等人，2020），这对于基于多视图的3D分割至关重要。
现有方法的另一个根本局限性是缺乏3D点和分割之间关联的概率模型。首先，不同图像之间的2D分割变化是固有的且不可避免的。例如，一个对象在一个图像中被过度分割，而在另一个图像中仅部分分割（Kweon和Yoon, 2024），导致多视图关联不一致。其次，在实践中，相机姿态估计存在固有的不确定性（Roessle和Nie?ner, 2023），影响2D到3D关联的精度。因此，理想情况下，概率模型应该考虑来自多个图像的不一致2D分割和相机姿态的不确定性，以确保更准确可靠的分割拼接。

2.2 结构从运动（SfM）
SfM是一种广泛采用的通过重叠2D图像进行3D映射的技术，特别是在无人机捕捉厘米级像素分辨率的公里级范围航拍照片的应用中（Chen等人，2020；Schonberger和Frahm, 2016）。为了在3D重建中实现真实和准确的尺度，SfM结合了包含地理参考坐标（例如UAV里程计数据）和可选地面控制点的图像元数据。该过程通过三角测量来估计重叠图像中的关键特征对应关系，从而估计它们的3D空间位置。随后，捆绑调整优化了相机姿态和3D特征位置，最小化重投影误差。然后使用多视图立体算法生成密集的点云。
我们提出SfM作为3D语义映射的基础框架。SfM处理的图像本质上为基于多视图的3D分割提供了自然的相机视角选择，因为数据收集时已经考虑了图像重叠和相机姿态。在用于地质映射的UAV-SfM中，通常建议连续图像之间有80%的前向重叠和70%的侧向重叠，以确保高质量的密集重建。然而，在地形复杂的地区，这些指南可能不够，通常需要额外的视图选择或飞行规划，尽管这些考虑超出了本研究的范围。

3. 方法论
图1展示了我们的3D语义映射方法论的概述。该过程首先收集感兴趣环境中的重叠图像，最好包含地理参考元数据以确保真实比例的重建。为了在这些图像中获得2D分割结果，我们应用了诸如SAM和Grounding DINO这样的局域视图匹配（LVM）算法，这些算法可以生成像素与分割之间的关联。利用这些图像，视场匹配（SfM）生成一个地理参考点云并估计相机姿态。然后，我们将3D点投影到图像平面上，以建立像素与点之间的关联。为了合并多张图像中的分割结果，我们开发了一种分割镶嵌算法，该算法可以建立点与分割之间的概率关联。最后，通过后处理技术（如小组移除、统计异常值移除（SOR）和最近邻插值）来细化语义图。

3.1. 像素-分割关联
像素-分割关联将图像像素映射到分割掩码上，创建一个索引结构以便高效检索。具体来说，给定一组重叠的地理参考图像X={X1,X2,…,XN}，我们使用SfM生成一个地理参考点云P并估计相应的相机姿态C={C1,C2,…,CN}。此外，SfM还提供了相机内参矩阵K以及畸变系数[k1,k2,p1,p2,k3]。利用这些畸变参数，我们对图像进行校正以获得无畸变的图像集X?={X?1,X?2,…,X?N}。在无畸变的图像上，我们应用SAM2自动分割特征，为每张图像生成2D分割结果。在我们的研究中，掩码指的是单个图像中的独立分割对象或区域，而不是具有相同语义标签的所有像素。因此，一张图像可能包含多个具有相同语义标签的掩码。例如，出现在同一图像中的两块石头由两个单独的掩码表示。对于第i张图像，分割结果是一组掩码Mi={M1,M2,…,MCi}，其中掩码Mc划定了与第c个分割特征相关的像素区域，Ci表示第i张图像中分割掩码的总数。为了细化分割过程，我们可选地结合使用Grounding DINO，利用文本描述生成边界框，作为选择感兴趣分割的过滤器。这个过程总体上建立了像素-分割关联，表示为M={M1,M2,…,MN}，将图像像素与其对应的分割掩码联系起来。注意，在这个像素-分割关联中使用校正后的图像可以确保与后续的像素-点关联中使用的针孔相机模型保持一致。

3.2. 像素-点关联
像素-点关联使用相机投影模型将3D点连接到其对应的图像像素，从而能够高效地在点和像素之间进行检索。我们使用针孔相机模型（Hartley和Zisserman，2003年）将点云投影到图像平面上，具体公式为：(2)xi=λK[Ri∣ti]P?，其中[Ri∣ti]表示第i个相机姿态的外参矩阵，λ是缩放因子，P?是原始点云P的一个子集，通过SfM生成的第i个相机视图的深度图像进行过滤。这个深度过滤步骤消除了被前景遮挡的点，确保只保留可见的点。xi表示投影到第i张图像上的点云像素坐标。通过这种3D-2D投影，我们建立了所有图像的3D点与图像像素之间的双向关联，表示为Π={Π1,Π2,…,ΠN}，其中Πi表示第i张图像的像素-点关联。这种双向关联允许像素查询其对应的3D点，反之亦然。具体来说，给定一组3D点P，它们在第i张图像中的对应像素可以通过像素-点关联xi=Πi(P)来确定。这种像素-点关联的准确性取决于估计的相机姿态和内参校准参数。我们将位置和参数估计的不确定性纳入后续的分割镶嵌过程中。

下载：下载高分辨率图像（192KB）
下载：下载全尺寸图像

图2. 投影过滤后的3D交并比（IoU）。当前2D分割Mc及其镶嵌候选M?首先被反投影到3D点上。绿色点表示重叠点。然后将反投影后的当前点Πc?1(Mc)和候选点Πk?1(M?)分别交叉投影到关键图像和当前图像平面上。通过交叉投影，移除了在一个图像中可见但在另一个图像中不可见的点（灰色）。得到的像素集随后被反投影到3D空间中，形成两个过滤后的3D点集。然后计算投影过滤后的3D IoU，即它们的交集与并集的比值。

下载：下载高分辨率图像（508KB）
下载：下载全尺寸图像

图3. 语义ID分配的工作流程。对于每个2D分割，SegMo3D从关键图像中识别候选分割并计算投影过滤后的3D IoU。如果IoU超过预定义的阈值τ，分割管理器会记录局部分割ID与现有全局语义ID之间的对应关系；否则，局部ID被设置为NULL。处理完当前图像的所有分割后，分割管理者存储（局部ID, 全局ID或NULL）的映射集。然后对每张图像执行一次点-分割关联更新，在此过程中，链接的全局ID被分组并解析，保留最小的全局ID，删除多余的ID。为新的语义ID关联的分割创建新的全局语义ID，并更新所有受影响3D点的对应概率。

3.3. 分割镶嵌
分割镶嵌的目标是通过整合像素-分割关联M和像素-点关联Π来构建一个概率性的点-分割关联。形式上，给定一个由NP个点组成的SfM派生的点云P，每个点都与一个概率性的点-分割关联相关联，该关联由一组语义ID S和一个对应的可能性数组L表示。这两个数组都包含多达H个元素，其中H是一个预定义的参数。对于整个点云，语义ID表示为S={S1,S2,…,SNP}，相应的可能性表示为L={L1,L2,…,LNP}。算法1说明了分割镶嵌的过程。我们遍历每张图像中的每个2D分割掩码Mc。对于每张图像，我们使用关键图像图检索其关键图像。关键图像是指被选中用于当前处理掩码镶嵌的图像候选者，这一概念最初在视觉SLAM中提出（Mur-Artal等人，2015年）。来自同一图像的所有掩码共享相同的关键图像集。关键图像图是一个加权无向图，表示为G=(V,E)，其中节点V对应于图像集，边E表示两张图像之间的重叠点数。重叠是基于第a张和第b张图像的点云交集eab=|Pa∩Pb|来计算的。给定图像的关键图像是关键图像图中最连边的Nk个节点，即具有最多重叠点的图像。Nk是关键图像的预定义数量。关键图像的选择限于已经处理过的图像。由于SfM在图像捕获中的固有重叠，关键图像通常对应于相邻的图像。仅选择前Nk个关键图像具有重要意义：限制分割镶嵌中使用的关键图像数量可以防止计算成本随着图像总数的增加而增加。这种选择策略在保持分割镶嵌的鲁棒性的同时确保了效率。

在每个关键图像中，我们识别一个镶嵌候选M?，即与当前2D分割Mc最匹配的参考分割掩码。具体来说，我们利用像素-点关联来确定与Mc对应的3D点，然后将这些点投影到关键图像上，得到相应的像素位置Πk°Πc?1(Mc)。作为镶嵌候选者的图像是在关键图像中与这些投影点重叠最大的2D分割掩码：(3)M?=argmaxMki∈Mk|Πk°Πc?1(Mc)∩Mki|。通过识别的镶嵌候选者，我们计算Mc和M?之间的投影过滤后的3D IoU：(4)|Πk?1°Πk°Πc?1(Mc)∩Πc?1°Πc°Πk?1(Mc)||Πk?1°Πk°Πc?1(Mc)∪Πc?1°Πc°Πk?1(M?)|，其中Πk?1°Πk°Πc?1(Mc)表示提取与Mc对应的3D点，将这些点交叉投影到关键图像k上，然后反投影得到的像素以获得相应的3D点。同样，对M?也应用相同的投影和反投影过程。图2说明了这一过程。由于交叉投影过程可能会丢弃某些点，Π和Π?1不满足真正的函数逆性质，即Πk?1°Πk(Pc)≠Pc和Πc?1°Πc(P?)≠P?。如果投影过滤后的3D IoU超过阈值τ，分割管理器会记录当前分割的局部对象ID与之前注册的全局语义ID之间的对应关系。分割管理器为当前图像维护一个临时查找表，并在处理每张新图像之前清空该表。每个记录的对应关系表示属于当前2D分割的点很可能指的是一个已经注册的3D对象。这些对应关系不会立即更新点云；相反，每个对应关系在随后的点-分割关联更新期间作为合并指令执行。

下载：下载高分辨率图像（182KB）
下载：下载全尺寸图像

图4. 用于验证的Kubric合成数据集。该数据集包含128个场景，每个场景包含100个基本Kubric对象（例如圆锥、海绵、茶壶、环面）和100个ShapeNet对象（例如飞机、床、椅子、吉他），这些对象随机放置在一个100米×100米的平面上。(a) 整个场景的示例；(b) 放大视图（20米×20米），展示对象级细节和局部重叠。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图5. Kubric合成场景上的分割镶嵌序列示例。面板(a–d)显示了四个视图原始输入图像及其对应的SAM2分割结果的叠加。面板(e–h)显示了渐进式分割镶嵌过程中生成的语义点云。具体来说，(e)显示了整合第一个视图后的语义点云，而(f–h)分别显示了整合第二个、第三个和第四个视图后的更新点云。这个示例展示了分割镶嵌过程如何逐步聚合多视图分割以完成3D语义图。

下载：下载高分辨率图像（4MB）
下载：下载全尺寸图像

图6. Kubric数据集上的3D分割结果，显示为从四个场景中随机抽样的代表性特写网格。从左到右：我们的方法、SAM3D、SAMPro3D和真实值。分割的对象通过颜色编码来区分不同的对象。结果表明了成功的对象级分割，包括区分同一类别的对象（例如不同的椅子）。与SAM3D和SAMPro3D相比，我们的方法显著减少了误报。特别是，由于改进的分割镶嵌，我们的方法减少了过度分割（即单个对象被错误地分割成多个片段）。如果某个分割不匹配任何之前注册的全局语义ID，分割管理器将给该局部对象ID分配一个NULL值。这表示该分割应保持独立，不与任何现有对象合并。在随后的点-分割关联更新期间，会创建一个新的全局语义ID并分配给该分割对应的点。图3展示了语义ID分配的工作流程。更新分割管理者而不是直接合并分割对于处理因图像重叠有限或不一致而部分注册在多个语义ID下的对象的情况至关重要。当新处理的分割与几个之前处理的分割重叠时，分割管理器记录当前2D分割与多个已注册语义ID之间的链接。在随后的点-分割关联更新期间，所有链接的语义ID被组织成组，代表同一个基础对象。对于每个组，系统仅保留最早分配的语义ID（即最小的全局ID），同时删除组中的其他ID并重新映射到该保留的ID。基于分割管理者，我们在处理每张图像后更新像素-分割关联。对于没有与其他分割链接的2D分割掩码，我们为其分配一个新的语义ID并相应地更新对应的3D点。对于有链接的2D分割，我们首先检查是否需要删除现有的语义ID以保留最小的语义ID，然后更新当前2D分割中点的 semantic ID 和可能性。

为了更新与2D分割相关联的语义ID，我们提出了一种概率方法。对于2D分割中的每个像素，似然值是基于相邻像素使用指数衰减函数计算得出的：(5) likelihood(d)=e?η‖d?D‖，其中d表示相邻像素与目标像素之间的距离，D是预定义的衰减半径，η是衰减率。参数D和η是根据SfM姿态估计、相机内在校准和镜头畸变的综合不确定性确定的。对于每个分割类别，似然值会被汇总，保留最高似然值的最多H个类别。然后，通过整合新计算出的语义ID和似然值来更新3D点的语义ID及其关联的似然值。这种似然分布包含了来自局部邻域的分割信息，减轻了像素分割和像素点关联的不确定性。在分割拼接之后，通过为每个点分配最高似然值的语义ID来提取3D语义。随后使用小群移除、最近邻插值和DBSCAN（Ester等人，1996年）等技术进行后处理以细化3D语义。

3.4. 算法分析
为了确保算法的高效率和可扩展性，我们考虑了几个实现细节。首先，分割拼接算法允许预先计算像素分割关联、像素点关联和关键图像图。像素分割和像素点关联是并行计算的，它们的时间复杂度为O(N/m)，其中N是图像的数量，m是并行处理的数量。关键图像图的构建复杂度为O(N2)，但这个过程可以通过GPU加速。对于分割拼接算法，关键图像检索使用的是复杂度为O(NklogNk)的排序算法。由于Nk通常很小（例如，Nk=5），这一步的计算成本可以忽略不计。为了优化投影和反投影操作，对于像素分割和像素点关联都使用了类似哈希表的数据结构，确保了O(1)的常数时间复杂度。交集操作使用的是复杂度为O(MlogM)的高效排序算法实现，其中M表示与2D分割掩码相关的最大点数。总体而言，分割拼接算法的总计算复杂度为O(NNJNKMlogM)，其中NJ表示每张图像的最大2D分割数量。因为Nk是预定义的且通常很小，所以时间复杂度不随Nk变化。该算法的一个关键优势是其时间复杂度与图像数量N成线性关系。

4. 实验
4.1. 验证实验
我们在Kubric生成的合成数据和真实世界的UAV-SfM数据上进行了验证实验。Kubric是一个开源框架，用于使用基于物理的渲染和物理模拟生成合成数据集，便于创建包含RGB图像、深度图、分割掩码和分割网格模型的多模态3D语义映射数据集（Greff等人，2022年）。利用Kubric，我们生成了128个场景，每个场景包含100个基本Kubric对象（例如圆锥、海绵、茶壶、环面）和100个ShapeNet对象（例如飞机、床、椅子、吉他，Chang等人，2015年）。图4展示了为验证实验生成的合成数据示例。这些对象随机放置在一个100米×100米的平面上，每个场景产生了超过200万个点。由于对象数量众多，经常会发生重叠，这对3D语义映射带来了挑战。对于每个场景，我们通过模拟一架UAV在该区域上飞行并设置70%的横向重叠和70%的前向重叠来捕获了280多张图像。使用SAM2模型自动对2D图像中的特征进行分割。对于真实世界的数据集，我们部署了一架手动控制的UAV来映射亚利桑那州普雷斯科特附近的Granite Dells站点的岩石悬崖，覆盖了68米×64米的区域。在这次手动飞行中收集了总共316张航拍图像。虽然没有使用割草机或网格模式，但我们保持了图像之间大约60-90%的重叠。在采集过程中，由于地形不规则且复杂，相机到表面的距离从大约5米到50米不等。该站点使用SfM进行了重建，得到了一个包含12,459,304个点的点云。由于环境的非结构化特性，特征分割本质上是主观的，并取决于具体的科学目标。因此，我们根据一个特定的地质特征——独立的岩石——评估了我们方法的性能。我们使用SAM2自动分割了航拍图像中的所有特征，并应用了Grounding DINO，并使用“rock”作为提示来过滤感兴趣的特征。随后，我们的数据处理流程被部署用来生成3D语义地图。作为对比，使用CloudCompare直接在点云中手动标注了真实3D分割，基于独立岩石与其基座之间的接触区域的纹理和几何形状。

下载：下载高分辨率图像（178KB）
下载：下载全尺寸图像
图7. Kubric数据集分割拼接过程中的累计处理时间。x轴表示处理的图像序列，y轴显示从开始处理到现在的总耗时。标有“Timestamps”的蓝色曲线表示多次运行的平均耗时，标有“Deviation”的阴影红色区域表示变化性。结果展示了算法对于图像数量的线性可扩展性，确保了对数据集的高效处理。
下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像
图8. Granite Dells站点UAV-SfM数据集的3D分割结果。第一行展示了我们方法的结果，第二行展示了SAM3D的结果。对于SAM3D的实施，点云从12,459,304个点降采样到了622,966个点。降采样是必要的，因为原始的高分辨率点云显著降低了SAM3D的性能，几乎导致其失败。列对应于分割过程的不同阶段：(1) SfM衍生的点云，(2) 使用SAM2的3D分割，(3) 使用SAM2和Grounding DINO的独立岩石3D分割，以及(4) 独立岩石的真实分割。与SAM3D相比，后者无法分离出几个独立的岩石，而我们的方法有效合并了分割结果，保留了细节，并显示了对非结构化地形噪声的鲁棒性。

我们将我们的方法与使用LVMs和多视图基础3D分割的最新技术进行了性能比较。我们使用标准的COCO指标（Lin等人，2014年）评估了3D分割。评估采用了平均精度（mAP）和平均召回率（mAR），在IoU阈值为0.5、0.75以及从0.5到0.95的范围内以0.05为间隔进行评估。评估使用了SAM2生成的2D分割和Kubric的真实2D分割。虽然实际场景中无法获得真实的2D分割，但在这里包括它是为了隔离3D结果中的不确定性来源，特别是区分来自SAM2 2D预测的错误和由我们的分割拼接流程引入的错误。在Kubric和真实世界实验中，我们将关键图像的最大数量Nk设置为10，语义ID的最大数量H设置为5，衰减半径D设置为2像素，衰减率η设置为1，以及投影过滤后的3D IoU阈值τ设置为0.5。图5展示了Kubric合成场景中的分割拼接示例，显示了如何随着逐步合并顺序视图的分割结果而逐渐更新3D语义点云。
图6展示了我们在Kubric数据集上的验证实验结果，表1总结了性能。与SAM3D和SAMPro3D相比，我们的方法产生了更少的假阳性，从而在合并分割时获得了更高的mAP。虽然SAM3D在mAR上略有改进，表明假阴性较少，但在mAP上我们的方法显著优于SAM3D。对于SAMPro3D，我们仅在对象上选择了初始3D提示，因为在整个场景中选择提示未能捕获分布稀疏的感兴趣对象（例如位于地面上的对象）的点。我们的方法不受此限制。SAM3D和SAMPro3D使用的 segmentation mosaicking 标准基于点云的重叠（公式（1））。与我们在公式（4）中的标准相比，SAM3D和SAMPro3D的标准没有结合跨投影，这可能会增加对分割噪声的敏感性，并在分割点云重叠较小时降低可靠性。
图8展示了Granite Dells真实世界UAV-SfM数据集的验证结果，表2提供了定量性能。由于SAMPro3D的实现不支持Grounding DINO，因此无法提供其结果。SAM3D在应用于原始点云时未能合并分割，该点云包含超过1200万个点。相反，其结果是从大约623,000个点的降采样点云中获得的。这种降采样对于需要高几何精度的实际应用来说是一个问题，而我们的方法没有面临这个限制。与结构化的Kubric数据集相比，真实世界数据本质上更复杂，导致性能普遍下降。然而，我们的方法仍然在mAP和mAR上优于SAM3D。图7展示了Kubric数据集实验中分割拼接算法的运行时间作为图像数量的函数。结果表明，算法与图像数量成线性扩展。这种线性对于在大规模摄影测量数据集中实现高效3D语义映射至关重要。

表1. 在Kubric合成数据上的评估。
方法 | 3D拼接 | 2D分割 |
|--------------|------------------|-----------------|
| mAP | 50 | 75 |
| mAR | 50 | 75 |
| SAM3D | 38.7 | 2.4 |
| SAM2 | 44.8 | 2.8 |
| SegMo3D | 80.9 | 0.1 |
|SAMPro3D | 47.8 | 7.0 |
| Ground-Truth | 99.5 | 9.6 |

表2. 在真实世界UAV-SfM数据上的评估。
方法 | 3D拼接 | 2D分割 |
|--------------|------------------|-----------------|
| mAP | 50 | 75 |
| mAR | 50 | 75 |
| SAM3D | 47.1 | 19.4 |
| SAM2 | 75.6 | 4.6 |
| SAMPro3D | N/A | N/A |
| SegMo3D | 75.6 | 4.6 |
| Ground-Truth | 97.3 | 9.7 |

5. 案例研究
在我们的案例研究中，我们使用Granite Dells数据集的3D语义地图生成了PBR（物理基模拟）脆弱性地图。在准静态分析中（Housner，1963年；Veeraraghavan等人，2017年），翻倒峰值地面加速度（PGA）与PBR的几何形状直接相关：PGAoverturning=1.3tan(wh)，其中PGAoverturning是使PBR翻倒所需的最小PGA，wh是宽高比。为了反映脆弱性，我们使用高宽比：直观地说，更高更窄的PBR更容易倒塌。因此，我们计算每个岩石分割的高宽比来表示其脆弱性。具体来说，对于每个分割出的独立岩石，我们应用DBSCAN聚类来去除该分割点云中的噪声，如浮点数。我们对每个岩石点云进行了主成分分析（PCA）。与垂直方向（z轴）角度偏差最小的主轴被定义为高度轴。在剩余的两个主轴中，选择特征值较小的一作为宽度轴。然后将每个岩石点云中的点投影到这些轴上以估计高度和宽度。结果得到的高宽比的空间分布显示在图9中。这张地图有助于优先考虑哪些岩石需要详细调查（例如，进行年代测定或机械分析），通过识别出脆弱性最高的岩石来支持高效的现场工作和危险评估。

下载：下载高分辨率图像（3MB）
下载：下载全尺寸图像
图9. Granite Dells独立岩石的高宽比（HWR）地图。较大的HWR表示更高的脆弱性，这是不稳定岩石（PBRs）的特征。在(a)中，计算出的HWR值被彩色编码并叠加在正射镶嵌图上。虚线椭圆标记了(b)和(c)中展示的岩石群的位置，白色箭头指示相应的观察方向。在(b)和(c)中，分割出的岩石根据与(a)中相同的颜色比例进行颜色编码。这张地图提供了岩石脆弱性的空间分布概览，比之前仅关注单个PBR的研究提供了更全面的见解。通过指出最脆弱的PBR，这张地图有助于优先安排现场调查并支持更明智的地震危险评估。

5. 讨论
5.1. 方法改进
当前3D语义映射在表面地质特征方面的一个主要缺陷是依赖于标注的3D数据，这很难获得，因为地质点云通常包含数百万个点，具有复杂的几何形状和强烈的现场特定性。这一瓶颈限制了现代3D分割方法在表面地质特征中的应用。这里介绍的方法通过利用LVMs进行稳健的2D分割，并引入SegMo3D来解决这一挑战，SegMo3D是一个将多视图2D分割拼接成3D语义的流程。重要的是，SegMo3D与常见的SfM软件（如Agisoft Metashape和OpenDroneMap）完全兼容，允许用户将该方法集成到现有的摄影测量工作流程中。这种兼容性简化了当前的映射实践，并有效地将传统的SfM重建扩展到具有对象意识的3D语义映射中，而无需额外的数据收集或模型训练。在合成数据和真实世界实验中，SegMo3D的性能始终优于SAM3D和SAMPro3D。在Kubric合成数据集上，SAM3D和SAMPro3D都经常出现过分割现象，而SegMo3D即使在密集杂乱的场景中也能成功保留对象边界，如图6所示。在包含变化光照、复杂几何形状和遮挡的真实世界UAV-SfM数据集上，性能差异更为明显。在图8中，SAM3D表现出严重的过度合并现象，将独立的岩石与周围背景合并在一起。SAM3D无法处理完整的1250万点云数据，必须使用大幅度降采样的版本，从而导致细节的大量丢失。SAM3D在大规模点云上的受限性能可能与它的迭代自下而上的合并策略有关，在每个合并步骤中分割错误都会累积并传播。随着图像和点云规模的增加，这一过程变得越来越不稳定。相比之下，SegMo3D采用了一种概率投票策略，其中每个点的semantic标签是基于所有重叠图像帧的聚合概率来确定的。SegMo3D不依赖于任何单一视图的分割结果，而是整合了多视图的证据，从而在非结构化的户外环境中做出更稳定和可靠的语义决策。SAMPro3D在处理具有复杂几何形状和聚类特征的点云时存在局限性。SAMPro3D通过最远点采样来选择3D提示，这种策略对对象类型是不可知的，可能无法捕捉到地质数据集中常见的小型、分布不规则的表面特征。SegMo3D则利用SAM2提供的密集且均匀的提示生成，大大降低了在高采样密度下错过这些特征的风险。SAMPro3D不支持Grounding DINO，这限制了其过滤和隔离感兴趣的地质特征的能力。

本案例研究是基于一个新的地质数据集进行的，该数据集此前未被任何已发表的研究使用过。据我们所知，目前还没有现有的3D语义分割方法应用于大规模、非结构化的地质点云上，主要是因为这类数据集难以获取，且以有意义的分辨率进行标注更具挑战性。因此，没有可用的基线结果来进行直接比较。这种先前研究的稀缺性突显了我们数据集的新颖性，以及像SegMo3D这样的方法在复杂户外地质环境中的实际需求。

5.2. 局限性和未来机遇
尽管SegMo3D提供了一个可扩展且无需训练的3D语义映射解决方案，但仍存在一些局限性。首先，SegMo3D的时间效率是通过结合像素-分割关联和像素-点关联来构建点-分割关联来实现的。这种设计使得运行时间与图像数量成线性关系，如图7所示，但它也带来了内存成本：大型数据集需要大量内存来存储这些关联。例如，处理Granite Dells数据集大约需要40 GB的RAM。虽然桌面用户可以通过从磁盘或SSD流式传输关联数据来缓解这一需求，但这会增加额外的I/O开销并降低整体运行速度。

其次，SegMo3D依赖于SfM产生的相机校准和相机姿态估计的准确性。商业SfM软件（如Agisoft Metashape和OpenDroneMap）通常会在捆绑调整（图像对准）期间自动进行相机校准，但得到的内在参数和外在姿态可能会受到GPS质量和镜头畸变的影响。这些不确定性会传递到像素-点关联中，可能导致小的空间偏移。在我们的实验中，当主点偏移（Cx,Cy）在大约30像素范围内时（这对于许多UAV-SfM应用来说是常见的），对拼接效果的影响可以忽略不计。较大的偏差（可能由弱GPS信号或未校正的镜头畸变引起）可能需要更高级的校准程序。由于(Cx,Cy)直接依赖于底层的相机校准，因此基于本研究中的有限数据很难量化校准不确定性对SegMo3D的确切影响。未来将SegMo3D应用于更多类型的数据集将有助于确定经验性的不确定性范围。我们还建议使用支持RTK的无人机来提高姿态精度并减少校准漂移。

第三，SegMo3D继承了底层2D分割质量的局限性。表1和表2的结果表明，当提供真实的2D分割时，SegMo3D能够实现更高的准确性，这凸显了SAM2和Grounding DINO的性能对最终3D输出的影响。尽管SAM2和Grounding DINO模型代表了当前的2D分割系统，但不准确性（如过度分割、遗漏检测或Mask边界不精确）会传播到3D语义地图中。未来2D分割技术的进步，特别是在地质或自然环境图像上训练的模型，将直接提升SegMo3D的性能。SegMo3D的模块化设计确保了其与新兴2D分割模型的兼容性，使得随着底层视觉模型的发展能够持续改进。

6. 结论
虽然在不同类型的地球科学研究中提取3D地表地质特征至关重要，但由于标注大规模3D数据的难度，自动化这一过程仍然具有挑战性。我们提出了一种通过整合SfM和LVM以及分割拼接算法来实现地表地质特征3D语义映射的方法。通过利用SAM2和Grounding DINO等LVM，我们的方法消除了对标注3D训练数据的需求，同时能够利用文本提示进行对象分割。我们开发了一种分割拼接算法，该算法在点?分割之间建立概率关联，以合并多个视角下的2D分割结果，从而增强了对抗分割噪声和相机估计不确定性的鲁棒性。我们在合成数据和真实世界UAV-SfM数据集上的实验表明，与当前最佳技术相比，我们的方法在整体性能上取得了更高的效果，同时保持了线性可扩展性。所提出的方法旨在与现有的SfM工作流程无缝集成，使其能够在地质映射应用中实际部署。

**CRediT作者贡献声明**
Zhiang Chen：撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、验证、软件开发、资源管理、方法论构建、调查、形式分析、数据管理、概念化。
Devin McPhillips：撰写 – 审稿与编辑、方法论构建、资金获取、概念化。
Katherine Scharer：撰写 – 审稿与编辑、方法论构建、资金获取、概念化。
Zachary E. Ross：撰写 – 审稿与编辑、方法论构建、资金获取、概念化。

**代码可用性**
SegMo3D的源代码可在以下链接获取：https://github.com/ZhiangChen/SegMo3D
用于验证实验的合成数据生成工具包可在以下链接获取：https://github.com/ZhiangChen/data_generator_3d

热点排行