利用深度学习和基于图的连通性细化技术,从遥感图像中提取具有拓扑结构的道路
滕子轩、
郑泽中、
孙向阳、
薛浩
《ISPRS International Journal of Geo-Information》:Topology-Aware Road Extraction from Remote Sensing Images Using Deep Learning and Graph-Based Connectivity Refinement
Zixuan Teng,
Zezhong Zheng,
Xiangyang Sun and
Hao Xue
【字体:
大
中
小
】
时间:2026年05月10日
来源:ISPRS International Journal of Geo-Information 2.8
编辑推荐:
摘要 道路网络是交通基础设施的基本组成部分,在各种地理空间应用中发挥着至关重要的作用。尽管基于深度学习的语义分割模型在从高分辨率遥感图像中提取道路方面取得了令人满意的结果,但由于遮挡和阴影的影响,生成的道路网络经常会出现拓扑碎片化的问题。为了解决这一问题,
摘要 道路网络是交通基础设施的基本组成部分,在各种地理空间应用中发挥着至关重要的作用。尽管基于深度学习的语义分割模型在从高分辨率遥感图像中提取道路方面取得了令人满意的结果,但由于遮挡和阴影的影响,生成的道路网络经常会出现拓扑碎片化的问题。为了解决这一问题,我们提出了一种考虑拓扑结构的道路提取方法,该方法将基于深度学习的分割技术与基于图的连通性细化策略相结合。具体来说,首先使用金字塔场景解析网络(PSPNet)生成初始的道路概率图。随后引入了一个以连通性为导向的后处理流程,该流程结合了多源成本函数策略和考虑方向的Dijkstra搜索算法。通过利用端点切线向量作为惯性权重,该算法能够有效地重组碎片化的道路段,同时保持几何平滑性和拓扑一致性。此外,还应用了一种动态道路宽度恢复策略,将细化的骨架转换成物理上一致的道路实体。在两个公开可用的数据集CHN6-CUG和DeepGlobe上进行的实验证明了所提方法的有效性。定量结果显示,细化过程显著提高了道路连通性,同时在像素级准确度上的损失很小。具体而言,在CHN6-CUG数据集上Conn指标提高了0.1989,在DeepGlobe数据集上提高了0.3055,而MIoU指标仅分别下降了1.07%和0.45%。这些发现表明,该方法有效地恢复了结构连续性,有助于生成可靠的道路网络,并将其集成到基于地理信息系统(GIS)的应用中,如城市规划和自主导航。
1. 引言 道路网络作为地理基础设施的重要组成部分,连接了城市、城镇和农村地区,支持人员和货物的流动。它们在城市规划[1,2]、交通管理[3,4]和应急响应[5,6]中发挥着重要作用,因此对社会经济活动和区域发展至关重要。过去几十年里,遥感技术发展迅速,来自卫星、航空平台和无人驾驶飞行器(UAV)的高分辨率图像变得越来越容易获取[7]。这些数据能够在前所未有的空间和时间尺度上详细观察地面物体,为灾害监测等地理空间信息获取提供了宝贵的基础[8]。同样地,道路提取任务也严重依赖于遥感图像的支持,因为该任务需要细粒度的空间细节和及时的更新。从遥感图像中提取道路通常被构建为一个语义分割任务,其中图像中的每个像素都被赋予道路或非道路的标签[9]。根据自动化程度,现有方法大致可以分为启发式方法和数据驱动方法[10]。启发式方法通常依赖于道路的几何、光谱和上下文等先验知识,因此它们的适应性受到复杂场景和多样化成像条件的限制[11]。此外,非线性的表达能力不足也限制了深度语义视觉特征的识别效果[12]。相比之下,基于深度学习的数据驱动方法已成为道路提取的主流方法,因为它们能够自动学习层次特征并在不同场景中泛化[13]。全卷积网络(FCN)[14]引入了一种端到端的语义分割范式,并启发了一系列后续改进的架构[15]。在FCN框架的基础上,提出了各种编码器-解码器架构,包括UNet、SegNet和DeepLabv3+,其中许多已成功应用于道路提取任务[16,17]。其中,广泛使用的UNet模型激发了许多旨在提高分割性能的变体。典型的策略包括定制损失函数[18]、多尺度上下文信息融合[19]和引入注意力机制[20],这些方法已被证明可以从高分辨率遥感图像中更准确地提取道路。最近,人们探索了其他网络设计。例如,基于生成对抗网络(GAN)的方法被引入到道路提取任务中,其中对抗学习被用来使预测的道路更好地匹配真实道路网络的结构特征[21]。在基于GAN的框架中,探索了各种架构改进,如在生成器或判别器中集成编码器-解码器结构[22]、融合多尺度特征[23]以及使用多个判别器[24]来提高生成道路图的质量和结构一致性。基于Transformer的架构也显示出强大的潜力,因为自注意力机制使它们能够更有效地捕捉长距离依赖性和全局上下文信息。许多结合卷积神经网络(CNN)和Transformer架构的模型在道路提取任务中取得了有希望的性能[25,26]。此外,Transformer模块也被广泛整合到分割网络中。例如,Hu等人提出了MDTNet,其中使用多尺度可变形Transformer模块来捕获更丰富的特征表示[27]。尽管取得了这些进展,基于深度学习的道路提取方法通常主要关注像素级分类准确性,而道路网络的结构属性相对较少受到关注。这一挑战促使研究人员探索明确考虑道路段之间结构关系的方法。因此,基于图的方法越来越受到关注,在这些方法中,道路网络被表示为图结构来模拟道路段之间的连通性[28,29]。例如,RoadTracer将道路提取构建为一个迭代图构建过程,逐步追踪道路网络[30],而RoadCorrector将分割结果转换为道路图并执行拓扑校正以改善道路连通性[31]。此外,一些最近的研究将考虑拓扑结构的约束直接整合到深度神经网络中,以在训练过程中促进结构一致性。同时,还采用后处理策略利用骨架表示或连通性分析等结构线索来细化分割输出。与基于图的深度学习方法相比,后处理策略通常更易于实施,并且可以很容易地与现有的分割模型集成,而无需修改网络架构。然而,一些现有的后处理方法依赖于简单的基于距离的标准来重新连接碎片化的道路段,这在面对复杂的道路模式时往往会导致不可靠或几何上不合理的连接。基于这些观察,本文提出了一种将基于深度学习的语义分割与基于图的后处理相结合的协同方法。该方法首先使用金字塔场景解析网络(PSPNet)生成初始的道路概率图,然后使用基于图的连通性细化方法通过多源成本函数和考虑方向的路径搜索算法系统地重新连接碎片化的道路段。本研究的主要贡献有三个方面:(1)我们设计了一种多源成本驱动机制,结合了语义概率和边缘感知的几何约束来指导精确的拓扑重建;(2)我们开发了一种考虑方向的Dijkstra搜索算法,该算法利用端点切线向量作为惯性权重来确保生成路径的几何平滑性;(3)我们在不同的城市和农村数据集上验证了该方法,证明了其在连通性指标上的显著改进,并证明了其在映射和导航中的实际潜力。
2. 方法论 2.1. 基线语义分割网络 PSPNet由Zhao等人在2017年提出[32],它是一种采用全卷积架构的语义分割模型。网络的整体结构如图1所示。PSPNet的核心创新在于其金字塔池化模块(PPM),如图1中的框所强调的那样。PPM对输入特征图应用四种不同的网格尺寸的并行自适应平均池化操作,使模型能够在多个空间尺度上捕获上下文信息。尽管最近提出了基于Transformer或混合CNN-Transformer设计的更多分割架构,但由于其有效的多尺度上下文建模和相对简单的架构,PSPNet仍然是一个有竞争力的选择。与许多需要更大训练数据和更高计算成本的基于Transformer的模型相比,PSPNet在高分辨率遥感图像上提供了稳定的性能。因此,本文采用PSPNet来生成后续拓扑细化框架的初始道路分割结果。 2.2. 基于图的连通性细化框架 虽然PSPNet在捕获多尺度上下文信息方面非常有效,但它主要优化了像素级分类,并没有明确考虑道路网络的拓扑连续性。因此,预测的道路掩膜可能包含碎片化结构、断裂的段或不连续性,特别是在道路部分被建筑物、植被或阴影遮挡的区域。这些问题阻碍了连贯道路网络的重建,这对于映射和导航等应用至关重要。为了解决这个问题,提出了一种基于图的连通性细化框架,该框架结合了多源成本函数。通过整合语义概率和边缘感知约束,该框架细化了初始分割结果,并重建了具有增强连续性和拓扑一致性的道路网络。整个工作流程如图2所示。图2. 连通性细化框架的工作流程。 (1) 噪声去除和小组件过滤 在细化过程的初始阶段,对PSPNet生成的原始预测掩膜进行过滤,以消除碎片化和分割伪影。对二值掩膜应用3 × 3中值过滤来平滑道路边界并抑制孤立的脉冲噪声,同时保持底层结构的完整性。之后,执行小组件去除以过滤掉虚假检测。具体来说,定义了一个最小面积阈值为总图像像素的0.01%。面积小于此阈值的连通组件被丢弃。这一步确保了后续的骨架化过程仅关注主要的道路结构,有效防止了由小噪声簇引起的虚假拓扑节点的生成。 (2) 拓扑提取和方向分析 在初始过滤之后,使用形态学细化将精细化的道路掩膜转换为单像素宽度的中心线表示。基于这个骨架,算法识别端点,即在其8-邻域中只有一个邻居的节点。为了确保新生成的路径遵循道路网络的自然延伸,通过沿现有骨架回溯12个像素来计算每个识别端点的切线方向向量。这种方向分析允许细化过程在随后的路径查找阶段保持几何连续性。此外,为了将连通性范围扩展到不仅仅是简单的端点到端点对,算法建立了一组全面的目标候选者。这组目标包括其他端点、边界节点和所有现有的骨架坐标。这种方法允许细化过程恢复复杂的拓扑结构,如T形路口或延伸到图像边界的道路。 (3) 多源成本图构建 在这个步骤中,构建了一个全面的成本图来指导路径查找过程,确保重建的连接在几何上合理且在语义上准确。与仅依赖欧几里得距离的传统方法不同,所提出的框架采用了多源成本函数。每个像素单元的总成本计算为(1)以形成与输入图像相同尺寸的成本网格。 (1) 其中 代表像素坐标处的总遍历成本, 和 分别表示行和列索引。 项表示来自模型预测的语义成本组件,而 项是用于阻挡非道路障碍的边缘感知惩罚项。语义成本构成了地图的基础。该成本使用(2)计算: (2) 其中 代表深度学习模型在像素坐标 处预测的道路类别概率, 是控制成本对概率波动敏感度的陡峭度指数。 是一个可忽略的平滑常数,用于防止在非道路区域除以零。为了优先利用现有的分割结果,对于位于初始预测掩膜内的像素, 将设置为0.5以降低遍历成本,而对于掩膜外的像素,保持标准权重1.0。指数函数旨在通过高概率区域提供低阻力路径,同时对低置信区域进行指数惩罚。通过调整 对于非线性映射,算法确保细微的间隙仍然可通行,有效地指导从可靠段修复道路网络。 边缘感知成本 通过对灰度图像应用Canny检测器,并进行3 × 3膨胀来扩展边界影响,从原始输入图像中得出。这些膨胀的边缘区域被赋予一个恒定的惩罚2.0,而其他区域保持为零。 的主要作用是作为几何屏障。通过在物理边界处施加额外的遍历成本,可以防止路径寻找算法偏离到非道路障碍物上,确保重构的路段与视觉上的道路边缘保持对齐。(4)基于图的拓扑细化算法1概述了一个系统化的流程,用于通过桥接碎片化的路段来恢复道路网络的连续性。该过程首先对潜在的连接进行优先排序;构建一个目标集,包括端点、边界节点和现有的骨架像素,并根据欧几里得距离对候选对进行升序排序,以确保首先稳定附近的断点。为了确保几何平滑性和拓扑连续性,实现了考虑方向的Dijkstra搜索(算法1,第9-1行),该算法通过计算每个搜索步骤与预定义方向向量之间的余弦相似度来融入几何惯性。通过惩罚操作符,与道路方向对齐的路径会获得奖励,而严重的偏差会受到重罚,迫使生成的连接保持平滑且共线的轨迹。最后,每个优化的路径都会根据平均语义概率阈值进行验证,以过滤掉噪声。算法1:基于图的拓扑细化
输入:骨架图、端点集、方向向量、成本图
输出:细化后的道路骨架
1. 定义目标集
2. 生成候选对
3. 按欧几里得距离升序排序
4. 对于每个候选对,如果已经标记为连接,则继续
5. 定义以中点为中心的局部搜索ROI
6. 使用考虑方向的Dijkstra在ROI上寻找路径
7. 对于每个搜索步骤,计算对齐度
8. 更新步骤成本:如果与方向向量对齐,则为0.8;否则为2.0
9. 如果ROI中像素的平均概率大于阈值,则更新骨架
10. 将候选对标记为连接
11. 结束
(5)动态道路宽度恢复
为了完成后处理工作流程,应用了一种动态道路宽度恢复策略,将细化后的中心线转换为物理上一致的道路区域。这种自适应方法利用从初始二值掩膜派生的距离变换图来估计连接点处的局部道路宽度。具体来说,通过取两个锚点处的距离变换值的平均值,并应用1.2的缩放因子来进行膨胀,以实现无缝过渡。最后,这些路径使用盘形结构元素进行膨胀,并整合到全局掩膜中,恢复道路网络的自然几何形状。
2.3. 评估指标
为了全面评估所提出方法的性能,采用了传统的分割指标和考虑拓扑的连通性指标。传统指标衡量像素级的分类准确性,而面向连通性的指标则关注预测道路网络的结构和形态完整性。
Intersection over Union (IoU) 和 Mean IoU (MIoU):IoU 评估每个类别的预测掩膜和真实掩膜之间的重叠程度。MIoU 对所有类别的 IoU 值进行平均,以提供总体分割分数。这些指标的定义如 (3) 和 (4) [33] 所示:
(3)
(4)
其中 和 分别表示真正例、假正例、假负例和假负例像素的数量, 表示类别的数量。
连通性 (Conn):为了评估后处理步骤对恢复道路连通性的影响,采用了 Wei 等人 [34] 提出的 Conn 指标,并对其进行了特定的修改以增强其数值稳定性。该指标衡量提取的道路网络的局部结构完整性和拓扑一致性。具体来说,预测的和真实的道路掩膜都被骨架化,以生成宽度为一个像素的中心线,保留网络拓扑。真实和预测中连通组件的总数分别表示为 和 。 表示任何预测段成功覆盖的真实路段数量, 表示正确覆盖任何真实路段的预测段数量。这种双向匹配机制确保 Conn 值保持在 [0, 1] 的范围内。最终连通性分数的计算公式如下:
(5)
尽管 Conn 能够有效衡量道路网络的结构完整性,但它依赖于骨架化表示,并且对预测结果中的小几何偏差或噪声比较敏感。此外,该指标主要评估道路段是否相连,但并不明确评估重构的连接在几何上或拓扑上是否正确。因此,不正确的连接仍可能产生相对较高的连通性分数。因此,在后处理流程中加入了几个细化步骤,以减轻这些问题并获得更稳定和可靠的评估结果。在评估方面,MIoU 和 Conn 都被认为能提供更全面的分割准确性和网络连通性的评估。
3. 实验和结果
3.1. 数据集
本文使用了两个公开可用的道路提取数据集 CHN6-CUG 和 DeepGlobe 来评估所提出方法的有效性和泛化能力。图 3 展示了这两个数据集的代表性样本。图 3. 来自 CHN6-CUG 和 DeepGlobe 数据集的示例样本,图像上覆盖了真实道路注释。(a–d) CHN6-CUG 数据集;(e–h) DeepGlobe 数据集。半透明的红色区域表示覆盖在原始图像上的真实道路注释。朱等人 [35] 提出的 CHN6-CUG 道路数据集是一个大规模的卫星数据集,覆盖了中国六个代表性城市。该数据集的空间分辨率为 0.5 米/像素,包含密集和复杂的城市道路网络,如图 3a–d 所示,为城市场景中的道路提取提供了基准。由于原始图像的一部分包含的信息很少(例如,几乎为空白的场景),因此通过移除不合适的样本对数据集进行了清理。剩余的图像被随机划分为 2488 张训练图像、311 张验证图像和 312 张测试图像,总共 3111 张图像。
DeepGlobe 道路提取数据集是另一个广泛用于从高分辨率卫星图像中提取道路的基准数据集 [36]。与 CHN6-CUG 相比,DeepGlobe 包含来自不同地理区域的图像,具有更多异质的景观,包括城市和农村地区,如图 3e–h 所示。因此,道路结构在规模、连续性和周围环境方面表现出更大的变化,对道路分割和连通性保持提出了额外的挑战。该数据集由空间分辨率为 0.5 米/像素的高分辨率卫星图像组成,每张图像的大小为 1024 × 1024 像素。在本文中,6226 张带注释的图像被随机划分为 4980 张训练图像、622 张验证图像和 624 张测试图像。
3.2. 实施细节
实验环境使用 Python 和 PyTorch 1.10.0 构建,并支持 CUDA 11.3。所提出的模型使用 MMSegmentation 框架实现。模型训练、推理和后处理在 NVIDIA RTX 4090D GPU(NVIDIA,美国圣克拉拉)上进行。使用 SGD 优化器(动量 = 0.9,权重衰减 = 1 × 10?4),初始学习率为 0.005,并通过 Warmup PolyLR 方案动态调整(1500 次热身迭代,衰减幂 = 0.9)。应用混合精度(FP16)训练以提高内存效率。交叉熵损失作为主要目标,可选地结合深度特征监督的辅助分支。模型性能在验证集上使用 MIoU 进行评估,并自动保存最佳权重。
3.3. 分割模型的比较研究
为了选择后续后处理实验的最佳深度学习基线,在 CHN6-CUG 和 DeepGlobe 数据集上进行了一系列比较实验。与几种代表性分割模型进行了定量比较,包括 SegFormer [37]、Swin Transformer [38]、ConvNet [39] 和 BiSeNet V2 [40],这些模型涵盖了基于 Transformer 和基于 CNN 的分割模型。结果总结在表 1 和表 2 中,而代表性分割结果展示在图 4 和图 5 中进行定性比较。
表 1. CHN6-CUG 数据集上模型的定量分割结果。
表 2. DeepGlobe 数据集上模型的定量分割结果。
图 4. CHN6-CUG 数据集上模型的可视化分割结果。(a) 图像;(b) 真实值;(c) PSPNet;(d) BiSeNet V2;(e) SegFormer;(f) ConvNet;(g) Swin Transformer。
图 5. DeepGlobe 数据集上模型的可视化分割结果。(a) 图像;(b) 真实值;(c) PSPNet;(d) BiSeNet V2;(e) SegFormer;(f) ConvNet;(g) Swin Transformer。
如表 1 所示,PSPNet 在所有比较模型中在 CHN6-CUG 数据集上取得了最佳性能,获得了最高的 Road IoU(62.16%)、MIoU(78.78%)和 Conn(0.5806%)分数。这些结果表明 PSPNet 能够准确识别道路区域,同时在提取的道路网络中保持 strong 的结构一致性。在比较方法中,BiSeNet V2 排名第二,其 MIoU 为 72.86%,Road IoU 为 51.42%,Conn 得分为 0.5416,在所有指标上都显示出与 PSPNet 相比有显著的性能差距。关于其余三个模型,SegFormer 显示出最高的分割准确性,表现与 BiSeNet V2 接近,并明显优于 ConvNet 和 Swin Transformer。然而,从连通性的角度来看,ConvNet 的结果相对较好。这表明分割准确性和结构连通性并不总是始终一致。因此,在道路提取任务中,仅靠分割准确性是不够的,还应该考虑重构连接的几何或拓扑正确性。结果,不正确的连接仍可能产生相对较高的连通性分数。因此,在后处理流程中加入了几个细化步骤来解决这些问题,并获得更稳定和可靠的评估结果。在评估方面,MIoU 和 Conn 都被认为能提供更全面的分割准确性和网络连通性的评估。
3.4. 提出的连通性细化框架的性能评估
在从 PSPNet 模型获得分割结果后,应用了一种保持连通性的后处理程序来修复不连续或碎片化的道路段。后处理流程包含几个连续的步骤,如第2.2节所描述。在我们提出的后处理流程的实现中,涉及多个关键参数,这些参数贯穿于各个阶段,包括噪声过滤、代价图构建、路径搜索和路径验证。具体来说,与噪声去除相关的参数(如中值滤波器大小和组件过滤的最小面积阈值),以及Canny边缘检测的参数,都根据现有文献和视觉检查设置为默认值或经验值。鉴于它们在建立干净基线和合理边缘约束方面的作用相对直接,且不会大幅改变核心拓扑优化,我们省略了对这些设置的正式参数敏感性实验,假设它们在一定范围内是稳定的。相反,我们的分析集中在两个关键超参数上,这两个超参数直接决定了基于方向图的精细化效果:在语义代价计算中对语义概率的幂次,以及在对齐约束中用于基于余弦的动态方向补偿的系数。具体而言,该幂次决定了代价函数对低概率区域的惩罚程度;较高的幂次值会创建一个更陡峭的代价景观,迫使路径搜索算法(算法1)严格跟随高置信度区域,如果预测噪声较大,可能会导致路径更加碎片化;而较低的值可能会产生更平滑但语义准确性较低的连接。此外,该系数控制了在路径细化过程中执行共线约束的程度。这个参数直接决定了代价调整的幅度,以优先考虑与已建立的骨架方向对齐的路径,从而减少急剧转弯并提高几何连续性。由于这两个超参数本质上定义了模型保真度和拓扑规则性之间的权衡——这是我们保持连通性策略的核心目标——因此进行敏感性实验对于确定能够稳健地重新连接碎片化道路而不牺牲其结构完整性的最佳参数配置是必不可少的。因此,从每个数据集中选择了30张具有典型道路场景和可靠初始分割性能的代表性图像。在这些样本上,将六种候选参数配置依次应用于后处理流程。MIoU和Conn的结果总结在表3中。表3显示了在连通性细化框架中对关键参数的敏感性实验结果。总体而言,表3中的结果表明,所提出的后处理框架在不同参数设置下在两个数据集上都保持了高度稳定的性能,MIoU和Conn值的波动都在非常狭窄的范围内。这种稳定性强调,连通性恢复主要受到流程内在结构逻辑的驱动——即拓扑提取和方向图搜索之间的协同作用——而不是过分依赖于微妙的超参数调整。DeepGlobe数据集上Conn指标在大多数参数组合下保持相同或几乎相同,进一步支持了这一结论,表明该框架足够稳健,即使在不同的惩罚强度下也能识别出正确的拓扑路径。基于这些实验结果,确定了适合CHN6-CUG数据集的最佳参数配置,该配置在分割准确性和拓扑连通性之间取得了平衡,同时最大化了其修复道路网络的潜力。关于DeepGlobe数据集,选择了其他参数配置。随后为这两个数据集呈现的所有定量和定性后处理结果均基于这些参数设置。基于PSPNet生成的分割结果,对CHN6-CUG和DeepGlobe数据集应用了连通性细化方法。表4报告了MIoU、Conn以及每张图像的平均处理时间。为了进一步展示该后处理框架相对于独立深度学习模型的优势,还包括了在第3.3节中获得第二佳结果的BiSeNet V2的性能指标进行比较。表4显示了所提出的连通性细化框架在CHN6-CUG和DeepGlobe数据集上的定量结果和处理效率。如图4所示,连通性细化显著提高了两个数据集上提取的道路网络的结构连续性。在CHN6-CUG数据集上, Conn指标从0.5806增加到0.7795(+0.1989),表明PSPNet原始预测中的许多碎片化道路段成功重新连接。同时,MIoU的下降幅度很小,从78.78%降至77.71%(?1.07%),这说明分割准确性基本得到了保留。值得注意的是,这种细化的MIoU仍然显著优于BiSeNet V2的独立性能(72.86%)。在DeepGlobe数据集上也观察到了类似的趋势,Conn分数从0.5222急剧上升到0.8277(+0.3055)。MIoU仅略有下降,从78.59%降至78.14%(?0.45%),但仍显著高于BiSeNet V2(76.06%)。这些结果表明,所提出的框架以最小的代价优先考虑了拓扑完整性,始终优于次级分割模型。此外,后处理流程的平均处理时间在CHN6-CUG上为每张图像3.80秒,在DeepGlobe上为每张图像10.82秒,表明所提出的方法在保持实用性的同时引入了可接受的计算开销。在DeepGlobe数据集上观察到的处理时间增加主要是由于其更大的图像尺寸和更密集的狭长道路段。这些特征导致骨架更为复杂,候选路径的数量显著增加,从而在基于图的细化过程中需要更多的迭代。然而,这种增加的计算工作量得到了更好连通性收益的证明;该框架有效地应对了这种复杂性,解决了更多的断裂问题,与其他数据集相比,Conn指标的改进更加明显。图6展示了连通性细化框架的初始阶段,重点关注识别原始模型输出中的拓扑缺陷。如图所示,尽管模型捕捉到了主要道路区域,但在树木阴影或复杂建筑阴影特征的区域内仍然存在明显的不连续性。这些差距导致道路网络变得碎片化,无法满足实际导航或路线规划的应用需求。为了解决这些不连续性,首先将二值掩膜简化为宽度为一像素的骨架,如图6b中的白线所示。基于这种表示,框架自动检测所有死胡同,并将其标记为端点。这些端点作为后续连通性恢复的逻辑锚点,精确地指出了道路网络结构中断的位置。图7揭示了框架的决策核心,其中构建了一个多源代价图以促进智能路径搜索。在图7a中,可视化了全面的代价景观,以表示穿越不同像素的难度。道路概率高且边缘梯度低的区域形成低成本洼地(用深蓝色表示),而非道路像素和复杂建筑结构则被赋予显著更高的穿越成本(用暖色调表示)。这种代价图确保了后续的路径搜索过程始终在最合理的道路区域内进行。值得注意的是,这两种类型区域之间的代价差异相当大;这主要是由于语义代价函数的数学形式对低概率区域施加了指数级惩罚。然而,形成连接的关键决策通常发生在这些低成本洼地内,那里的语义成本差异较小。为了在这些区域提供更细化的指导,我们的框架引入了边缘成本来进一步约束沿着几何边界的路径。如图7b所示,框架使用基于Dijkstra的搜索算法来计算不连接端点之间的最优路径。可视化显示,生成的路径(白线)通过穿越地图的低成本洼地成功 bridged the gaps。通过结合从初始骨架中得到的方向约束,搜索过程确保新创建的连接保持了几何平滑性和与现有道路段的结构一致性。图7展示了代价图构建和考虑方向的路径搜索。图8展示了后处理框架的最终结果。图8a展示了路径搜索过程后的精细化骨架。与图6b相比,先前孤立的端点现在已连接起来,形成了连续且封闭的拓扑网络。然后,通过将道路宽度恢复到精炼后的骨架上,重建了精炼后的道路网络。为了清晰直观地展示后处理框架的有效性,图8b中突出显示了几个关键区域,以便与图8c中的真实情况进行比较。具体来说,黄色圆圈表示算法正确 bridged the gaps 的成功重新连接的道路段;蓝色圆圈代表未成功重新连接的剩余不连续性,而红色圆圈指向与实际道路拓扑不对的错误连接。总体而言,可视化显示所提出的算法在连通性上取得了显著改进。大部分碎片化的道路部分得到了有效恢复,而错误或遗漏连接的 occurrence 相对较低。这些结果证实了该框架在修复提取道路网络中的复杂拓扑错误方面的鲁棒性。图8展示了拓扑细化结果与真实情况的对比。(a)精炼后的骨架。(b)最终结果。(c)真实情况。在(b)中,黄色圆圈表示成功重新连接的道路段;蓝色圆圈代表剩余的不连续性,而红色圆圈指代错误的连接。图9展示了从CHN6-CUG数据集和DeepGlobe数据集中选出的六个代表性示例。通过比较原始图像、预测结果、细化结果和真实标签,图9展示了所提出后处理方法的有效性和局限性。如图9b所示,PSPNet产生的初始分割结果包含几个不连续性或缺失的道路段,特别是在狭窄道路或道路部分被周围物体遮挡的区域。应用所提出的连通性细化程序后,如图9c所示,几个先前不连续的道路段成功重新连接,从而提高了道路网络的总体连续性。图9展示了所提出的连通性细化框架在两个数据集上的有效性示例。(a,e)原始图像;(b,f)预测结果;(c,g)细化结果;(d,h)真实情况。同时,也观察到一些错误或错误的连接,通常发生在原始预测已经包含误导算法误解道路结构的错误信息的情况下。此外,现实世界的道路网络往往具有不规则的几何形状,宽度不同、形状弯曲且交叉点复杂。这些特性给纯粹基于拓扑的细化策略在每个情况下完美重建道路网络带来了挑战。因此,尽管所提出的后处理方法在许多情况下有效地提高了连通性,但其性能在一定程度上仍依赖于初始分割结果的质量。4. 讨论 4.1. 分割模型分析尽管最近提出的几种分割架构,包括SegFormer、Swin Transformer、ConvNet和BiSeNet V2,在各种语义分割基准测试中表现优异,但本研究的实验结果表明,PSPNet在CHN6-CUG和DeepGlobe数据集上的道路提取性能相对更好。这种现象可以归因于几个与任务相关的因素。在最近的道路提取研究中也有类似的观察结果,其中基于CNN的架构或其改进版本在某些场景中仍然优于基于Transformer的分割模型[9,41]。首先,PSPNet非常适合提取如道路这样的长条形结构。它的PPM在多个空间尺度上聚合上下文信息,有助于捕捉长而连续的道路模式。尽管基于Transformer的模型也可以通过自注意力来建模长距离依赖性,但本文中使用的数据集由裁剪的图像瓦片组成,这限制了可用的空间上下文,并可能减弱全局注意力的优势。其次,许多基于Transformer的分割模型是为复杂的多类语义分割任务设计的。相比之下,本研究关注的是二元道路提取问题,其中所有其他土地覆盖类型都被视为背景。在这种情况下,具有强结构归纳偏见的基于卷积的架构仍然可以表现出竞争力。第三,训练数据的规模也可能影响模型性能。基于Transformer的模型通常受益于非常大的训练数据集,而本研究中使用的数据集规模相对较小。因此,这些架构的优势可能无法得到充分发挥。4.2 基于图的连通性细化框架分析实验结果验证了所提出的基于图的细化框架显著缓解了像素级分割中固有的碎片化问题。与传统形态学操作不同,我们方法的核心优势在于多源成本建模和方向感知路径规划的集成。尽管有这些改进,但在复杂的拓扑场景中仍然存在一些局限性。一个主要问题是邻近引起的错误连接,特别是在具有密集平行道路结构的区域,成本函数可能缺乏足够的区分能力。此外,该框架在区分意外断裂和故意设计的死胡同(例如丁字路)方面也存在挑战。此外,后处理策略的有效性,特别是道路宽度恢复,仍然高度依赖于初始分割的质量。如果初始二值掩膜不均匀或由于严重遮挡而显著变窄,基于距离变换的宽度估计可能会产生不一致的结果,导致恢复的路段出现几何失真。最后,在具有不同空间分辨率的多种场景中实现鲁棒的泛化能力仍然是一个挑战。为了解决这些局限性,确定了几个有前景的未来研究方向。首先,可以将更高阶的拓扑约束(如曲率连续性)整合到图构建中,以更好地区分相交和不相交的路段。其次,为了减少对初始分割质量的依赖,除了依赖于纯启发式的成本函数和事后宽度估计外,结合可学习的连通性模块是一个有前途的方法。通过训练模型直接从局部图像块和全局上下文中预测链接概率和几何参数,该框架有可能补偿初始分割错误,实现更稳定、物理上一致的街道重建。4.3 在GIS任务中的应用潜力从地理空间的角度来看,保持连通性的价值不仅在于提高提取道路的视觉完整性,还在于增强其在下游空间分析中的功能性。在许多地理信息系统(GIS)工作流程中,道路数据不是作为栅格掩膜使用,而是作为支持拓扑感知操作(如连通性查询、最短路径分析和交通网络建模)的网络结构。为了进一步探索所提出的连通性细化方法在支持GIS任务中的潜力,进行了一个简单的模拟路由实验。如图10所示,在道路骨架网络内选择起点和终点,以分析细化过程前后的路由性能。结果突显了路径可达性的提高。在图10a中,阴影或遮挡造成的间隙常常导致路由算法在坐标之间存在断裂时失败。此外,细化优化了路径质量。即使在原始输出中存在冗余连接,破碎的网络也常常迫使路由绕道。在图10b中,我们的框架使得规划更短、更符合地理逻辑的路径成为可能。这些发现证实,所提出的恢复方法不仅解决了道路不连续性问题,还提高了提取网络的可靠性,适用于物流和交通模拟等实际应用。图10. (a)初始骨架与(b)细化骨架之间的路由性能比较。绿色和蓝色点分别代表起点和终点,黄色线表示生成的路线。5. 结论在本文中,我们提出了一种结合基于深度学习的语义分割和基于图的后处理的方法。通过设计多源成本函数和方向感知的Dijkstra搜索算法,我们的方法有效地弥合了像素级语义分割和拓扑一致性之间的差距。在城乡数据集上的实验结果表明,所提出的方法显著增强了道路网络的结构连续性,这体现在Conn和MIoU指标的显著改善上。具体来说,在CHN6-CUG数据集上,Conn指标提高了0.1989,而MIoU仅下降了1.07%;同样,在DeepGlobe数据集上,Conn指标提高了0.3055,而MIoU下降了0.45%。这些结果表明,我们的细化策略在拓扑连通性上取得了提升,同时在像素级精度上的代价很小。总体而言,所提出的方法生成了物理上一致的道路实体,适用于GIS和导航应用。未来的工作将集中在通过可学习的连通性模块和多模态数据集成来提高系统的适应性,确保在大型和复杂的地理空间环境中具有稳健的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号