利用卷积神经网络-变换器（CNN-Transformer）从高分辨率太空遥感影像中提取城市建筑占地面积并估算建筑高度张园（Yuan Zhang），邓家怡（Jiayi Deng）和严文嘉（Wenjia Yan）

《Remote Sensing》：Urban Building Footprints Extraction and Heights Estimation from High-Resolution Spaceborne Remote Sensing Imagery Using a CNN-Transformer Network Yuan Zhang, Jiayi Deng and Wenjia Yan

【字体：大中小】 时间：2026年05月11日 来源：Remote Sensing 4.1

编辑推荐：

　　亮点：主要发现是什么？本文提出了一种混合型的CNN-Transformer网络（SECT-Net），用于从高分辨率光学图像中提取建筑物轮廓和阴影。该网络基于阴影几何特性，仅使用单日期光学图像和卫星采集参数即可估算建筑物高度，从而无需立体数据、LiDAR或DSM标签。主要发现

　　亮点：
主要发现是什么？本文提出了一种混合型的CNN-Transformer网络（SECT-Net），用于从高分辨率光学图像中提取建筑物轮廓和阴影。该网络基于阴影几何特性，仅使用单日期光学图像和卫星采集参数即可估算建筑物高度，从而无需立体数据、LiDAR或DSM标签。

主要发现的意义是什么？所提出的框架显著降低了数据依赖性和采集成本，为大规模2D-3D城市映射提供了一种实用解决方案。该方法还可以扩展到多时相图像，用于建筑物变化检测和灾害评估，支持基于遥感的城市分析和管理。

摘要：
在高分辨率多光谱遥感图像中准确提取建筑物轮廓和可靠地估算建筑物高度在复杂的城市环境中面临诸多挑战，这些环境具有多样的建筑结构、不规则的阴影模式和普遍的遮挡现象。本研究提出了一种稀疏的、考虑边缘特征的卷积-Transformer神经网络模型SECT-Net，可以从覆盖中国上海的高分辨率吉林-1号多光谱图像中精确提取建筑物轮廓及其投射的阴影。随后开发了一种基于阴影的高度估算流程，通过阴影长度来表征建筑物高度。实验结果表明，SECT-Net在建筑物轮廓提取方面表现出色，其交并比（IoU）为77.96%，F1分数为87.62%，总体准确率为97.16%。整个上海地区的75万余栋建筑物的高度得到估算，R2值为0.74，均方根误差（RMSE）为5.66米。建筑物高度的轻微系统低估是由于高层建筑物的遮挡以及密集城区住宅区植被的干扰所致。研究表明，SECT-Net能够从高分辨率的太空遥感图像中准确、精确地提取建筑物轮廓。估算出的建筑物高度为城市形态分析和城市规划及科学管理中的建筑物监测提供了可靠的基础。

1. 引言：
快速的城市化进程导致全球超过一半的人口居住在城市地区，预计到21世纪中叶，未来近三分之二的人口增长将发生在城市[1]。城市人口的增长推动了土地的密集使用和建筑物的垂直扩展，形成了高度密集、紧凑的城市环境。作为人类活动的主要场所，建成环境对城市形态、社会经济结构、热景观和生态条件有着重要影响[2]。尽管二维（2D）城市特征（如建筑物轮廓、不透水面和城市边界）引起了广泛关注，但城市结构的垂直维度却相对较少受到重视[3]。三维（3D）城市结构显著影响通风走廊、污染扩散[4]、地表径流、城市热岛[5,6]、人口分布、交通模式和碳排放[7,8,9]。因此，作为关键的三维参数，建筑物高度对于人口估算、能源和碳评估、城市监测、灾害评估、三维建模以及城市土地规划至关重要。
建筑物轮廓是建模城市空间结构的基本数据，广泛应用于城市扩展监测、灾害管理和建筑统计。传统的提取方法主要依赖于高分辨率遥感图像处理和分类规则，如阈值分割、边缘检测和形态学操作[10,11,12]。这些方法通常利用具有清晰结构的建成场景中的光谱、几何和空间分布特征。然而，在建筑类型多样且遮挡严重的复杂城市环境中，它们往往无法准确区分建筑物与其他高反射物体，从而降低了鲁棒性和适应性。基于对象的图像分析（OBIA）作为一种有效替代方案，通过将高分辨率遥感图像分割成有意义的对象，并使用光谱、纹理和形状等多维特征进行分类[13,14]。一些结合了传统图像分割和机器学习分类器（如SVM、Random Forest和AdaBoost）的方法显著提高了建筑物识别的准确性和可解释性[15,16]。然而，这些方法仍存在特征工程复杂、参数敏感性以及在大规模应用中的可扩展性和泛化能力有限的问题[17]。
近年来，深度学习（DL）技术已成为从遥感图像中自动提取建筑物轮廓的主流方法。基于卷积神经网络（CNN）的像素级语义分割模型，如U-Net、SegNet和DeepLab系列，由于其能够捕捉局部空间细节并划分相连的建筑物区域而得到广泛应用[18,19]。实例分割框架，包括Mask R-CNN和基于YOLO的方法，进一步实现了在密集城市场景中的精确建筑物定位和边界提取[20,21]。最近，基于Transformer的架构，如Swin Transformer和SegFormer，通过模拟长距离依赖性和融合多尺度上下文信息，提高了在复杂城市环境中的建筑物感知能力[22]。一些研究进一步加入了注意力机制、考虑边缘的模块和深度监督，以提高对建筑物边界、形态细节和空间上下文的敏感性[23,24,25]。
尽管取得了这些进展，CNN和Transformer仍存在固有的局限性。基于CNN的模型在捕捉细粒度局部特征和保持边界细节方面表现良好，但受限于有限的感受野和不足的全局上下文建模能力。相比之下，Transformer在捕捉长距离依赖性方面表现出色，但由于其基于补丁的表示方式和全局注意力机制，往往难以保持精确的空间细节和清晰的物体边界。此外，它们的计算复杂性可能进一步限制了在高分辨率遥感任务中的效率[26]。
为了解决这些挑战，混合型的CNN-Transformer架构应运而生，成为一种有前景的解决方案。代表性的混合架构，如TransUNet[27]和CoAtNet[28]，证明了在密集预测任务中将卷积操作与基于Transformer的全局建模相结合的有效性。在遥感领域，UNetFormer[29]、CMTFNet[30]和CTMFNet[31]进一步将这一范式应用于具有大范围空间和多尺度物体分布的复杂场景，提高了城市场景理解的分割性能。
随着方法学的进步，已经发布了若干大规模建筑物轮廓数据产品，包括GAABLE[32]、90_cities_BRA[33]和东亚建筑数据集[34]，这些产品在国家和大陆尺度上提供了广泛的空间覆盖。尽管这些产品具有广泛的应用性，但大多数现有的轮廓产品主要依赖于基于CNN的架构，如DeepLabv3+、BE-Net和OCRNet。由于感受野有限和全局上下文建模不足，这些方法经常产生不规则或破碎的轮廓，无法完全提取大型建筑物，忽略小型结构，或在建筑物多边形内部生成空洞[30]。这些问题限制了它们在细粒度城市分析和三维建模应用中的可靠性。
建筑物高度估算是三维城市映射的另一个关键且具有挑战性的组成部分。传统的基于现场的调查方法虽然准确度很高，但劳动密集、成本高昂且不适用于大规模应用[35]。基于遥感的方法，包括立体成像、LiDAR和干涉测量SAR（InSAR），提供了有效的替代方案。LiDAR可以获得高精度的三维点云，但受到高采集成本和有限空间覆盖范围的限制[36,37]。InSAR可以实现大范围高度估算，但在密集城市区域存在相位展开误差和不稳定性的问题[38,39]。基于阴影的方法利用阴影长度、太阳光照参数和卫星观测几何关系来估算建筑物高度，使用单日期高分辨率光学图像提供了一个经济高效的解决方案[40,41,42]。然而，其准确性可能会受到阴影边界模糊、阴影重叠或地形不均匀的影响。
也开发了几种建筑物高度产品，如GHSL-2023[43]、WSF 3D[44]和CBH-10m[45]，它们在区域或全球尺度上提供网格化的高度信息。然而，它们相对粗糙的空间分辨率使得难以将高度值与单个建筑物建立关联。只有少数建筑物轮廓数据集包含高度属性。例如，GAABLE采用了一种基于DL的高度估算框架，并由立体生成的DSM数据进行监督[32]。然而，这类高质量DSM产品的可用性和时间更新频率仍然有限，特别是在快速发展中的城市。3D-GloBFP采用基于XGBoost的回归框架，但需要包括遥感图像、社会经济指标、DEM和DSM在内的大量多源数据[46]，导致数据依赖性和计算复杂性较高。其他产品，如CMAB，提供了丰富的建筑属性，包括高度、功能和年龄，但仅限于部分城市区域，并缺乏连续的空间覆盖[47]。此外，许多最新方法依赖于高质量的参考高度数据集进行监督学习，其时间代表性直接限制了衍生建筑物高度产品的及时性，更新此类数据集通常成本高昂且耗时。
为克服这些限制，本研究开发了一种以建筑物为中心的表示框架，使用高分辨率光学图像进行大规模城市分析时减少数据依赖性。在此框架中，建筑物轮廓提取和阴影检测被定义为重要的中间任务，为后续的高度推断提供关键的几何线索。设计了一种混合型的CNN-Transformer网络，以联合建模局部空间细节和全局上下文依赖性，从而从单源光学图像中可靠地提取建筑物轮廓和阴影。提取的阴影信息随后被整合到基于卫星成像参数的几何驱动的高度估算公式中。与依赖立体图像、LiDAR或带有DSM标签的监督学习的方法相比，所提出的框架仅需要高分辨率光学图像和卫星采集几何信息，从而显著降低了数据依赖性和采集成本。该框架以上海为例进行了验证，展示了其自动生成建筑物轮廓和高度的潜力。所提出的框架还可以扩展到多时相图像，用于建筑物变化检测和灾害影响评估，为城市管理和基于遥感的3D城市分析提供了巨大潜力。

2. 材料与方法
2.1. 研究区域和数据集
2.1.1. 研究区域
研究区域上海位于中国东海岸（图1）。作为中国人口最密集和高度城市化的特大城市之一，上海是国家经济、金融和航运的中心。上海的地形非常平坦，坡度一般低于2°，海拔变化可以忽略不计，这最小化了基于阴影的高度估算中的地形影响。市中心区域以密集且多样的建筑类型为特征，包括高层商业、住宅和工业建筑，高度变化较大。相比之下，郊区（如青浦、奉贤和崇明）由低密度、分布不规则的建筑物与植被、水体和农田混合组成。这种明显的城乡差异为多尺度建筑物提取和高度估算提供了典型的景观。
2.1.2. 遥感数据
本研究中使用的双重时间序列遥感数据来自由长光卫星科技有限公司（长春，中国）运营的吉林-1号高分辨率光学卫星星座。具有1米空间分辨率的多光谱数据提供了关于建筑物边界和纹理的详细信息。第一组数据采集于2024年5月15日，云量较少，用于建筑物轮廓提取。第二组数据采集于2024年2月16日，在较低的太阳高度条件下，提供了适合阴影检测和高度估算的细长建筑物阴影。为了确保空间一致性，这两个时间序列数据在像素级别进行了几何配准，实现了建筑物轮廓与其对应阴影之间的准确对齐。
共选择了上海各地500个图像块，每个图像块的大小为512×512像素。采用了分层采样策略以满足空间异质性要求。农村地区的同质区域采样较稀疏，而复杂的城市区域采样较密集。这确保了样本的代表性及模型的泛化能力。
2.1.3. 建筑物轮廓和阴影的标签生成
建筑物轮廓和阴影的真实标签是基于吉林-1号图像手动标注的。对于建筑物轮廓，只标注了具有规则几何结构的清晰屋顶边界，而临时结构和模糊物体被排除在外。对于阴影标签，仅标注了建筑物投射的阴影，基于它们与建筑物和太阳光照方向的空间关系。树木、车辆和其他物体投射的阴影被排除在外。对于模糊的情况，如黑暗的屋顶，通过空间背景和光照方向进行了仔细区分。部分被植被遮挡的建筑物根据可见的屋顶边界进行标注。为了确保标签质量，所有标注都由第二名标注者独立审核，并通过手动验证纠正了不一致之处。
2.1.4. 建筑物高度验证的参考数据
建筑物高度验证使用了两种类型的参考数据。首先，使用了来自高分-7（GF-7）立体图像的1米分辨率数字表面模型（DSM），覆盖了上海大约70%的面积。GF-7数据由于具有很高的空间和垂直精度，提供了可靠的高度信息。其次，使用了高分辨率无人机LiDAR数据进行局部验证。基于LiDAR的数字表面模型（DSM）（分辨率为6厘米和10厘米）被用来获取110栋建筑的精确高度测量值。建筑高度的测定采用了基于分位数的方法来减少噪声和边缘效应。具体来说，屋顶高度是通过使用每个建筑轮廓内DSM值的第95百分位数来估算的，而地面高度则是通过使用建筑外3米缓冲区内数据的第5百分位数来估算的。建筑高度计算为这两个值之间的差值。2.2 方法论 2.2.1 用于提取建筑轮廓和阴影的网络架构提出了一种稀疏边缘感知的卷积变换器神经网络（SECT-Net）来提取建筑轮廓和阴影。该网络基于UNetFormer架构[29]构建，结合了一个轻量级的CNN编码器和一个基于Transformer的解码器，并采用了全局-局部注意力机制以实现高效的多尺度上下文建模。为了适应从高分辨率的吉林-1遥感图像中提取建筑轮廓的需求，进行了三项修改：（1）多尺度边缘监督模块（MESM）：在编码器的多尺度特征提取过程中，MESM明确监督不同分辨率的边缘信息，以提高网络捕捉精细建筑轮廓细节的能力；（2）双路径CNN-Transformer模块（DP-CTB）：受到稀疏标记Transformer[48]的启发，原始的全局-局部Transformer模块被替换为具有稀疏全局注意力的双路径CNN-Transformer模块，这种设计在保持捕捉全局上下文依赖性的同时，通过稀疏标记采样减轻了冗余的全局交互；（3）多尺度辅助监督（MAS）：在解码器的中间层附加辅助预测头，为多层特征提供额外的监督信号。SECT-Net的整体架构包括一个基于ResNet50的编码器和一个基于DP-CTB的解码器（图2）。编码器从一个卷积主干（Conv Stem）开始，然后依次堆叠四个残差块（ResBlocks），以提取1/4、1/8、1/16和1/32输入分辨率的多尺度特征。在编码阶段，MESM被应用于每个尺度的特征图上，以明确增强对建筑边缘信息的学习。在解码阶段，多尺度特征通过加权整合机制融合，随后通过一系列DP-CTB模块进行逐步特征聚合和语义重建。最后，特征细化头[29]对融合特征进行细化，以生成建筑轮廓和阴影的预测。图2. SECT-Net的整体架构。（1）多尺度边缘监督模块（MESM）边缘信息是建筑提取中的关键细粒度特征。为了增强边界建模，提出的MESM在多个编码器阶段引入了显式的边缘监督，并使用特定于尺度的策略将边缘特征注入解码器。具体来说，编码器输出多尺度特征图，分别对应于浅层和中间层。对于每个尺度，设计了一个轻量级的边缘头来生成相应的边缘预测：其中表示第i个尺度上的预测边缘图。实现为一个由3×3卷积、批量归一化和ReLU激活组成的轻量级卷积模块，后接一个1×1卷积用于通道投影。为了有效利用边缘信息，针对不同尺度采用了不同的整合策略。对于中间层，预测的边缘图与沿通道维度连接起来，形成增强的特征表示：其中表示沿通道维度的连接。对于浅层，使用更精细的边缘预测通过空间门控机制指导特征细化：其中表示元素级乘法，是通过1×1卷积从得到的可学习门控图。这种机制使网络能够在重建过程中关注细粒度的边界细节。在训练期间，通过栅格化建筑轮廓向量并提取内部边界生成边缘真实值，产生单通道掩码用于监督。（2）双路径CNN-Transformer模块（DP-CTB）为了平衡全局结构一致性和局部细节准确性，提出了一种DP-CTB（图3a）。该模块包括一个局部卷积分支和一个稀疏全局注意力分支。图3. 注意力机制。其中（a）展示了稀疏全局-局部Transformer模块的结构，（b）展示了空间-通道标记采样器的细节。给定一个输入特征图，局部分支旨在使用深度可分离卷积捕捉细粒度的空间和通道交互，然后通过挤压-激励机制进行通道重新校准，得到局部特征表示。为了促进全局上下文建模，全局分支首先通过1×1卷积将输入投影到一个减少的特征空间。然后使用空间-通道标记采样器（图3b）从空间和通道维度选择信息丰富的标记。对于空间标记采样，采用三路策略来增强多样性和鲁棒性：块感知采样确保均匀的空间覆盖，边界感知采样通过梯度幅度估计强调高梯度区域（例如，物体轮廓），区域感知采样关注语义上突出的区域。采样的标记被聚合为：其中表示沿通道维度的连接。随后，基于从全局池化特征派生的通道重要性选择通道标记，并进一步聚合以产生通道级别的调制。在实践中，空间和通道标记的数量分别固定为=196和=32。对于空间采样，块感知、边界感知和区域感知标记的比例分别设置为0.3、0.3和0.4。基于采样的标记，执行位置增强的稀疏注意力：其中表示查询、键和值矩阵，表示可学习的位置嵌入。被关注的标记通过交叉注意力投影回空间域，产生空间全局特征图。同时，通道注意力产生通道增强特征图。空间和通道全局特征被连接并投影：最后，局部和全局分支的输出被自适应融合：其中是一个可学习的平衡因子。DP-CTB通过结构感知的稀疏建模策略有效地整合了细粒度的局部细节和长距离的结构依赖性。与执行密集的全局交互相比，所提出的标记采样机制选择性地关注信息丰富的空间区域（例如，边界和显著区域），从而减少了冗余计算，同时保留了代表性的全局上下文。（3）多尺度辅助监督（MAS）为了增强语义一致性并促进优化，引入了一个多尺度辅助监督模块到多阶段解码器特征中。具体来说，解码器在不同阶段生成三个中间特征图：在这里，来自最深层的解码器阶段，包含最丰富的语义信息，而来自较浅阶段的则保留了更多的局部细节。对于每个特征图，设计了一个轻量级的辅助头来生成相应尺度的概率图：其中表示第i个尺度上的预测概率图。每个由一个3×3卷积的卷积块组成，后接批量归一化和ReLU激活、一个dropout层，以及一个1×1卷积用于通道投影。在训练期间，这些辅助预测被上采样到原始输入分辨率，以计算损失并提供监督。这种设计有助于梯度传播到浅层，加速模型收敛，并增强跨多个尺度的语义表示能力。（4）损失函数在训练阶段，所提出的网络由一个复合损失函数进行监督，该函数包括三个组成部分：主要损失、辅助损失和边缘损失。总体损失可以表示为：其中和分别是辅助损失和边缘损失的权重系数。在我们的实验中，默认设置为0.4和0.2。主要损失监督建筑轮廓和阴影的最终预测。它被构建为软Dice损失和交叉熵损失的组合：其中表示在预测概率上计算的软Dice损失，表示逐像素的交叉熵损失。辅助损失旨在指导解码器内的中间特征表示。它应用于辅助头的输出，这些辅助头处理来自多个解码器阶段的特征以生成辅助预测。遵循与主要损失相同的公式，每个辅助预测都使用Dice损失和交叉熵损失的组合进行监督：其中表示分配给第i个辅助预测的权重。和分别表示为第i个辅助预测计算的损失。在我们的实现中，辅助损失的权重设置为，其中较浅的特征被赋予较大的权重以强调细粒度细节。在训练期间，两个边缘预测都在原始图像分辨率下进行监督。为了处理边界像素和非边界像素之间的严重类别不平衡，采用了动态加权的二进制交叉熵损失。此外，引入了Dice损失来强制预测边缘的结构一致性。最终边缘损失定义为两个尺度的加权组合：（2.2.2 基于阴影长度的建筑高度估计基于单视图高分辨率图像的阴影高度估计被广泛使用。建筑高度是根据提取的阴影长度以及几个关键的成像几何参数计算得出的，如太阳高度角、太阳方位角、传感器高度角和传感器方位角（图4）。图4. 建筑物和阴影之间的几何关系示意图：（a）太阳在对面的传感器，（b）太阳在同一侧的传感器。当太阳和传感器位于建筑物的对面时，传感器可以捕捉到建筑物的完整地面阴影BC（图4a）。建筑高度H通过以下公式计算：当太阳和传感器位于建筑物的同一侧时，阴影的一部分（图4b中的BE段）可能会被建筑物本身遮挡，因此无法完全观察到。在这种情况下，图像中测量的阴影长度表示为，它对应于沿传感器视线（EC）的投影，并且是从检测到的建筑屋顶面积和阴影区域得出的（图4b）。然后使用以下几何校正公式计算建筑高度H：其中表示传感器高度角，β表示太阳高度角，θ表示太阳方位角，γ表示太阳方位角。表示图像中测量的阴影长度，它对应于对面情况（图4a）中的完整地面阴影BC和由于部分遮挡而只能观察到的一部分阴影EC（图4b）。用于基于阴影长度计算高度的吉林-1图像是在2024年2月16日获取的。获取时的太阳高度角和方位角分别为40.8°和149.2°。卫星的高度角和方位角分别为81.1°和148.8°。太阳和传感器都位于建筑物的同一侧。首先使用每个提取的建筑物的轮廓和阴影几何形状进行阴影遮挡检测（图5）。建筑轮廓经常落在相邻建筑物投射的阴影内。当轮廓面积的大部分被相邻阴影覆盖时，建筑物自身的阴影区域变得难以可靠识别，导致阴影长度测量不稳定。在这项研究中，采用了70%的重叠比率阈值来过滤掉严重遮挡的样本。超过此阈值的建筑物被排除在进一步分析之外。图5. 基于阴影长度估计建筑高度的工作流程。红色轮廓表示用于自遮挡检测的建筑轮廓边界。根据太阳方位角，沿着建筑边界均匀生成投影采样点（N=50）。只保留位于阴影面向侧的点，每个建筑物大约有20-30个有效的采样点。对于每个有效采样点，沿着太阳照明方向进行像素级别的阴影追踪，直到遇到非阴影像素。因此，为每个建筑物生成了多个候选阴影长度样本。为了减少屋顶自遮挡和附近建筑物遮挡的影响，所有候选阴影长度样本都经过了异常值过滤程序[50]。具体来说，首先计算了一组阴影长度的均值和标准差，然后当满足条件时去除样本：对于每个建筑物，有效阴影长度定义为通过质量控制程序的所有高质量阴影长度样本的平均值。这个代表性的阴影长度随后用于使用公式（15）计算建筑高度。 2.2.3 比较方法和评估矩阵在我们的实验中，将几种代表性的深度学习方法（包括U-Net [51]、DeepLabV3+ [52]、Swin-UNet [53]、SegFormer [54] 和 UNetFormer [29]）与提出的SECT-Net进行了比较。这些方法涵盖了基于CNN的以及最近的基于Transformer的分割架构，以确保全面的评估。为了确保公平比较，所有模型都在相同的数据集上进行了训练，具有相同的训练/验证/测试分割（8:1:1），在patch级别上，每个样本对应一个512 × 512的不重叠图像瓦片，确保样本之间没有空间重叠。所有模型都使用了AdamW优化器进行了100个周期的训练，批量大小为8。对于基于CNN的模型（例如U-Net和DeepLabV3+）和CNN-Transformer混合模型（例如UNetFormer和SECT-Net），采用了ResNet50作为主干网络，统一的学习率为6 × 10^-4。对于基于Transformer的模型（例如Swin-UNet和SegFormer），我们遵循了它们通常推荐的训练配置，以确保稳定且具有竞争力的性能。在架构方面，Swin-UNet使用分层Swin Transformer作为编码器，而SegFormer采用MiT-B2主干网络，两者提供的模型能力与ResNet50大致相当。为了减轻过拟合并提高模型性能，对训练数据集应用了数据增强技术，包括随机垂直和水平翻转以及随机旋转。

使用了三个广泛使用的像素级评估指标，即交并比（IoU）、F1分数和总体准确率（OA），来定量评估建筑物轮廓和阴影的分割性能。这些指标是根据测试集上的像素级分类结果计算得出的，并对所有测试图像进行平均。它们的计算公式如下：

对于建筑物高度估计，使用了均方根误差（RMSE）和平均绝对误差（MAE）来进行评估：

3. 结果
3.1. 建筑物轮廓和阴影映射模型的性能评估
表1中的评估指标展示了所提出的SECT-Net和几种代表性深度学习方法在建筑物轮廓和阴影提取方面的分类性能。总体而言，SECT-Net在大多数评估指标上表现出竞争力强且稳定的性能。在建筑物轮廓提取方面，SECT-Net在IoU（77.96%）、F1分数（87.62%）和OA（97.16%）方面获得了最高分数。在阴影提取方面，SECT-Net也表现优异，其IoU、F1分数和OA值分别为75.01%、85.72%和97.75%。

为了进一步评估观察到的性能差异是否具有统计学意义，我们使用单侧Wilcoxon符号秩检验进行了统计显著性分析。选择单侧检验是基于一个先验假设，即SECT-Net的性能优于基线方法。具体来说，该检验是对测试集中每张图像的总体准确率（OA）的配对分布进行的（N = 50）。统计比较是在单个图像样本上进行的，而不是聚合的平均值。结果总结在表2中。表2显示，与所有基线方法相比，SECT-Net在统计上显示出显著的性能提升（p < 0.05）。相比之下，在阴影提取方面，与DeepLabv3+、SegFormer和UNetFormer相比观察到统计学上的显著改进，而与U-Net和Swin-UNet的差异则不显著（p ≥ 0.05）。这表明，尽管SECT-Net在阴影提取方面的平均性能略高，但这种改进并不是在所有测试样本中都一致观察到的。阴影特征的变异性，如低对比度和不规则的边界，可能导致模型之间的性能差异不稳定，从而降低了统计显著性。

如图6所示，所提出的SECT-Net产生的建筑物分割结果结构更加连贯，完整性得到提高，有效减少了碎片区域和内部空洞。传统的基于CNN的方法，如U-Net和DeepLabv3+，由于其有限的感受野，更容易受到局部外观变化和图像噪声的影响，因此常常产生不规则的边界，并且容易出现片段化预测或内部空洞。基于Transformer的方法，包括Swin-UNet和SegFormer，通过建模全局上下文来提高整体的结构一致性。然而，它们在建筑布局复杂或对比度低的区域仍可能遇到边界模糊或不完整的问题。UNetFormer在前景-背景对比度清晰的场景中表现出竞争力，但其预测在边界模糊或建筑物间距紧密的具有挑战性的区域会退化。相比之下，通过结合多尺度边缘监督和全局-局部上下文建模，SECT-Net实现了更准确且结构更一致的建筑物 delineation，特别是在复杂的城市场景中。

3.2. 建筑物轮廓和高度的空间分布
使用所提出的SECT-Net，我们获得了整个上海完整且空间一致的建筑物轮廓。如图8所示，提取的建筑物在异质的城市环境中展现出多样的形态特征。具体来说，典型模式包括整合了住宅、商业和服务功能的混合用途城市区域（图8a）、具有规则几何形状的大规模工业综合体（图8b）、低密度别墅型住宅区（图8c）、分散宅基地的乡村住宅区（图8d）、具有大型结构化设施的沿海港口和物流区（图8e），以及以高度紧凑和不规则建筑布局为特征的城市村庄（图8f）。

使用所提出的SECT-Net，我们获得了上海整体上完整且空间一致的建筑物轮廓。如图8所示，提取的建筑物在异质的城市环境中展现出多样的形态特征。具体来说，典型模式包括整合了住宅、商业和服务功能的混合用途城市区域（图8a）、具有规则几何形状的大规模工业综合体（图8b）、低密度别墅型住宅区（图8c）、分散宅基地的乡村住宅区（图8d）、具有大型结构化设施的沿海港口和物流区（图8e），以及以不规则和高密度非正式定居点为特征的城市村庄（图8f）。红色边框框表示提取的建筑物轮廓边界。在研究区域内，使用基于阴影的高度估计方法（图9d）获得了755,996栋建筑物的高度，并与局部LoD-1 3D建筑模型（图9f）对齐。在高度统计方面，571,440栋建筑物（76%）的高度低于10米，表明上海主要由低层住宅建筑组成。高度在10至30米之间的建筑物占总数的19%（143,204栋）。只有323栋高层建筑的高度超过100米（即总数的<1%），它们主要集中在黄浦、静安和虹口等中心城区，以及浦东的陆家嘴地区。高层建筑的空间分布呈现出明显的核心-边缘模式，密集集中在中央商务区，只有少数分布在郊区。

3.2. 建筑物轮廓和高度的空间分布
使用所提出的SECT-Net，我们获得了整个上海完整且空间一致的建筑物轮廓。如图8所示，提取的建筑物在异质的城市环境中展现出多样的形态特征。具体来说，典型模式包括整合了住宅、商业和服务功能的混合用途城市区域（图8a）、具有规则几何形状的大规模工业综合体（图8b）、低密度别墅型住宅区（图8c）、分散宅基地的乡村住宅区（图8d）、具有大型结构化设施的沿海港口和物流区（图8e），以及以不规则和高密度非正式定居点为特征的城市村庄（图8f）。红色边框框表示提取的建筑物轮廓边界。在研究区域内，使用基于阴影的高度估计方法（图9d）得出了755,996栋建筑物的高度，并与局部LoD-1 3D建筑模型（图9f）对齐。在高度统计方面，571,440栋建筑物（76%）的高度低于10米，表明上海主要由低层住宅建筑组成。高度在10至30米之间的建筑物占总数的19%（143,204栋）。只有323栋高层建筑的高度超过100米（即总数的<1%），它们主要集中在黄浦、静安和虹口等中心城区，以及浦东的陆家嘴地区。高层建筑的空间分布呈现出明显的核心-边缘模式，密集集中在中央商务区，只有少数分布在郊区。

4. 讨论
4.1. SECT-Net的消融测试
为了评估所提出的SECT-Net中每个组件的贡献，我们在Jilin-1数据集上进行了建筑物轮廓和阴影提取的消融实验。基线模型采用了UNetFormer架构实现，该架构以ResNet-50作为骨干网络，并保持了原始规格。两项任务的定量结果均列在表5中。表5显示，引入MESM后，建筑轮廓的IoU从75.72%提高到了77.05%，阴影轮廓的IoU从74.13%提高到了74.93%，证明了MESM在增强两种类型物体边界定位方面的有效性。通过利用多尺度特征聚合和显式的边缘监督，MESM产生了更清晰、更完整的轮廓。然而，由于其对于局部梯度变化的敏感性较强，MESM容易受到建筑物屋顶纹理和色调变化的影响，导致在轮廓和阴影预测中出现内部空洞和偶尔的误报。当结合DP-CTB时，建筑的IoU提升至77.40%，阴影的IoU提升至74.66%。如图11所示，DP-CTB有效地捕捉了长距离的上下文依赖性，从而抑制了噪声并提高了两项任务的区域一致性。与MESM相比，DP-CTB在抑制斑点噪声和减少内部空洞方面表现更好，分割结果更加完整和流畅。为了验证MAS模块的有效性，我们通过将MAS单独集成到基线模型中进行了对比实验。表5显示，MAS模块将IoU进一步提高到了76.84%（建筑）和74.55%（阴影）。MAS提供了多尺度的语义监督，减轻了梯度消失问题，并增强了深层和浅层之间的特征交互。这提高了模型的稳定性和训练效果，同时减少了斑点噪声，定性结果也显示预测与真实值之间的对齐度更好。图11展示了在Jilin-1测试集上建筑轮廓和阴影提取的消融结果可视化。红色框标出了不同方法之间局部细节比较的代表区域。此外，当MESM与DP-CTB和MAS联合使用时，模型的性能达到最佳，建筑的IoU达到了77.96%，阴影的IoU达到了75.01%。这表明这三个模块是互补作用，而不是独立组件。具体来说，MESM增强了边界感知能力，DP-CTB捕捉了长距离的上下文依赖性，MAS在优化过程中提高了多尺度特征的一致性。它们的联合使用促进了有效的特征交互。边缘增强的特征支持全局上下文建模，而全局表示有助于抑制局部噪声，从而实现了更准确、更稳定的分割。为了进一步验证所提出的DP-CTB中关键超参数的选择，我们对令牌采样策略进行了敏感性分析，包括空间令牌的数量、通道令牌的数量以及块感知、边界感知和区域感知令牌的采样比例。定量结果呈现在表6中。表6显示，当空间令牌数量为196时性能达到峰值，超过这个数量会导致性能下降，表明过多的空间令牌可能会引入冗余信息和不必要的计算开销；当通道令牌数量为32时，虽然略微提高了阴影提取的准确性，但略微降低了建筑分割的准确性，表明过于密集的通道交互带来的好处有限。对于采样比例，单一策略的采样一致性地表现不佳，而混合策略则表现更好，这证实了块、边界和区域线索的互补性。比例0.3/0.3/0.4在两项任务中实现了最佳的平衡。

4.2 不同建筑轮廓产品的比较
我们在上海测试数据集上对我们的建筑轮廓产品与三个现有的大规模数据集——GABLE、90_cities_BRA和East Asian Buildings进行了定量比较（表7）。除了像素级指标（IoU、F1分数和OA）外，我们还加入了边界敏感和实例敏感的指标来全面评估建筑轮廓产品。具体来说，边界F1分数（BF1）[55]用于通过测量预测边界与真实边界之间的对应关系来评估轮廓的准确性，容忍度为预定义的5像素。在本研究中，遵循Guo等人的方法[23]采用了5像素的容忍度。对于实例级评估，计算了向量化建筑多边形的对象级精度、召回率和F1分数。如果预测多边形与真实多边形的一对一匹配下的IoU超过0.5，则被视为真正例[56]。表7显示，我们的方法在像素级、边界级和实例级指标上均取得了显著更好的性能。特别是，它在IoU（71.58%）、F1分数（83.44%）、OA（96.09%）和BF1（88.35%）方面表现优异，显示出更好的空间一致性和轮廓完整性。在实例级别，即使在IoU阈值为0.5的情况下，我们的方法也获得了更高的对象级精度、召回率和F1分数，证明了其在保持向量化轮廓产品中完整建筑对象的更强能力。视觉调查显示，在上海复杂的城市环境中应用现有数据集时存在特征性的结构错误（图12）。对于GABLE数据集，观察到了明显的几何不一致性，包括重叠、错位和向量化建筑轮廓的不连续性。这些问题可能与它基于实例的提取框架和级联轮廓细化有关，这在高密度城市环境中可能不够稳定[32]。90_cities_BRA数据集包含许多碎片化和孤立的片段，突显了基于CNN的DeepLabv3+架构在形成连贯对象级表示方面的局限性[33]。East Asian Buildings数据集倾向于通过边界增强过度规范建筑轮廓，导致不规则或多部分的建筑屋顶边界不准确[34]。这些结果表明，我们提出的方法在异构城市环境中保持了稳健的性能，为后续的建筑高度估计和三维城市建模提供了可靠的基础。图12展示了与现有建筑轮廓提取数据集相比的建筑屋顶的可视化和比较。绿色多边形表示真实建筑轮廓边界，红色多边形表示不同数据集提取的建筑轮廓。相比之下，我们的方法在区分建筑与非建筑物体（如车辆、临时结构和铺砌表面）方面表现更强，同时有效避免了轮廓断裂和过度的几何规范。通过利用基于DL的屋顶分割模型和稳健的轮廓向量化策略，我们的模型在大型城市区域中准确识别了更多的建筑。这些改进源于模型学习建筑相关纹理、材料和结构模式的能力提升，显示出其在结构复杂的城市环境中的优越泛化性能。

4.3 不同建筑高度产品的比较
表8显示，使用单时相Jilin-1图像的基于阴影的方法的RMSE为5.7米。尽管这个值在几个现有大规模建筑高度产品的报告范围内，但需要注意的是，其中一些产品是在较粗的空间分辨率下生成的（例如10米或30米），并且它们的准确性并没有严格量化。尽管如此，比较表明所提出的方法可以在依赖显著更简单的数据输入的情况下实现有竞争力的性能。这些现有产品通常使用集成异构多源数据集的数据驱动框架生成。近年来，单目深度估计已成为建筑高度检索的一个有前景的替代方案[57,58]。例如，GABLE[32]使用基于DL的DSM估计网络，该网络在立体图像导出的参考高度上进行了训练。尽管这样的基于学习的方法可以实现更高的准确性，但它们的性能严重依赖于高质量参考高度数据集和复杂的训练流程。表8显示，在不同的数据和方法设置下建筑高度产品的比较。数据驱动的方法通常需要多个异构数据集和参考高度数据来实施回归。单目深度估计方法主要依赖于高精度的参考高度数据进行监督训练，并且通常需要迁移学习来泛化到没有像素级高度标签的区域[59,60]。相比之下，我们提出的基于阴影的方法利用了建筑阴影和太阳光照之间的显式几何关系，使得高度估计在数据需求极少的情况下也能实现。这一优势使其特别适用于大规模、数据稀缺或时间敏感的城市应用，因为在这些应用中多视图重建或基于深度学习的监督方法难以部署或维护。

4.4 不确定性分析和局限性
尽管所提出的框架表现出了有希望的性能，但仍有多种不确定性可能影响建筑高度估计的准确性。这些不确定性主要来源于阴影提取和轮廓绘制的错误，以及这些错误通过基于几何的估计过程的传播。此外，使用多时相图像可能会导致不一致性。首先，不确定性主要来源于阴影提取和轮廓绘制中的错误及其在基于几何的估计过程中的传播。遮挡、植被干扰和低对比度可能会影响提取的阴影长度的准确性，而轮廓边界的不准确性可能会进一步偏向其测量结果。根据方程（15），高度估计公式可以等效重写为，其中是一个由给定图像的太阳和传感器几何形状决定的常数。这意味着线性误差传播关系。对于本研究中使用的Jilin-1图像，表明几何误差放大可以忽略不计。因此，总体不确定性主要由上游提取错误而不是几何变换本身主导。其次，使用多时相图像进行轮廓和阴影提取可能会引入偶尔的不一致性。尽管应用了几何配准，但由于局部城市动态（如临时结构或建筑活动），仍可能发生差异。因此，从一个获取的数据中提取的阴影可能与另一个获取的数据中的建筑轮廓不完全对应，导致局部阴影-轮廓不匹配。然而，由于两次获取之间的时间间隔相对较短，这类不一致性通常是有限的，只影响少数情况。这些不确定性还体现在高度估计结果中的系统性偏差中。尽管基于阴影的高度估计通常与DSM参考高度有很好的一致性，但观察到了持续的低估（图10）。这种偏差主要是由于密集城市地区的遮挡效应，这在之前的基于阴影的研究中已有广泛报告[49,61]。高层建筑的复杂和不规则几何形状使得准确的轮廓绘制变得具有挑战性。此外，密集城市区域中建筑之间的紧密间距导致严重的阴影遮挡，使得可观察的阴影长度缩短（图13a–c）。对于相对低层的建筑，植被覆盖可能会进一步模糊阴影边界，引入额外的负偏置（图13d–f）。图13展示了遮挡情景：阴影被更高的建筑群遮挡（a–c），以及低层建筑的阴影被树冠模糊（d–f）。红色多边形表示用于参考的建筑轮廓边界。特别是对于高层建筑（>100米），RMSE达到了60.87米。尽管这类建筑只占总样本的一小部分（322栋建筑），但它们的较大误差显著影响了分层准确性结果。这表明单时相基于阴影的方法在极高层的建筑情况下可靠性较低。未来的工作将集中在通过结合在不同太阳高度条件下获取的多时相图像来改进这些具有挑战性的样本的高度估计。太阳能高度角较高的图像（例如5月）产生的阴影较短，可以减少遮挡和阴影投影误差，而冬季图像提供更长、更清晰的阴影，有利于几何估计。结合多时相观测和多视图结果可能会进一步提高高层建筑高度检索的鲁棒性和可靠性。

5. 结论
在复杂的城市环境中，由于空间复杂性和遮挡效应，准确描述建筑轮廓、阴影和高度仍然具有挑战性。本研究系统地研究了从高分辨率空间遥感图像中自动提取城市规模建筑轮廓和高度信息的方法。我们提出了一种混合架构SECT-Net，它整合了CNN和Transformers的优点。实验结果表明，SECT-Net与几种代表性的深度学习分割网络相比，实现了有竞争力且总体上表现更好的性能，从而提高了建筑高度反演的稳定性和可靠性。我们的研究证明了Jilin-1卫星获取的高分辨率多光谱图像在中国上海的建筑映射和高度估计中的可行性。与几个现有的建筑数据集相比，我们提取的建筑轮廓在几何完整性、较少的分割区域和在复杂城市环境中的更高置信度方面表现更好。利用高质量的建筑轮廓，我们开发了一个基于阴影的高度估计框架，为整个城市的超过750,000栋建筑提取了高度。在与两个参考数据集（GF-7 DSM和UAV LiDAR DSM）进行比较时，估算的建筑高度的均方根误差（RMSE）在4.5至6.6米之间，表明了较好的准确性。我们提出的系统工作流程在提取建筑轮廓和估算建筑高度方面在复杂城市环境中表现出了良好的性能。然而，目前的研究仅在上海市进行了验证，该地区的地形相对平坦，城市形态规整。需要进一步研究该方法在其他地形条件（如山区）和不同城市结构地区的适用性。卫星遥感技术正在不断发展，以实现高分辨率图像的获取，这将有助于大规模建筑的精确快速提取。未来的研究将侧重于跨地区的广泛验证和方法上的改进。此外，我们还将探索具有遮挡感知功能的阴影建模、多源异构数据融合以及多视图成像技术，以实现高精度3D城市模型的重建。这项研究为LoD-1 3D城市建模提供了一条潜在的途径，从而支持智能城市的精细化管理。

热点排行