《ADVANCED ENGINEERING INFORMATICS》:Accurate facade parsing based on new facade dataset
编辑推荐:
提出Hznu_Facade高分辨率立面数据集,包含多角度拍摄及透视校正的624张图像,构建了包含密集窗户和玻璃幕墙的多样化建筑场景。创新性提出自动透视校正矩阵计算方法和GLNet网络架构,后者融合细节增强与掩码优化模块,显著提升高分辨率图像中密集元素的分割精度。实验表明GLNet在CMP、CFP、ETRIMS等数据集上优于现有方法。
Xiaolin Zhu|Fan Wu|Junjie Cheng|Weijing Qin|Haichi Ma|Shuchang Xu
杭州师范大学信息科学与技术学院,中国浙江省杭州市311100
摘要
立面解析是城市建模、城市规划和数字孪生城市建设等应用中的关键技术。高分辨率的立面图像对于实现精细的建筑重建尤为重要。然而,现有的立面数据集中很少包含分辨率超过2K的图像。在本文中,我们介绍了一个新的数据集,该数据集包含从不同角度拍摄的更高分辨率的图像,并且窗户分布更加密集。我们还提出了一种新的方法,用于自动计算透视变换矩阵,以生成校正后的立面图像,从而创建数据集的孪生版本。此外,我们引入了一种新的网络GLNet,旨在使用高分辨率图像作为输入来获得更好的立面解析结果。在三个公共数据集(CMP、CFP和ETRIMS)以及我们自己的数据集上的实验结果表明,GLNet在立面分割方面优于现有方法。数据集和代码可在此处获取:
https://github.com/OctAne0113/GLNet引言
随着自动驾驶、遗产保护、城市3D建模、数字孪生城市[1]、[2]和城市导航系统[3]、[4]等应用需求的不断增加,对精确的城市和建筑模型的需求也在扩大,特别是对于细节等级3(LoD 3)和细节等级4(LoD 4)[5]、[6]模型,其中需要准确再现立面细节,如门窗等。在这些模型的构建和应用中,立面解析作为关键技术,已成为实现高精度3D重建的核心问题之一。
建筑立面的语义解析进一步促进了精细的城市管理和研究。例如,通过利用立面的语义分割,我们可以进行定量分析,以确定窗户、空调单元与城市热岛(UHI)效应[7]之间的关联。此外,准确的立面解析技术可用于保护文化遗产,并评估玻璃幕墙对城市居住环境的影响。
立面解析可以定义为对立面图像的语义分割问题,而卷积神经网络(CNNs)[8]、[9]、[10]的快速发展显著增强了这一技术。CNNs在局部特征提取方面的出色能力使其在立面分析领域取得了显著进展。例如,DeepFacade[11]通过多尺度特征提取和全局信息融合有效识别了建筑立面中的复杂结构。Pix2Pix[12]利用生成对抗网络(GANs)[13]、[14]将建筑立面图像转换为精确的分割标签图像。Vision Transformer[15]在语义分割方面展示了巨大的潜力。基于ViT的工作,如Segmenter[16]使用纯Transformer架构实现了端到端的语义分割,显著提高了分割精度,而SegFormer[17]创新地将Transformer与多层感知器(MLPs)结合,构建了一个轻量级的混合模型。
随着实际应用对建筑立面更详细表示的需求不断增加,对更高分辨率立面图像的需求也在增长。此外,多角度图像对于纹理映射等任务至关重要,尤其是完整的正面视图。然而,我们发现现有的公开可用的立面图像数据集(例如CMP Facade Database[18]和ECP数据集[19])的分辨率很少超过2K×2K。当前的研究尚未充分探索不同视角下解析性能的一致性。现有数据集的多样性也有限[20]、[21],而全球的建筑立面布局各不相同。例如,亚洲城市中常见的密集窗户和室外空调单元布局的建筑物图像,以及全玻璃幕墙的图像很少被包含[20]。此外,完整的正面立面图像也很少见[19]。我们还观察到,当前的算法[22]、[23]、[24]在使用高分辨率图像作为输入时仍难以有效捕捉复杂细节。特别是,立面解析算法对立面元素不同稀疏程度的鲁棒性尚未得到充分探索。对于窗户密集排列的立面,这些方法往往无法完全恢复窗户的分布[25]。
为了解决上述挑战,本文提出了一个新的立面数据集hznu_facade。该数据集包含624张使用数码相机和无人机从不同角度拍摄的高分辨率立面图像,包括正面视图。它还包括一个孪生版本的数据集,其中每个立面图像都经过透视变换校正。我们的数据集涵盖了从住宅到商业结构的各种建筑立面,包括常规窗户和全玻璃幕墙。此外,我们介绍了一种自动计算透视变换矩阵的方法和一种便于图像标注的流程。我们还提出了一种新的网络架构,用于从高分辨率立面图像生成改进的分割图。该架构集成了细节增强模块和分割掩码细化模块,使用基于ViT的编码器-解码器框架,提升了模型感知全局和局部特征的能力。本文的主要贡献如下:
(1) 我们发布了一个新的高分辨率立面图像数据集hznu_facade,其中包含多样化的立面场景、更密集的窗户布局以及多种拍摄设备和角度。该数据集通过改进的立面解析为数字孪生城市建设做出了贡献,提供了更详细的元素和额外的校正后的正面视图立面图像。它为评估立面解析算法提供了新的基准,涵盖了不同尺度、视角和不同元素密度的多维性能。
(2) 我们开发了一种自动计算透视变换矩阵的方法,用于生成透视校正后的立面图像。所有校正后的立面图像随后形成了一个孪生数据集hznu_facade_adjust。通过聚合短共面线段,我们的算法可以过滤掉非主要建筑区域的多余线条,并准确识别单个主要建筑平面上的最大四边形,从而显著提高了派生透视变换矩阵的稳定性和准确性。
(3) 我们提出了GLNet,这是一种新的网络架构,集成了边缘提取模块和多尺度特征细化模块。这种设计增强了模型在多分辨率图像和复杂边界区域捕获细节的能力,从而能够更精确地分割立面元素,特别是在高分辨率图像中密集分布的元素,如窗户。在多个数据集上的广泛实验表明,GLNet在立面解析方面达到了最先进的性能。
部分摘录
通用分割算法
语义分割是计算机视觉中的一个基本任务,已经出现了各种创新算法。U-Net[23]、DeepLab[24]系列和SAM[26]是众所周知且备受推崇的语义分割模型。GSAM[27]通过在大规模文本和图像数据上进行联合训练,并利用提示,实现了高精度的语义分割。Xie等人提出的SegFormer[17]将Transformer架构与MLPs结合,成功创建了
数据集收集
近年来,使用无人机进行摄影变得越来越普遍。然而,现有的立面数据集中没有包含任何由无人机拍摄的数据,而这些数据可以提供建筑物的正面视图,与相机拍摄的侧面视图不同。我们使用了Canon M50 Mark II相机以及DJI Mavic Air和DJI Mavic 3无人机,在杭州的不同城区拍摄了高分辨率的立面图像。
GLNet用于立面解析
现有的立面解析算法通常基于视觉变换器(ViT),过高的图像分辨率可能导致丢失局部空间信息,从而降低它们在提取密集排列的窗户时的有效性。而在实际应用中,人们对建筑立面图像中不同元素的关注程度并不相同。他们更关注密集分布的元素,如门窗、商店和阳台,而对稀疏分布的元素关注较少
实施细节
在模型训练阶段,我们首先将输入图像调整为2048 × 2048的分辨率。我们使用ViT-B/16架构,patch大小为16,从ImageNet预训练的权重开始,采用AdamW优化器进行60个训练周期。学习率采用衰减策略,初始值分别为0.0001和0.2。所有实验都在NVIDIA GeForce RTX 3090 GPU平台上进行。
评估指标
我们评估了
结论与局限性
本文介绍了一个新的立面图像数据集hznu_facade,其中包含由无人机和数码相机拍摄的高分辨率图像。该数据集包括各种类型的建筑,如住宅和商业结构,并具有多样化的窗户样式,包括圆形窗户和无框玻璃幕墙。与现有的立面数据集相比,我们的数据集展示了更密集的窗户分布。此外,它还包括一个孪生立面图像数据集
CRediT作者贡献声明
Xiaolin Zhu:撰写 – 审稿与编辑,撰写 – 原始草稿,软件,数据管理。Fan Wu:撰写 – 原始草稿,数据管理。Junjie Cheng:数据管理。Weijing Qin:数据管理。Haichi Ma:数据管理。Shuchang Xu:撰写 – 审稿与编辑,项目管理,资金获取,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。