基于视频的高斯插值技术用于实测建筑几何形状，并结合能量模拟应用

《AUTOMATION IN CONSTRUCTION》：Video-driven Gaussian splatting for as-built building geometry with energy simulation

【字体：大中小】 时间：2026年05月11日 来源：AUTOMATION IN CONSTRUCTION 11.5

编辑推荐：

　　索米娅·迪普·乔杜里（SoumyaDeep Chowdhury）| 米斯巴乌丁·阿德雷米·阿德塞纳亚（Misbaudeen Aderemi Adesanya）| 努沙德·艾哈迈德·奇图尔·穆罕默德（Noushad Ahamed Chittoor Mohammed）| 卡恩瓦尔帕塔

　　索米娅·迪普·乔杜里（SoumyaDeep Chowdhury）| 米斯巴乌丁·阿德雷米·阿德塞纳亚（Misbaudeen Aderemi Adesanya）| 努沙德·艾哈迈德·奇图尔·穆罕默德（Noushad Ahamed Chittoor Mohammed）| 卡恩瓦尔帕塔普·辛格·吉尔（Kanwarpartap Singh Gill）| 库尔吉特·辛格·格罗瓦尔（Kuljeet Singh Grewal）

加拿大爱德华王子岛大学可持续设计工程学院（Faculty of Sustainable Design Engineering，FSDE）未来城市与能源实验室（Future Urban and Energy Lab for Sustainability，简称FUEL-S），地址：550 University Ave, Charlottetown, PE C1A 4P3

**摘要**

本研究介绍了一种基于高斯的包络建模自动化方法（Gaussian-based Envelope Modeling Automation，简称GEMA），该框架利用高斯分散技术将视频片段转换为适用于建筑能耗建模（Building Energy Modeling，简称BEM）的封闭曲面3D模型。GEMA专注于建筑物外立面几何数据（Level of Detail 3，简称LoD3），并重建BEM所需的平面建筑表面。该方法整合了结构从运动（Structure-from-Motion）、2D高斯分散（2D Gaussian Splatting）、α混合（α-blending）和平面相似性图像测量（Planar Similarity Image Measurement，简称P-SSIM）技术，以提高表面重建的精度。在测试的住宅建筑中，GEMA的几何偏差控制在20.47%以内；根据ASHRAE标准，模拟结果与真实情况的相对均方根差（CV(RMSE)也小于或等于30%。密度增加提高了表面逼真度和模拟稳定性，分辨率敏感性分析表明年度预测结果与真实值的偏差在0.5–12.5%之间。研究中提出了一种基于P-SSIM和3D Radon变换离散化的平面相似性评分方法（Planar Similarity Score，简称P-SSIM），用于评估简单网格。GEMA通过从视频数据自动重建建筑外立面，为能源分析和可持续建筑设计提供了准备好的几何模型。

**1. 引言**

开发节能建筑和可持续城市环境是应对气候变化的有效规划策略的重要组成部分。建筑能耗建模（BEM）利用基于物理原理的模拟来预测建筑性能，为设计师提供关于材料选择、暖通空调系统（HVAC）、使用者行为以及当地气候对能源使用影响的信息。BEM的应用范围从优化设计到现有建筑的改造措施评估，以及验证是否符合ASHRAE 90.1 [1]和加拿大国家建筑能源规范（NECB）[2]等标准。然而，BEM所依赖的几何数据需要自动化处理，近年来的研究致力于探索替代传统耗时方法的途径[4]。长期以来，3D重建工作依赖于点云（point clouds）、网格模型（mesh models）和多视图图像（multi-view imagery）。摄影测量数据和机载激光扫描技术的进步推动了这一发展，现在使用低成本的无人机系统（Unmanned Aircraft Systems，简称UAS）平台可以生成详细的3D模型[5]。传统的基于显式或离散表示的3D重建方法在分辨率、效率和结构灵活性方面存在局限性。相比之下，隐式神经模型（如OccupancyNet和DeepSDF）通过学习连续的几何表示来解决这些问题[6]。最近的创新视图合成方法（如神经辐射场NeRF和3D高斯分散3DGS）能够生成高质量、自然的渲染效果。NeRF依赖体积渲染，而3DGS使用基于栅格化的分散方法，具有更快的训练速度和实时性能[7]。3DGS在视觉和图形技术领域标志着重要进展，其捕捉精确建筑几何结构的能力可以直接提升BEM模型的准确性。

对于土木和结构工程师而言，通常不需要将高斯分布直接转换为网格再进一步生成封闭曲面。但对于能源建模者来说，必须将几何数据转化为显式的、平面的、不漏水的外立面表面，以便形成有效的热边界。因此，在面向BEM的应用中，通过将每个高斯体积分割成椭圆形圆盘得到的2D高斯分布尤为重要。黄等人首次提出了使用2D高斯进行几何重建的方法[8]，他们建立了2D高斯分散（2DGS），并展示了如何通过光线分散交点和栅格化技术恢复薄表面，本研究在此基础上进行了改进，使其适用于能源分析。

与将点云转换为标准化BIM表示的Scan2BIM工作流程（BIM – Building Information Modeling）[9]相比，高斯分散技术使用连续的、概率性的表达方式来表示建筑表面，这种表达方式在优化过程中具有明显的优势[10]。高斯分散技术并非点云的替代品，而是一种具有明确统计参数化的基于点的表示方法。除了在结构从运动（SfM）、多视图立体（multi-view stereo）和其他神经场景表示方面的质量和性能改进外，使用高斯分散技术的动机还在于其表示优势。它不需要主动的光检测和测距（LiDAR）技术，可以直接从图像或视频数据生成密集的表面表示，显著降低了成本和采集开销。在优化过程中，每个2D高斯可以被视为一个概率性表面元素，从而实现亚像素插值和平面区域内的置信度加权校正，提高了表面密度和几何一致性。

本研究提出的基于高斯的包络建模自动化（GEMA）技术，在之前的LOD3重建技术“快速能源建模邻域自动化（Rapid Energy Modeling of Neighborhoods through Split Automation，简称RENSA）[11]基础上进行了扩展，用轻量级的单目无人机视频取代了以LiDAR为中心的传统摄影测量输入。这一转变使得可以直接从被动视频数据重建外立面，大大降低了采集成本和操作开销，同时保持了邻域规模能源建模所需的几何细节。本研究使用RENSA作为真实数据来评估LoD3建筑模型的细节水平。这两种框架都侧重于生成建筑外立面，而非内部详细布局（LoD4）。虽然这两种方法都不生成内部分区或楼层布局（LoD4），但可以通过Rhino软件的后处理生成多区域配置。因此，本研究的目的不是创建完整的LoD4 BEM生成器，而是一种用于减少创建外部几何数据（LoD3）的人工负担的新流程，适用于邻域能源建模、城市规模模拟和建筑信息学应用。

在此基础上，本研究直接从视频场景捕获的多视图2D图像中提取2DGS数据，利用图像空间优化的平面高斯圆盘来表示表面。为减少基于图像的特征优化对高频细节的偏好，引入了额外的密度增强步骤，在网格化之前增强主要平面结构的稳定性，从而提高对稀疏观测的鲁棒性，并降低低频几何区域的退化程度。本研究的主要目标是建立一种利用视频和图像数据生成能源模型所需建筑几何结构的框架。该框架整合了结构从运动（SfM）先验知识、作为统计参数化的2D高斯分散用于优化，以及后处理技术来纠正几何异常，生成可用的建筑表示。具体贡献包括：

1.建立了一个结构化的框架，将2DGS作为优化机制，生成密集的、类似点云的表面表示，解决了基于图像的优化所固有的频域限制，并减少了后续转换为BEM的手动工作量。
2.开发了一种重建流程，结合深度相机融合技术（MiDaS-based depth correlation）来提高低频几何精度，并使用包括简化、启发式平滑、洞洞填充、基于侵蚀的清理和多边形引导的平面化等后处理技术，生成符合LoD3标准的几何结构。
3.使用定量几何性能指标评估所提出的工作流程，包括新提出的平面结构相似性指数（P-SSIM），该指数用于评估表面方向、面积保持和平面一致性，适用于BEM应用。
4.研究了视频质量和对植被捕获的影响，以及其对下游能源模拟输出的影响。

通过将高斯分散技术应用于实际能源建模（BEM）的需求中，本研究提出了一种新方法，将重点从视觉保真度转向利用低成本视频数据生成能源模型输入的几何结构。尽管如此，该框架代表了高斯分散技术在BEM领域的新应用，这一领域在现有文献中尚未得到充分探索。通过这种方式，它填补了3D场景重建与能源模拟工作流程之间的关键空白。

**2. 文献综述**

本节回顾了3D重建方法的发展历程，从早期基于航空影像和GIS数据的方法，到SfM和MVS流程，再到最近包括高斯分散在内的神经场景表示方法。

**2.1. 3D重建的先前工作**

3D模型重建涉及摄影测量、计算机视觉和深度学习等多个领域的交叉。几十年来，该技术经历了多个发展阶段，变得越来越自动化和精确。近年来，目标是将2D视频帧转换成3D表示，通常以点云的形式，进一步处理成网格或表面模型。早期的3D模型生成方法侧重于结合航空影像、地理信息系统（GIS）数据库和领域知识来进行3D建筑重建。Suveg和Vosselman [12]提出了一个多层次的假设生成和验证框架，结合航空影像分析和GIS建筑轮廓来重建3D建筑模型。Remondino和Fraser [13]研究了数字相机标定方法，为这些重建流程提供了相关考虑。随后，Chen等人[14]提出了一种新颖的方法来检测和重建3D建筑模型，结合了机载LIDAR数据和航空影像，该方法能够处理具有直线和曲线边界的建筑。该方法结合了基于区域的分割和基于对象的分类进行检测，并采用先进的边缘检测技术进行重建。Split-merge-shape方法能够生成具有高平面和垂直精度的准确建筑模型。

结构从运动（SfM）的引入通过自动化估计相机位置和场景几何重建彻底改变了这一领域[15]。特征匹配方法（如尺度不变特征变换SIFT）通过提供跨尺度、旋转和视角变化的可靠匹配，提高了特征对应关系的鲁棒性和准确性[16]。SfM处理来自不同视角的图像，推断运动并重建3D结构。它依赖于捆绑调整（bundle adjustment）过程，通过多次重叠图像中的特征对齐来细化3D结构和相机参数，创建稀疏点云，并共同优化相机内参和位置[17]。COLMAP库常用于SfM应用，从一组图像中生成稀疏点云[18]。由于使用了图像特征，该方法自然倾向于捕捉高频特征，如边缘。为了在保持重建质量的同时提高计算速度，人们提出了全局结构从运动（GLOMAP）[19]等改进方法。SfM的稀疏输出通常通过MVS方法进行细化，以生成3D模型[20]。早期的MVS算法侧重于从多个重叠视图中的深度图生成密集点云。基于补丁的MVS技术通过跨区域传播补丁来丰富稀疏重建，但面临无纹理表面和遮挡问题。Zhu等人[21]提出了一种基于多级语义关系、点-均匀性、体素-邻接性和类别-知识约束的分类方法，在马尔可夫随机场框架内进行建模，证明了其在噪声点云上的可靠性。传统的MVS方法往往会过度平滑边缘，导致城市重建不准确。Stathopoulou等人[22]通过将重建的3D边缘融入密集点云，保持了网格三角化过程中的边缘细节，特别适用于具有直线和平面特征的 architectural structures。

数据采集技术的进步进一步加速了3D重建工作流程。无人机（UAV）的兴起和快速发展显著改变了空间和视觉数据的采集方式，尤其是在3D建模和摄影测量领域。UAV与现有的SfM和MVS技术的结合实现了自动化工作流程，减少了大规模3D建模项目所需的人工劳动[23]。Li等人[24]展示了如何利用UAV获取的影像无缝生成城市区域的精确详细3D模型。商业平台如Pix4D [25]和Metashape [26]提供了用户友好的工具，将UAV影像与SfM和MVS方法集成，使用户能够将航空影像处理成正射影像图、数字高程模型（DEMs）和数字表面模型（DSMs）。UAV还可以配备特殊的传感器（如多光谱或LiDAR）来补充摄影测量数据。消费级深度传感器（如Microsoft Kinect和Intel RealSense）的发展使得室内3D重建的RGB-D采集成本降低[27]。Chatterjee等人[28]展示了从深度相机数据生成3D模型的流程，而Almonacid等人[29]则应用深度学习去噪技术来提高点云质量。然而，与在建筑和城市尺度上使用的摄影测量和LiDAR方法相比，这些设备的范围和精度仍然有限，因此不太适合外部建筑重建。最近的进展越来越多地融入了数据驱动的方法，深度学习和卷积神经网络（CNN）被广泛应用于语义分割、特征检测以及基于图像的3D重建流程的增强。基于学习的模型也被集成到多视图合成（MVS）框架中，以提高在稀疏、噪声或低纹理条件下的鲁棒性。对象检测和分割框架，如“you only look once”（YOLO）[30]和“segment anything”模型（SAM）[31]，已被纳入重建流程中，以提供语义先验和自动对象定位。这些先验通过指导图像分割、特征选择和语义一致性来支持几何重建，如在SAM引导的3D框架SAM-3D [32]中所示。更近期的是，神经场景表示作为一种范式转变出现在3D重建领域。最值得注意的是，神经辐射场（NeRF）模型将场景表示为从多视图图像中优化的连续函数[33]。Voleti等人[34]引入了SV3D方法，该方法使用潜在视频扩散从单张图像生成新的多视图图像和3D模型，展示了生成方法在3D内容创作方面的潜力。这些神经方法为可微场景表示的进一步发展奠定了基础，将在下一节中讨论。

2.2. 3D重建中关于高斯散布的相关工作
3D高斯散布（3DGS）[10]使用从稀疏SfM点云初始化的各种各向异性3D高斯来表示场景。通过优化高斯密度和协方差，并采用快速可见性感知渲染算法，3DGS实现了高质量的实时渲染，同时避免了在空旷区域的不必要计算。Chen等人[35]提出了Deblur-GS方法来处理运动模糊的输入图像，将运动模糊表述为一个结合时间采样和相机轨迹预测的联合优化问题。Zhao等人[36]引入了紧密耦合的LiDAR-相机高斯散布（TCLC-GS）。TCLC-GS结合了显式和隐式3D重建方法的优势，利用了LiDAR和相机传感器的优点。该技术使Waymo和nuScenes数据集在城市环境中的快速训练和实时RGB及深度渲染成为可能。

Kheradmand等人[37]没有从点云初始化3D高斯，而是将高斯视为来自马尔可夫链蒙特卡洛（MCMC）概率分布的样本。通过引入噪声项，3D高斯的梯度更新被重新表述为随机梯度朗之万动力学（SGLD）更新，而剪枝和密集化则转化为MCMC样本的确定性状态转换。Chen等人[38]提出的OmniRe使用多个局部规范空间来重建动态城市环境，表示基于高斯的动态神经场景图中的不同动态元素。在Waymo数据集上的评估表明，该方法在定量和定性指标上都超越了基于NeRF的方法。Lin等人[39]引入了VastGaussian，用于高质量重建和大型场景的实时渲染，采用渐进式分割算法将大型场景划分为多个单元。Ham等人[40]提出了DRAGON技术，使用无人机和地面级图像创建建筑物的NVS模型。该方法通过迭代的NVS算法和感知正则化解决了不同高度之间的视觉特征差距，以实现一致的图像对齐。DRAGON在使用Google Earth Studio的九个建筑场景的半合成数据集中的渲染质量上优于基线方法。

高斯方法在建筑领域的应用形式多种多样，但它们在生成平面闭合表面以进行能量建模方面的应用尚未得到探索。Zhao等人[41]最近的一项研究使用3DGS从无人机图像重建建筑几何结构，引入了场景分割。他们的框架生成了适用于城市风研究中的计算流体动力学模拟的LoD2和LoD2.5模型。尽管3DGS因其能够实现快速渲染速度和高质量NVS而受到研究人员的广泛采用，但其对多个超参数的依赖性往往限制了其准确表示捕获场景的能力。这增加了从非结构化3D高斯中提取网格的复杂性，并使得实现闭合表面变得困难，这对能量建模应用是一个重大挑战。为了解决这个问题，Guedon和Lepetit[42]提出了SuGar算法，该算法基于泊松重建，从高斯中提取网格。这种方法允许在渲染过程中操纵网格而不是高斯本身，与传统应用于神经有符号距离函数的Marching Cubes算法相比，能够更快、更真实地表示表面几何形状。

3. 理论框架
GEMA的整体框架如图1所示。过程从包含多帧的不同建筑场景的视频序列开始，这些帧作为输入传递给SfM流程。然后应用广泛使用的SfM工具COLMAP来提取这些帧中的相机姿态和稀疏点云。提取的稀疏3D点和相机姿态对于场景重建至关重要。相机姿态定义了不同视图之间的空间关系，而稀疏点提供了场景结构的粗略估计。图像驱动的稀疏点云被认为是进一步散布流程的先验。由于进一步优化也是由图像驱动的，因此提出了一个密集化模块来减少来自图像特征的高频放大。密集化模块用于放大在实际几何结构中常见的墙壁和屋顶特征的低频特征，避免这些区域信息不足导致的下游错误。这些稀疏点通过在多帧之间进行特征匹配生成，随后转换为高斯表示。此转换涉及启发式方法来估计初始高斯参数，包括位置、协方差（形状和方向）和不透明度（透明度信息）。渲染过程发生在散布循环中，其中高斯表示被投影并渲染成图像。高斯点被投影到2D图像平面上，然后混合并光栅化以生成最终渲染图像。这一步包括alpha混合和不透明度计算，以正确处理重叠的高斯。接下来，将渲染图像与真实图像（视频中的实际帧）进行比较。损失函数衡量渲染图像与真实图像之间的差异，并通过反向传播来迭代优化高斯参数。具体来说，选择了2DGS流程来强制更好地适应表面不连续性，并在优化过程中应用几何正则化项。最终优化的高斯作为密集的、几何精确的点云，通过图像驱动和几何驱动的优化生成，其中点具有表示不透明度场的统计分布属性。

最终点云或网格是通过高斯散布流程得出的，该流程在LoD3级别重建建筑物的外部几何结构。这与生成详细内部区域和LoD4级别地板分区的全面BEM程序形成对比。闭合、完整的几何结构的重要性经常与COLMAP和散布中的图像驱动优化相冲突，因为后者会大大放大边缘（高频细节），而墙壁等低频均匀细节通常较为稀疏。因此，这项工作提出了几种策略来填补问题区域中的漏洞，并从输出的高斯均值中采用基于点云的表面重建方法，以及上述的密集化模块。

3.1. 高斯散布方法
该方法采用多变量高斯分布，如图2所示，并根据Kerbl等人[10]在方程（1）中数学定义，来表示和重建3D场景，而不依赖于表面方向信息。原始体由高斯散布位置（x）、高斯散布均值（μ）和3D协方差矩阵（Σ）定义，后者包括旋转R和缩放S。首先将输入视频转换为帧，然后使用SfM工具和COLMAP从中提取稀疏点云和相机姿态。协方差矩阵定义了原始体的方向和缩放特征。这些3D稀疏点云通过迭代散布循环转换为高斯原始体，利用反向传播来优化高斯参数。
(1)Gix=exp?12x?μTΣ?1x?μ

下载：下载高分辨率图像（885KB）
下载：下载全尺寸图像
图2. 高斯场景渲染的图形表示。R代表旋转矩阵，S代表相应的缩放矩阵，Ci-j代表定义到第j层的原始体颜色。

被称为“高斯散布”的高斯原始体是3DGS的构建块。这些原始体具有体积表示属性，具有独特的不透明度和颜色值，同时双重表示连续场和离散原始体。在散布循环中，与每个高斯相关的3D协方差被降低为2D，以便使用雅可比仿射变换（J）进行渲染，该变换将2D平面映射到3D网格。然后根据Huang等人[8]的方程（2），将转换后的2D协方差矩阵与相机姿态矩阵（P）关联起来。为了确保转换后的协方差矩阵保持正定，使用缩放矩阵（S）和旋转矩阵（R）根据Kerbl等人[10]的方程（3）进行优化。这一优化过程使得各向异性的2D协方差表示成为可能，使3D高斯能够适应捕获场景中的各种几何形状。因此，该方法产生了紧凑高效的3D场景表示。
(2)Σ2D=JPΣPTJT
(3)Σ=RSSTRT

然后通过渲染相机姿态（θ）的2D图像，通过球谐函数混合N个按距离递增的高斯来创建真实图像，根据Kopanas等人[10]的方程（4）计算屏幕空间（xp）的颜色（C），基于场景的屏幕坐标空间。此外，专门设计了启发式方法来支持和增强这一过程，通过修剪过大或不透明度较低的高斯。

(4)C=∑i?Nciαixp∏j=1i?11?αjxp
其中ci表示根据相机姿态（θ）转换后的每个高斯的颜色，αi由方程（5）计算得出，通过评估位于像素坐标Rμiθ中的每个高斯的2D高斯和投影的协方差（Σ2D），并根据世界坐标均值μi和函数R的投影进行缩放。

最后，将这些图像C(x)与真实图像（Cgtx）进行比较，使用结合光度损失和感知损失项的损失函数来最小化损失。这些损失项使用光度损失（真实图像和目标渲染像素之间的MSE）和结构相似性指数度量（SSIM）来计算（6）。
(6)LGS=λ×Lossphotometric+1?λ×LossD?SSIM
其中λ是一个权重因子，用于微调损失函数，以平衡损失组分的贡献。

3.2. COLMAP密集化
将高斯散布结果转换为可用格式的一个主要缺陷是，由于初始化使用了稀疏的COLMAP [43]表示，以及在图像驱动优化中自然侧重于高频区域的重建[23]，导致关键区域在几何构建方面的稀疏性。因此，墙壁和屋顶等区域的几何保真度受到影响，这些区域可能包含低频但几何上相关的信息。其他方法通过损失函数[44]纳入深度法线信息。基于物理的LiDAR采集提供了更均匀的不连续性和低频结构采样。受此观察的启发，本研究提出了一种方法，通过融合MiDaS深度图[45]来直接对COLMAP先验在低频区域进行密集化，生成填充平面区域的混合密集点云，同时保留高频细节。这为高斯散布提供了更全面和几何上更精确的基础，以便进一步处理，有效地将这种深度法线信息纳入几何先验中，而不是在训练过程中减弱。

稀疏COLMAP点云的密集化使用来自MiDaS的单目深度图进行，该技术受到VCR-GauS [44]的启发，VCR-GauS使用单目深度估计网络将法线信息编码到优化中。所提出的方法尝试直接将深度法线信息编码到COLMAP初始化中，实际上是先验，而不会增加任何处理开销作为严格的前处理步骤。第一步是使用RANSAC平面拟合方法，并结合一个垂直参考向量，从COLMAP稀疏点云中移除大部分地面平面。这一过程可以提高全局和局部尺度估计的准确性，并消除可能接近相机视点的低噪声点，这些点可能会引起几何误差。为了处理单目深度估计中的尺度相关性和不确定性，该方法为每个深度图估计一个全局尺度因子。首先将深度图反转，以产生比例深度（MiDaS [45]），其中较小的值代表较远的距离，较大的值代表较近的距离。对于选定的视图，选择距离相机最近的10%的点作为初始化点。然后使用k最近邻（kNN）搜索将每个锚点与深度zq关联到MiDaS像素pm及其对应的深度zm，并按以下公式计算尺度：（7）?s?=zqzm。为了减少遮挡和异常值的影响，中值乘以一个超调因子γ来稍微高估深度，以防止几何变形：（8）?sglobal=γ·medians?。尽管整个几何结构已经使用全局尺度对齐，但由于视差、遮挡或MiDaS预测噪声的影响，局部几何结构仍然可能不一致。为了缓解这个问题，应用局部锚定方法将每个点微调到其最近锚点的尺度。对于每个点（pm），使用kNN搜索找到其最近的COLMAP参考点（pq）。局部尺度（slocal）使用MiDaS的深度（zq）和锚点的深度（zm）定义如下：（9）slocal=zmzq。为了避免稀疏区域中的平铺伪影，使用参考深度与初始化深度之间的比例来标准化x-y坐标。这样就可以得到一个几何上一致的密集点云，同时最小化搜索和关联的工作量。在深度反投影和局部细化之后，可能仍然存在冗余的地面点或地面混叠现象。因此，对过滤后的地面平面再次应用处理。点云使用体素网格平均值进行降采样，然后与原始COLMAP结果合并，再随机降采样到50%。这种融合保留了COLMAP的结构先验信息，减轻了在高斯分散过程中遇到树木等模糊区域时产生的错误推断，从而避免了渲染问题，如混叠或伪影。密集点云的准确性通过F1分数（公式（10）和主成分分析（PCA）特征值相似度（公式（11）来评估：（10）F1=2×Precision×Recall/(Precision+Recall)（11）PCASimilarity=λP·λQ/‖λP‖·‖λQ‖），其中P和Q是两个点云，λP和λQ是这两个点云的标准化特征值向量。PCA特征值相似度比较了它们的主成分方差，反映了两个点云是否具有相似的全局形状分布，或者它们的主要方差轴（例如整体方向和伸长率）是否保持一致。F1分数是在密集点框内的COLMAP点之间计算的，精度和召回率的阈值使用建筑物高度的五分之一来设定。这种策略提高了两个点云及其提取的网格在平面一致性方面的表现，生成了与BEM无缝集成的近乎完美的封闭模型。

3.3. 2DGS方法
2DGS是高斯分散过程的最新创新，它突出了平面特征，并在几何精度方面显示出了有希望的结果，使其对于后续的网格化流程非常有用[8]。该过程还受益于“第3.2节”中详细介绍的初始化增强方法。该方法将高斯点视为位于平面上的2D分布，通过指定位置（pk）以及两个定义缩放方向的主切向量（tu和tv）来实现。缩放向量（su和sv）控制这些切方向上2D高斯的方差。基本法线（tw）是两个主切向量的叉积，即tw = tu × tv。然后，旋转矩阵（R）被编码为一个3 × 3矩阵，其中每一列对应tu、tv、tw，即R = [tu, tv, tw]。此外，一个缩放矩阵（S）由一个3 × 3的对角矩阵定义，用于控制高斯点沿正交方向的分布，其中S的最后一列被设为零，因为2D分散在法线方向上没有方差。2D高斯点随后通过P(u,v)和均匀变换矩阵（H）进行参数化，如公式（12）所示，基本上在uv空间中形成了标准高斯分布的圆盘（u = (u,v)）。这样，3D坐标中的高斯均值点pk可以与其基本方向向量tu和tv一起使用，来表示该点u和v。2DGS将点投影到相机空间，然后使用以下关系和标准相机空间投影操作，将每个像素的光线轨迹追踪到2D高斯的局部uv空间，而不是在原始3DGS中那样将点P投影到相机空间并对3D高斯进行近似投影。通过在第3.1节描述的总损失中加入畸变损失（Ld）和法线损失（Ln），可以在场景训练期间促进高斯点及其边界平面的更好对齐，从而产生定义明确的表面。这些损失有助于将法线对齐到每个像素所属的检测平面，并将深度集中在交线附近。对于畸变损失Ld，对于每个像素，取每条射线的有序交点集并按深度排序。然后为每个高斯点分配一个权重wi = Tiαi，权重Ti是从从j到i的按深度递增顺序排列的一组高斯点中计算得出的透明度Ti=∏jαj得到的。然后可以使用射线交点的深度zi来找到相邻高斯点对之间的距离（方程（14））。这样，就可以集中射线上的高斯点分布（使得许多加权对之间的距离在方程（14）中变小）。同样，为了创建法线损失项，使用与高斯点沿每条射线的混合深度（结合原始α混合过程）相对应的像素值来构建深度图像z，直到不透明度累积到0.5。然后，使用深度图像z来计算每个坐标的混合法线N。法线损失是通过1减去每个高斯点ni（2DGS中的缩放轴）与深度图图像在该射线点的梯度之间的点积得到的（方程（15）。

3.4. 平面结构评估
为了帮助评估场景表示，使用离散近似的3D Radon变换方法来开发了一种评估方法，如图3所示。目的是在由极坐标Φ和θ定义的2D平面空间中描述3D数据。θ是x-y足迹平面与给定面之间的角度，取值范围在0到100°之间，以便在应用DoG滤波器时在90°边缘处有一定的扩散。DoG滤波器通过减去两个高斯模糊版本（细特征的标准差为4，大特征为12）的结果来突出结构特征。Φ是围绕z（垂直）轴的角度，取值范围从0到180°。每个平面的值由该平面在描述3D物体的体积函数上的积分确定（在这种情况下，占用为1，未占用为0）。实际应用中，每个定义了角度Φ和θ的bin的值是该平面上所有在合适方向阈值内的平面面积之和。在本工作中，距离原点的垂直距离并不重要，因为目的是可视化结果网格的总体平面结构。通过使用每组三角形面顶点的3个向量v1、v2和v3，可以使用方程（17）来确定法线方向。（17）nk=v2?v1×v3?v1/v2?v1×v3?v1。下载：下载高分辨率图像（443KB）下载：下载全尺寸图像图3. 2DGS的离散网格Radon变换，平面方向按0–180°范围分组（围绕垂直轴的垂直墙面方向），以及从0到90度（俯仰角）围绕水平平面。之后，使用公式（18）和（19）中的归一化法线方向，将世界坐标向量转换成Φ和θ表示：（18）θk=cos?1(nzk)（19）φk=modatan2(nyk/nxkπ）。然后对每个面的法线角度进行分组，并在5°角度阈值内求和。在检测到接缝问题时，使用10°的缓冲区处理接缝问题（出现在边界范围内的角度，可能出现在第一个或最后一个条目框中）。在θ ≈ 0°附近的角度可以忽略足迹对该评估的贡献，以便专注于屋顶和墙面的结构特征。这种方法有效地将数据转换为平面特征空间；在应用DoG滤波器并将响应归一化到0–1的范围之后，计算两个转换后的包络之间的结构相似性指数（SSIM），得到0到1之间的平面SSIM（P-SSIM）分数，描述它们的平面结构相似性。此外，还计算了2DGS渲染场景与原始真实图像之间的关键指标。这些指标包括SSIM，它评估了两幅图像。图像每个通道的SSIM评估了亮度、对比度和结构的加权比较。它考虑图像中的一个小窗口，并计算代表亮度的平均强度μxμy、表示结构的协方差σxy，以及窗口内的方差σx和σy（方程（20）），然后对所有窗口进行平均得到单一分数。（20）SSIM=2μxμy+C1/2(σxy+C2/μx2+μy2+C1/σx2+σy2)。另外，峰值信噪比（PSNR）是从两张图像的光度差异中得出的指标。它首先确定均方误差（MSE），通过将每像素误差的平方和除以像素总数得到。然后通过将対数分贝峰值（255）与MSE的比值来计算PSNR，L1-光度损失可以通过对图像进行相同的逐像素差异计算，并将其归一化到最大值255来计算。在确认主导墙面和屋顶平面存在且方向正确，并且建筑质量得到视觉结果的充分支持后（如P-SSIM、SSIM和L1-光度损失所示），接着应用BEM的几何准备阶段。BEM的几何准备
从分裂过程中得到的高斯表示使用Open3D截断的有符号深度融合和行进立方体方法进行网格化，这与其他NVS技术类似。在所提出的工作流程中，优化后的高斯参数、均值、协方差和不透明度被转换为一个结构化的、考虑方向的几何表示，该表示可以表示为基于点的表示或显式的表面网格。这两种表示都得到支持，并且可以根据下游需求在BEM中交替使用，以对建筑包络表面进行平面抽象。对于大型、无界的室外场景，法线损失和畸变损失权重分别固定为0.05和100。
如果选择网格表示，生成的几何体可能最初包含过多的面，这在计算上对下游的BEM流程来说效率低下。为了解决这个问题，应用了迭代二次曲面简化（IQD），逐步减少目标面的数量。目标数量从原始面数指数级衰减到所需的数量，同时在每个阶段增加边界权重，以在越来越稀疏的表示下保持包络体积和主要表面范围。一旦获得了一个粗略但保持体积的网格，就进行开放边界检测。通过枚举唯一的边（表示为排序的成对顶点索引）并对它们的出现频率进行直方图分析来识别边界边；只出现一次的边被分类为开放边界。这些边使用无向图公式分组，允许独立分析各个边界组。
随后将边界组分类为不需要的表面伪影或真正的孔洞。应用侵蚀步骤，其中移除相邻于边界边的面，然后重新评估边界边。如果在此过程中某个边界组消失，则将其视为不需要的凸起并移除。如果边界组仍然存在，则将其分类为孔洞，并使用扇形填充策略进行填充，即引入一个质心顶点并连接到边界环中的所有边。然后应用单次简化步骤来清理填充后的区域。如果在侵蚀后没有检测到边界组，则直接将网格传递到最终简化步骤，其中移除小的凸起和零体积的悬挑部分。为了确保适合BEM的封闭几何体，根据需要添加一个封闭的地面平面。从简化后的网格中提取足迹顶点，计算它们的凸包，并将凸包顶点连接到足迹质心以生成边界面，从而得到一个防水封闭体。
为了提高与下游热建模和基于NURBS的几何转换的兼容性，随后应用平面校正和平滑处理。分析面法线，按坡度对表面进行分类，分离近乎垂直的墙面、近乎水平的足迹面以及剩余的屋顶或悬挑表面。分离近乎垂直的体面时，可以根据其修正后的法线（n，调整为投影后的90°法线）和质心c，创建修正后的顶点v’，并通过平滑因子a调整到新的平面投影vnew：
(21)v′=v?nv?cn
(22)vnew=1?av+av′
虽然这种方法对简单的建筑几何体有效，但对于复杂的建筑形式则效果不佳。在这种情况下，可以采用更复杂的保持特征的建筑物网格简化技术，例如Li和Nan [46]提出的技术，以减少面数同时保持几何精度。或者，可以采用以点云为中心的方法，直接从结构化的点表示使用基于平面的多边形重建方法（如PolyFit [47]或PolyGNN [48]）重建包络表面。在这种方法中，可以在不依赖密集网格或密集简化的情况下生成适合BEM的封闭墙体和屋顶多边形。另一种方法与Mohammed等人 [11] 提出的类似，涉及隔离屋顶网格并使用建筑足迹来指导重建。
本节进一步解释了建筑包络的扫描过程，之后将窗户和门转换为表示开窗的点云。这些点云被转换为用于能量模拟的表面。由于本研究的目标是生成包含窗户和门等包络特征的LoD3建筑模型，因此采用了包括基于CNN的对象检测模型在内的先进机器学习技术来检测和分类建筑包络组件。这些模型应用于从2DGS生成的网格中提取的数据，这些网格提供了关于建筑表面的结构化表示。通过利用这些网格，机器学习模型可以学习与窗户和门位置相关的模式。训练过程包括多次迭代，并进行验证以评估网络性能。评估对象检测的精度，重点关注窗户和门，因为它们在数据集中非常普遍。进一步的应用后处理技术用于解决误分类问题，例如将屏风门误识别为窗户。对错误的定性分析，如对阴影建筑表面和深色窗户的挑战，有助于模型改进。通过迭代调整训练参数和数据增强技术来提高模型性能。
用于识别建筑包络的机器学习技术的工作流程如图4所示。使用YOLOx训练的模型 [30] 来识别建筑包络特征，如门和窗户。在理想情况下，所有侧建筑包络2DGS网格都被作为数据输入。通过平均精度（mAP50 = 0.81）来评估CNN模型识别建筑细节的准确性。在本研究中，使用了高斯splats的辐射场渲染来设置建筑的正确视图。此过程消除了在实时场景中捕获图像时可能发生的手动错误，从而避免了遮挡或其他低质量或无组织的视图。使用这种方法，增加了背景分离，减少了繁忙场景中的错误检测。分割过程细化了原始的2DGS网格数据，过滤掉了不必要的噪点并提高了建筑特征的清晰度。检测结果使用图像的已知相机位置进行投影，并将边界框投影到从建筑足迹派生的平面化墙上。然后，平面点云特征与下游的几何体结合。
下载：下载高分辨率图像（388KB）
下载：下载全尺寸图像
图4. 训练ML算法以识别窗户和门，用于点云转换。
基线真实模型和GEMA派生模型在相同的能量模拟条件下进行评估。所有案例研究都是在Rhinoceros–Grasshopper 8中开发的，其中使用Honeybee和Ladybug（v1.8.1）生成基于EnergyPlus的热模型。所有模拟都使用Charlottetown, PE的典型气象年（TMY）数据（EPW）。能量结果关注供暖需求、制冷需求和电力消耗。通过比较GEMA后的结果与基线真实模型（非公用事业账单）的均方根误差（CV(RMSE)的系数来量化模型的每小时准确性，并根据ASHRAE推荐的阈值进行验证。为了确保对凸形和非凸形几何体的太阳能分布计算的鲁棒性，使用了EnergyPlus的基于GPU的PixelCounting方法，使得所有类型的LoD3模型都能稳定模拟。
3.6. 敏感性分析
进行了敏感性分析，以证明流程对不同视频分辨率的适应能力。最初应用的分辨率（1920 × 1080）像素降低到（960 × 540）、（540 × 270）像素，并在固定的初始化条件下测试了有无密集化的性能，针对两栋单独立建筑。原始无人机捕获视频的分辨率范围在（1980 × 1020）到（3840 × 2160）之间，所有这些都统一缩小到（1920 × 1080），以减少整个过程的计算时间。原始splats的训练采用的最大水平分辨率为1600。对于更复杂的建筑，为了避免在高分辨率下高斯带来的过拟合误差[49]和减少12GB RTX 3060大场景的内存负担，使用了半分辨率（960 × 540）。视频采用两条螺旋路径拍摄，一条在立面层面，另一条升高以查看屋顶，从而产生2-4分钟的慢视频。这些帧然后通过COLMAP进行初始化，然后通过GEMA流程最终生成用于实际建模应用的网格或点云。为了探索GEMA的敏感性，对每栋建筑的原始常规和密集化COLMAP初始化应用于较低分辨率（960 × 540或480 × 270）的2DGS训练。因此，测试了在较低分辨率下的时间密集型splat优化的鲁棒性，以及它们的时间效益和潜在的质量损失，还有密集化的益处。这种区别至关重要，因为源视频的质量直接影响到生成的网格特征，从而影响到基于能量的建筑模型。对每个结果的P-SSIM、能量准确性以及结构和实际考虑因素进行了评估。质量较低的网格具有未封闭的表面，在模拟前使用了孔洞填充和平滑方法，而在自动化修补之前的原始简化输出则评估了与韧性相关的几何精度和孔洞特征。请注意，简化和优化过程是非确定性的；重新运行算法可以获得不同的简化网格结果（<1分钟运行时间）。
4. 结果和讨论
本节概述了整个过程中的评估，重点介绍了高斯splat的应用和能量模拟结果。
4.1. GEMA的应用
在以下小节中评估了GEMA的实现以及splatted场景的逼真度，包括生成的网格。
4.1.1. 视频到高斯splats
表1中编译了三栋建筑物的视觉结果的SSIM、PSNR和L1光度损失分数。还显示了生成网格的P-SSIM分数，以表示splat特征与基线真实模型之间的几何相似性。请注意，所有输入图像的大小都被调整到938 × 512 RGB分辨率。Post-GEMA是能量模拟工具中GEMA模型的后处理，允许将所有窗户放置在生成的GEMA模型的墙面表面上，并根据需要进行手动调整。基础和Post-GEMA的PSNR和SSIM分数相对较高，而L1-Loss与现代NVS在更通用数据集上的结果相比较低[8]。请注意，由于分辨率质量的降低，SSIM略高于其他室外场景，这减少了高频特征的影响。由于本工作的主要关注点是场景中心的建筑物，因此没有考虑类似林业的特征之间的相似性。Post-GEMA的平面相似性（P-SSIM）都在0.88以上，改进方法有明显的提升。
表1. 三栋建筑的图像损失指标，SSIM和P-SSIM网格分数。
建筑PSNR↑SSIM↑L1-Loss↓P-SSIM (GEMA)↑ (0–1)P-SSIM(Post-GEMA) ↑ (0–1)
124.09700.84140.04180.73410.8806224.75050.88690.03760.86330.9032325.61730.86690.03030.89600.9003
重建场景的准确性可以在图5中定性地观察到，介于渲染的高斯splats和基线真实图像之间。明显 difference 在植被和天空上，而方法的主要关注点——建筑物——保持了高相似性。一些特征之间的差异，如建筑1中的屋顶材料分离，并没有完全捕捉到。由于屋顶结构通常由低频特征组成，与边缘和覆盖范围更大的区域相比，初始COLMAP处理和随后的splats在这些区域的的高斯密度较低。较少的高频特征导致在SfM过程中跟踪点较少，因此在稀疏点云中分配给它们的点也较少，与图像中的复杂对象和边缘不同。同样，图像中的低频区域对光度和SSIM损失项的贡献较小，这些损失项驱动了2DGS优化。
下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像
图5. 与基线真实图像相比，三栋案例研究建筑的重建场景的混叠效果（注意：红色圆圈显示了两个网格之间的差异，而绿色矩形内的区域为了保密而故意模糊了）。（关于此图例中颜色的解释，请参考文章的网络版本。）
4.1.2. 密集化结果
使用两个单独立房屋场景评估了密集化方法，每个场景都以一栋建筑作为焦点。该方法通过评估原始点云结构与结果网格和表示之间的相似性来进行评价，并从定性角度分析其与2DGS[8]结合时的稀疏性和空洞问题。观察到密集化过程显著增加了图像中低频区域的点密度，尤其是在屋顶和墙壁上；然而，尽管进行了网格平均化和异常值去噪处理以去除一般噪声特征，深度不一致仍会产生一些非预期的特征。图6展示了密集化红色COLMAP点所遗漏的低频平面区域的成功情况。因此，应监督密集化点云的结果，以平衡视图数量和结果密度以及产生的伪影。在整个工作中，通常使用4-8个视图来获得结果。表2通过PCA相似度（P）和F1分数来评估点云的准确性。由于尺度过大和数据分布不均，稀疏点云中的异常值被移除，并裁剪到密集点云的范围（这也是稀疏点云中最密集、最相关的部分）。作为参考，建筑物的高度H以单位空间表示，以概念化房间距离的比例。测量了所需时间（T），发现处理时间远低于一分钟，对于更密集的场景则需要更长时间。对于F1分数，阈值设定为建筑物高度的五分之一（建筑物1为1.7/5，建筑物2为1.4/5）。值在房屋及其周围材料的相关范围内进行评估（|x|,|y|,|z| < 15），以排除代表远处物体（如云或其他房屋）的COLMAP极端值，这些对实际应用无关，也不是密集化的目标。

方法评估了原始点云结构与结果网格和表示之间的相似性，并从定性角度分析了其与2DGS[8]结合时的稀疏性和空洞问题。密集化过程显著提高了图像中低频区域的点密度，特别是在屋顶和墙壁上；然而，尽管进行了网格平均化和异常值去噪处理以去除一般噪声特征，深度不一致仍产生了一些非预期的特征。图6显示了密集化红色COLMAP点所遗漏的低频平面区域的成功情况。因此，应监督密集化点云的结果，以平衡视图数量和结果密度以及产生的伪影。通常，在整个工作中使用4-8个视图来获得结果。通过表2中的PCA相似度（P）和F1分数来评估点云的准确性。由于尺度过大和数据分布不均，稀疏点云中的异常值被移除，并裁剪到密集点云的范围（这也是稀疏点云中最密集、最相关的部分）。作为参考，建筑物的高度H以单位空间表示，以概念化房间距离的比例。测量了处理时间（T），发现处理时间远低于一分钟，对于更密集的场景则需要更长时间。对于F1分数，阈值设定为建筑物高度的五分之一（建筑物1为1.7/5，建筑物2为1.4/5）。值在房屋及其周围材料的相关范围内进行评估（|x|,|y|,|z| < 15），以排除代表远处物体（如云或其他房屋）的COLMAP极端值，这些对实际应用无关，也不是密集化的目标。

下载：高分辨率图片（394KB）
下载：全尺寸图片

图6. 样本迭代和最终密集化点云的表示。蓝色和红色点代表稀疏输入，有色点代表密集化云（数据点放置在填充的稀疏感兴趣区域内）（关于此图例中颜色的解释，请参阅文章的网页版本。）

表2. 密集化和稀疏云的评估指标（在RTX 3060上的计时）

| 建筑物 | P↑ | F1-Score↑ | Τ (s) |
| ---- | ---- | ---- | ---- |
| 1 | 0.98 | 0.96 | 5.8 |
| 2 | 0.99 | 0.94 | 8.2 |
| 3 | 0.94 | 2.3 |

值得注意的是，由于边缘密集的COLMAP稀疏点云之间的结构变化，倒角距离和F1分数受到影响，因为每个平面点的参考几乎总是稀疏云中的边缘点，这导致了较大的距离。PCA测量由于整体结构相似性而获得了高准确性。将密集化点云应用于2DGS流程；可以看出，对于建筑物2，两种方法都产生了合适的几何结果。对于建筑物1，不参与许多相机视图的低频平面特征（即屋顶）与预期结果相比有显著退化。密集化方法解决了这个问题；尽管这些点不参与许多优化图像，但初始化时存在的点避免了依赖于高斯插值优化中的启发式密集化，从而能够在网格化过程中提取这些几何细节。网格化结果显示，使用所提出的方法后，屋顶中的低密度平面特征在常规2DGS中未能正确映射，导致出现空洞，而使用该方法后则得到了更高几何保真度的网格或点云（表面平整，无空洞，无重大变形）。在敏感性分析部分研究了密集化对结果插值的影响。

4.1.3. 高斯插值输出分析

对于三栋独立建筑，通过几何比率测量、通过离散3D Radon变换可视化平面结构特征以及观察场景重建的超参数和预处理步骤，对处理后的网格进行了定性和定量评估。图7使用其中一座建筑作为案例研究，可以看出2DGS在保持几何质量和减少空洞等伪影方面的有效性。可以看出，2DGS引入的额外深度和法线损失项极大地帮助特征更加平滑。对于使用径向相机收集的数据，设置针孔相机模型进行COLMAP预处理时，如果没有深度和法线失真，并且使用完整流程处理，可以得到更好的结果。同样，COLMAP预处理也会对整体结果产生积极影响。最终结果很大程度上取决于初始化质量，如果使用次优的相机模型进行COLMAP初始化，则会注意到结果的显著退化。

下载：高分辨率图片（176KB）
下载：全尺寸图片

图7. 基于（a）次优相机模型（b）无额外损失项，以及（c）完整流程的2DGS输出变化

从离散Radon变换得出的三栋独立建筑的平面特征可以在图8中看到。第一组图中包含了一条红色虚线，表示垂直墙的90°角度。可以看出GEMA和Post-GEMA方法与预期垂直度存在偏差。这在标记为建筑物1的图中尤为明显。由于这些垂直墙没有限制，因此不期望完美对齐，但这可能在BEM软件中的直接应用中造成障碍，可以通过网格简化[46]、多边形表面重建[47]或PolyGNN[48]或Rhino-Grasshopper中的手动后处理等方法来克服。同样，整体结构得以保留，集中点也相似。在GEMA和Post-GEMA模型中，可以看到与预期中心角度的偏差，以及多个不完美角度的分布扭曲了形状，与地面真实的圆形集中不同。在模型和地面真实值之间可以注意到轻微的位置缺陷，特别是在建筑物3中靠近θ=30°的小特征处，代表了辅助屋顶特征。为了便于查看，角度可以移动到前两个象限。θ和?被限制在0到90°和0到180°之间。这些限制导致主要屋顶特征在一个峰值中表示，因为当θ受限制时，它们会在?轴上对称，主要垂直墙组在给定情况下分为两组。Post-GEMA方法稍微限制了平面的垂直度，因为垂直区域的分布变化较小，从而提高了准确性。

下载：高分辨率图片（656KB）
下载：全尺寸图片

图8. 从案例研究中得到的平面特征：（a）建筑物1地面真实值，（b）建筑物1 GEMA模型，（c）建筑物1 Post-GEMA模型，（d）建筑物2地面真实值，（e）建筑物2 GEMA模型，（f）建筑物2 Post-GEMA模型，（g）建筑物3地面真实值，（h）建筑物3 GEMA模型，（i）建筑物3 Post-GEMA模型（注：红色线条表示视觉上的完美垂直度。关于此图例中颜色的解释，请参阅文章的网页版本。）

注意轴线是包裹的，过程保持了相似性，且没有显著的预处理步骤。P-SSIM分数表明平面特征相对相似，因此两个网格的结构也相似。P-SSIM分数显示Post-GEMA方法主要通过重新定向近乎垂直的平面来提高准确性。

图9显示了进一步比较的结果网格和Radon变换的结果。选择了标准化扭曲球体的形式来进行结构比较，扭曲球的形状代表平面特征，其半径随峰值的表示面积增加而增加。球体坐标完全代表了θ和?的0-90°和0-180°范围。因此，可以比较球体的整体形状以评估网格的结构相似性。扭曲球体内的峰值代表垂直墙和屋顶，其中角度被规范化为0°到90°之间的正坡度。屋顶组件的峰值通常被归为一个最大峰值。在GEMA中，垂直组件的分布有轻微偏斜，没有与预期的垂直墙完全对齐。GEMA中还有屋顶组件占总高度的比例较低，导致分布偏斜。这可以从代表垂直墙的两个峰值之间的比例增加中观察到，尤其是在θ=30°附近的小特征处。角度可以移动到前两个象限以便于观察。θ和?被限制在0到90°和0到180°之间。这些限制导致主要屋顶特征在一个峰值中表示，因为当θ受限制时，它们会在?轴上对称，而主要垂直墙组在给定情况下分为两组。Post-GEMA方法略微限制了平面的垂直度，因为垂直区域的分布变化较小，从而提高了准确性。

表3比较了三栋独立房屋的地面真实值和GEMA生成模型之间的几何特征，强调了尺寸比率、占地面积和建筑体积的差异。宽度与长度（W/L）比率在地面真实值和GEMA模型之间表现出稳健的对比。建筑物2的一致性最高，仅相差0.51%，而建筑物3的差异最大，为2.17%。相反，建筑物1的差异较大，为8.71%，表明重建的几何比率有轻微波动。较低的高度与长度（Hl/L）比率在建筑物之间表现出中等变化。建筑物2的差异为3.31%，而建筑物1的差异为6.67%。最显著的差异出现在建筑物3，为17.11%，表明垂直尺寸的评估，特别是墙高，更容易受到重建不确定性的影响。屋顶坡度（P）在地面真实值和GEMA模型之间存在差异。建筑物2的差异最大，为17.86%，其次是建筑物1的15.22%，建筑物3的差异相对较小，为9.32%。结果表明，屋顶坡度的重建更容易受到几何简化和点云噪声的影响。屋顶高度与长度比率（Rh/L）显示出显著差异，特别是建筑物1（20.47%）和建筑物3（13.82%），而建筑物2的差异较小，为4.17%。此外，整体占地面积和建筑体积之间的差异也在案例研究之间有所不同。建筑物1的占地面积差异为6.20%，体积差异为13.06%，表明体积差异最大。建筑物2的占地面积差异为12.81%，尽管体积偏差仅为0.99%，表明结构的整体质量基本完好。建筑物3的占地面积差异最小，为0.52%，但体积差异较大，为10.60%，表明屋顶几何形状有轻微不规则。尽管如此，使用GEMA方法仍然可以达到良好的几何准确性。所有模型中的峰值在位置和比例上紧密相关。

表3比较了地面真实值和GEMA生成模型之间的几何特征，强调了尺寸比率、占地面积和建筑体积的差异。宽度与长度（W/L）比率在地面真实值和GEMA模型之间表现出稳健的对比。建筑物2的一致性最高，仅相差0.51%，而建筑物3的差异最大，为2.17%。相反，建筑物1的差异较大，为8.71%，表明重建的几何比率有轻微波动。较低的高度与长度（Hl/L）比率在建筑物之间表现出中等变化。建筑物2的差异为3.31%，而建筑物1的差异为6.67%。建筑物2的占地面积差异为12.81%，尽管体积偏差仅为0.99%，表明结构的整体质量基本完好。建筑物3的占地面积差异为6.20%，尽管体积差异仅为0.99%，表明屋顶几何形状有轻微不规则。总体而言，使用GEMA方法可以达到较高的几何准确性。所有模型中的峰值在位置和比例上紧密相关。半独立建筑（4号楼）的重建模型在主要几何参数上存在中度差异，宽度、长度和高度的变化分别为3.75%、5.73%和8.93%。高度的显著差异表明在垂直重建方面存在变异性。占地面积和体积的差异分别为11.47%和13.69%。联排别墅模型（5号楼）在三种情景中具有最高的几何一致性，宽度、长度和高度的变化分别为0.67%、1.13%和0.00%，这表明其基本结构比例得到了有效保持。占地面积和体积的差异可以忽略不计，分别为0.30%和0.48%。公寓楼（6号楼）的重建模型与实际测量值高度吻合，尺寸差异分别为宽度0.84%、长度5.63%和高度1.75%。占地面积和体积的差异分别为13.97%和1.63%，这表明尽管几何形状更为复杂，但整体建筑布局和比例仍得到了较好地保留。这些结果表明，使用GEMA生成的模型在各种复杂几何形状下都表现出良好的几何一致性，这与表3中展示的独立建筑的情况类似。尽管在垂直测量上可能存在细微不一致，尤其是对于半独立结构，但占地面积和建筑体积的微小变化证实了重建模型准确地反映了建筑的整体质量和比例。这些类型之间的最小偏差进一步证明了GEMA在多单元和几何结构复杂的建筑中也能保持尺寸稳定性和结构精度，从而验证了其在不同建筑类型应用中的适用性。

表4. 其他建筑类型的地面真实模型与GEMA后模型的几何特征比较（注：W、L和H分别表示建筑宽度、长度和高度，以及模型输出中的GEMA数据）。

| 建筑类型 | 地面真实模型 | GEMA模型 | 绝对差异 | 百分比 |
|------------|------------|------------|----------|---------|
| 4号楼 | 16.78 | 16.15 | 3.75% | 5.73% |
| | 19.02 | 20.11 | 8.93% | 13.69% |
| 5号楼 | 15.00 | 14.90 | 0.67% | 0.00% |
| | 26.50 | 26.20 | 0.30% | 0.48% |
| 6号楼 | 35.70 | 36.00 | 0.84% | 1.75% |

4.2.1. 热能模型比较与能量模拟结果
本节详细介绍了所有案例研究的热能模型比较和能量模拟结果。在本节中，我们对比了使用地面真实数据和GEMA后生成的热能模型的能量性能。由于热能模型的相似性，我们对地面真实模型和GEMA后模型的能量模拟进行了比较。能量模拟的框架、准确性和适用性基于供暖需求，因为在极寒冷的地区供暖需求更为突出。图10(a-f)展示了各建筑地面真实模型和GEMA后模型的每小时供暖能量需求。结果显示，所有建筑的供暖高峰期都出现在二月的夜间。图10(a)显示1号楼的每小时供暖需求在0到5.74千瓦时之间波动，图10(b)为0到5.13千瓦时；图10(c)显示2号楼为0到2.86千瓦时，图10(d)为0到3.03千瓦时；图10(e)和图10(f)分别显示3号楼为0到4千瓦时和0到3.44千瓦时。同样，图10(g-l)展示了各建筑地面真实模型和GEMA后模型的每小时制冷能量需求。图10(g)显示1号楼的每小时制冷需求在0到3.53千瓦时之间波动，图10(h)为0到3.31千瓦时；图10(i)显示2号楼为0到1.74千瓦时，图10(j)为0到1.62千瓦时；图10(k)显示3号楼为0到2.69千瓦时，图10(l)为0到2.44千瓦时。最后，图10(m-r)展示了各建筑地面真实模型和GEMA后模型的每小时电力负荷（不包括供暖和制冷）。图10(m)显示1号楼的每小时电力负荷在0到0.85千瓦时之间波动，图10(n)为0到0.80千瓦时；图10(o)显示2号楼为0到0.62千瓦时，图10(p)为0到0.54千瓦时；图10(q)显示3号楼为0到0.66千瓦时，图10(r)为0到0.67千瓦时。

GEMA后模型的模拟结果通过ASHRAE标准与地面真实数据进行了进一步验证。1号楼的供暖、制冷和电力负荷的CV(RMSE)值分别为16.97%、8.80%和6.58%，2号楼分别为12.07%、16.20%和15.49%，3号楼分别为23.27%、11.64%和1.79%，所有这些值都在ASHRAE推荐的可接受范围内（每小时变化≤30%）。这些结果支持了GEMA后模型在准确预测所有建筑物每小时模拟结果方面的有效性。

此外，本节还介绍了GEMA后模型在其他建筑类型中的应用，但没有与地面真实数据进行比较。由于GEMA后模型应用于主要由公寓、联排别墅和半独立建筑组成的不同社区，因此没有地面真实模型可供参考。图11展示了不同社区中的半独立建筑（4号楼）、联排别墅（5号楼）和公寓楼（6号楼）的每小时供暖能量需求，这些建筑分别具有两个、四个和四个（多个公寓单元）区域。这些建筑的所有区域的平均供暖负荷分别为约7.82千瓦时、7.45千瓦时和28.8千瓦时。公寓楼的较高负荷代表四层建筑中一个楼层的平均负荷。对于这些建筑，供暖需求在晚秋增加，在1月和2月的夜间达到峰值，然后在白天由于太阳得热和内部负荷的作用而下降到较低的水平。尽管不同建筑的峰值负荷有所不同，但过渡季节的需求通常在夏季降至接近零。具体来说，图11(a)显示出更深的午后低谷和更广泛的平缓期，表明在这些时间段内供暖负荷保持恒定，这可能是由于更多的玻璃表面或白天利用期间的增强内部隔热效果。图11(b)还显示了明显的黎明前的负荷增加和傍晚的负荷增加，表明了更好的回温效果和减少的日间热量吸收。半独立建筑和联排别墅都表现出两个一致的特征：(i) 在设定点恢复期间（大约06:00–08:00）的显著早晨负荷，以及(ii) 与占用率和部分回温效果相关的傍晚负荷增加（大约18:00–22:00）。图11(c)对应于更大跨区域的配置，显示出更高的供暖需求幅度和更陡峭的时间梯度，与图11(a)和图11(b)相比。从06:00到10:00以及18:00到22:00的持续高负荷表明了延迟的设定点恢复和跨区域的占用效应。

4.2.2. 使用GEMA在BEM模拟中捕捉阴影效应
本节介绍了对其中一个案例研究（1号楼）的外部阴影分析，评估了GEMA在反映附近障碍物（如挑檐和植被）对建筑表面太阳辐射影响方面的精度（未考虑季节性植被变化）。1号楼具有挑檐和周围树木，因此被用来演示和量化外部阴影对能源性能的影响。高分辨率无人机图像被分析以获得树冠的详细点云，然后通过高斯散布转换为连续网格以评估初步适用性。进一步的优化网格减少了阴影表面的数量，同时保持了树冠内部的复杂形状。这些优化网格为在BEM中模拟阴影表面提供了有效的基础，确保了计算资源的高效利用，同时没有牺牲阴影分析的完整性。

图12可视化了建筑表面入射太阳辐射的平均季节性变化，对比了有树木阴影和无阴影的情况，以评估基于高斯散布的技术。图表显示，植被阴影持续减少了太阳辐射，尽管其相对效果存在显著的季节性变化。冬季，阴影导致入射太阳能量估计减少了22.5%。春季，阴影效应减弱，植被减少了大约11.1%的太阳辐射。与冬季相比，这个比例的减少表明太阳角度开始上升，整体辐照度水平提高，尽管树冠效应存在。夏季的相对影响最小，阴影减少了大约8.9%的太阳辐射。尽管整个季节的太阳辐射水平较高，但太阳角度的增加提供了更多的直接太阳辐射，因此降低了阴影的相对效果。然而，秋季的影响较为明显，阴影减少了大约15.7%。随着太阳角度的减小，阴影比夏季更加显著。

4.2.3. 视频质量对建筑几何和热模型的敏感性
图13反映了使用密集化和常规COLMAP初始化的敏感性分析结果，这些初始化在多次运行中保持一致。每次运行进行10,000次迭代以测试收敛的稳健性。这种方法对于使用原始分辨率的一半甚至四分之一（1920 × 1080）都是相对稳定的。从图13（标签a）可以看出，密集化过程处理了多个空洞。密集化允许这些低频率区域被均匀初始化，减少了减轻空洞和其他几何缺陷（如图13（标签c）中的弯曲墙方向）所需的视频质量。2号楼也有一些小空洞，这些空洞通过简化或密集化过程本身得到了修复。尽管如此，观察到密集化初始化在较低分辨率和迭代限制下可能导致问题，如图13（标签d）所示，墙上出现了类似突起的效果。这些特征加剧了密集化阶段的误差，导致本应平坦的表面出现平滑的突起。尽管如此，通过减少空洞、降低对COLMAP初始化的依赖以及整体增强低频区域，实际效益和一致性得到了提升。

图13显示了敏感性分析的网格结果。一些显著特征被标记出来：a) 不同分辨率下1号楼网格结果中的空洞或缺失信息，在未密集化的结果中可以看到明显空洞；b) 在使用密集化时，两个分辨率下的2号楼也观察到小空洞；c) 低频墙壁上的曲面几何形状导致表面不准确；d) 2号楼中由于密集化产生的残余噪声导致的类似突起的效果，尽管结果显示表面是填充的，但可见的表面伪影降低了墙壁面的共面性。需要注意的是，简化过程是非确定性的；显示了原始的简化结果以供分析。空洞和墙壁缺陷可能不会出现在完全相同的位置；然而，在密集化运行中，整体伪影外观有所减少。中间结果显示了最终简化和修补空洞之前的过程，以说明伪影的起源。立面区域的伪影是由于透明物体相互作用造成的，无论是否进行了密集化处理。对于建筑1，其整体建筑、立面和场景的复杂性较高，在960×540的分辨率下（未进行密集化处理），年能量预估值比真实值低大约12.50%（19,407千瓦时）。这可能是由于在低频区域非密集化重建中出现的表面伪影和错误特征，这些因素降低了热模型的质量。在相同的分辨率下实施密集化初始化后（21,339千瓦时；低估了3.79%），结果与真实值更加吻合，这归因于密集化对低频信息的增强，减少了缺失的几何信息。在480×270分辨率下，由于分辨率过低导致的伪影，非密集化结果无法用于模拟。经过密集化初始化的模型能够有效转化为热模型，减少了伪影和缺失的低频信息，年能耗估计为20,268千瓦时（低估了8.62%）。

表5. 高斯点的数量（#）以及GEMA过程在有/无不密集化情况下的P-SSIM值、处理时间，以及在不同降低分辨率下的年能耗。N/A表示由于输入网格模型中的伪影或错误特征，在进行热转换之前，能量模拟失败。

| 建筑 | 时间（分钟：秒） | 分辨率 | P-SSIM | 密集化（是/否） | 高斯点数量 | 年能耗（千瓦时） | 年真实能耗（千瓦时） |
|------|------------|--------|-----------|-------------|-----------|-------------|
| 1 | 11:12 | 960×540 | 0.80 | N | 715,803 | 19,407 | 22,179 |
| | 12:42 | 960×540 | 0.81 | Y | 764,689 | 21,339 |
| | 14:52 | 480×270 | 0.84 | N | 464,054 | N/A |
| | 15:40 | 480×270 | 0.68 | Y | 473,000 | 20,268 |
| | 16:26 | 960×540 | 0.82 | N | 10,417 | 12,640 |
| | 17:21 | 960×540 | 0.79 | Y | 10,399 | 13,947 |
| | 18:58 | 480×270 | 0.76 | N | 475,612 | 12,834 |
| | 19:15 | 480×270 | 0.77 | Y | 499,515 | 11,990 |

建筑2的建筑、立面和场景复杂性较低，密集化带来的效果不太明显。在960×540分辨率下（12,640千瓦时；低估了1.08%），模型与真实值（12,778千瓦时）接近。当使用密集化初始化时，能耗增加到13,947千瓦时（高估了9.15%），与真实值的偏差更大。这表明在简单情况下，密集化的效果有限。在较低分辨率（480×270）下，两种情况的能耗变化不大：非密集化情况下为12,834千瓦时（高估了0.44%），密集化情况下为11,990千瓦时（低估了6.17%）。结果表明，尽管图像输入经过了大幅缩放，GEMA方法仍然能够产生相对一致的能耗估计，特别是在更复杂的场景中，密集化在保持精度方面效果显著。这些配置下能耗预测的一致性说明所提出的重建流程对视频输入质量的波动具有较好的适应性。

通过研究图14中显示的氡响应可视化结果可以看出，问题出在建筑的凸起屋顶特征上，这一特征在优化后的真实模型中被忽略了。此外，在墙壁（接近θ=900度处）以及屋顶上可以看到明显的模糊现象，尤其是由于平滑凸起造成的伪影（如图14(d)所示）。总体而言，图14显示了结果的一致性和不对齐性，模糊和异常响应偏离了集中区域。从建筑2的结果可以看出，未密集化处理的情况（图14(f)和图14(g)）相比图14(h)和图14(i)的响应具有更少的异常和模糊特征，同样地，建筑1的图14(a)和图14(c)之间也有类似情况。尽管较高分辨率（如建筑2）可能带来优势，但较低分辨率有助于抑制高斯过度拟合透明表面的错误[49]。在这种情况下，过度适应可能会导致表面变形，而这些变形在特征被模糊后变得不那么明显。通过比较GEMA处理后的P-SSIM分数（原始高分辨率为0.8806，半分辨率密集化后为0.9472），可以发现这种优化在减少孔洞特征方面具有实际意义，这些孔洞特征可能会影响后续建模任务。尽管简化后的特征具有不确定性，但在密集化的高分辨率网格结果中，低频区域的孔洞和表面变形得到了缓解，从而减少了下游错误。这表明，尽管简化了特征，但在保持精确特征分辨率的同时，密集化在降低能耗预测的不确定性方面具有实际效果。

**下载：**下载高分辨率图像（471KB）/ 下载全尺寸图像

**图14. 不同分辨率和框架下简化网格的氡响应可视化：** a) 未密集化的建筑1（960×540分辨率）；b) 未密集化的建筑1（480×270分辨率）；c) 强化后的建筑1（960×540分辨率）；d) 强化后的建筑1（480×270分辨率）；e) 真实值的建筑1；f) 未密集化的建筑2（960×540分辨率）；g) 未密集化的建筑2（480×270分辨率）；h) 强化后的建筑2（960×540分辨率）；i) 强化后的建筑2（480×270分辨率）；j) 真实值的建筑2。

在未密集化的处理中，较低分辨率（如960×540）下缺失的屋顶元素会导致边界模糊，这些模糊边界在氡响应域中表现为明显的凹陷。一旦挤出特征的边界边缘被闭合，后续的简化步骤会移除分离的体积，从而减轻边界元素预处理的负担。在未密集化的较低分辨率（如480×270）下，跨越垂直墙壁的复杂接缝和嘈杂的角落凹陷可能导致孔洞填充阶段产生内部倾斜的墙壁，这些倾斜墙壁在方向域中产生虚假响应，从而对局部偏差和评估指标产生有限影响。相反，在相同分辨率下进行密集化处理时，倾斜度较小的错误墙壁可能会偏离屋顶响应，从而对P-SSIM指标产生更大影响。这些效应可能导致视觉效果较差的结果获得不合理的较高分数，说明P-SSIM指标在处理3D空间中的空间局部性时存在局限性，不能准确反映相似性。因此，应结合视觉检查和下游能量模拟性能来解读指标结果。尽管由于错误特征的相似性，未密集化的四分之一分辨率下P-SSIM分数较高，但由于热模型转换不良，最终的能量模拟结果较差。在密集化处理后，低分辨率下的视觉差异更大，导致P-SSIM分数降低。总体而言，在保持几何精度的前提下，较低输入分辨率具有更好的适应性。尽管在密集化过程中会出现一些突出特征的trade-offs，但作为初始化方法，它在不同分辨率下仍保持稳定。

所提出的方法结合了现代的NVS技术和基于几何的增强方法，实现了到边界元素法（BEM）的几何创建流程。2DGS的使用能够生成精确且细节丰富的模型，并可导出到不同的Level of Detail（LoD）。虽然本工作侧重于快速BEM建模的简化处理，但更高分辨率的网格输出也可用于其他用途。在RTX 3060上进行150帧视频处理的计算时间约为25分钟，需要15,000个2DGS基本单元。同样数据集的密集COLMAP重建大约需要45分钟。NeRF系列表面重建方法（如NeuS/Neuralangelo）通常需要数小时（约8-16小时）[50],[51]才能达到适合网格渲染的质量，而我们的方法在RTX 3060上仅需约25分钟，且在（960×560）到（580×270）的分辨率范围内时间进一步缩短到约10分钟。过程中的额外密集化增强允许使用更少的迭代次数来获得合适的几何精度。通过实验发现，运行时间大致与帧数和图像面积以及每个tile可见的斑点数量成线性增长。因此，在达到100万个高斯点后限制密集化处理可以减轻运行时间问题。这与COLMAP方法中增加帧数所带来的复杂性增加类似[43]。

**5. 局限性和后续工作：**对于只关注一个建筑物的情况，运行时间和超参数选择不是最关键的因素；然而，当存在多个感兴趣的对象时，非传统的视频路径或飞行稀疏性可能会迅速成为重建过程中的问题。在这种情况下，由于数据量过大或低频区域（如屋顶和墙壁）的稀疏性，经常会出现内存错误。尽管有网格填充保护机制，但在高场景复杂性和低分辨率下，这些机制有时难以处理网格中的复杂或大量缺陷。此外，NVS与立面的交互也非常复杂。由于斑点没有考虑反射率，可能会出现异常特征。为了满足优化过程中的相似性指标，反射率影响（通常是高频区域）通常会用物理基本单元来表示立面特征后面的反射。这可能导致敏感度分析中的孔洞问题（如图13所示）。从感知质量的角度来看，立面特征通常被很好地优化，因此基于真实数据的标准对象检测器可以与这些特征进行交互。SSIM指标可以捕捉渲染图像与原始图像之间的差异，这在场景优化中得到了进一步缓解。后续工作应包括针对立面变化的具体敏感性分析；然而，这些变化在能量解决方案中具有关键影响。通常可以使用2DGS的常规训练参数，其中网格密度是主要影响因素。尽管如此，将分辨率从128增加到1024对P-SSIM指标的影响小于5%，但会在网格中产生小的几何孔洞，这可能会对下游任务造成问题。当使用无边界提取过程时，该方法会受到严重影响，因为大多数相关场景包括远处的天空和环境信息；有边界的提取可以减少许多退化错误。此外，还需要进行消融研究，以评估2DGS超参数在更极端场景下对结果网格的影响。在实际应用中，需要考虑消费级GPU的内存负载限制，特别是当处理超过100万个高斯点时。在这种情况下，可以降低图像输入分辨率以减少高频率信息的影响，从而降低整体复杂性。同样，可以在训练中禁用高斯密集化，以确保计算资源的有效利用。尽管简化后的特征具有不确定性，但在密集化的高分辨率网格结果中，低频区域的孔洞和表面变形得到了缓解。此外，发现半分辨率的中间值可以在减少立面特征过拟合的同时提高处理速度，同时保持特征分辨率的精确性。这为更复杂建筑的分辨率选择提供了依据。

总之，所提出的方法结合了现代NVS技术和基于几何的增强方法，实现了到BEM的几何创建流程。2DGS的使用使得能够生成精确且细节丰富的模型，并可以在不同LoD下导出。尽管如此，更高分辨率的网格输出也可用于其他应用。在RTX 3060上进行150帧视频处理的计算时间为约25分钟，需要15,000个2DGS基本单元。密集COLMAP重建在同一数据集上的时间约为45分钟。NeRF系列的表面重建方法（如NeuS/Neuralangelo）通常每个场景需要数小时[50],[51]才能达到适合网格渲染的质量，而我们的方法在RTX 3060上仅需约25分钟，且在（960×560）到（580×270）的分辨率范围内时间进一步缩短到约10分钟。过程中的额外密集化增强允许使用更少的迭代次数来获得适当的几何精度。根据经验，运行时间与帧数和图像面积以及每个tile的平均可见斑点数量大致成线性增长。因此，在达到100万个高斯点限制后限制密集化处理可以缓解运行时间问题。

**局限性与后续工作：**对于只关注一个建筑物的情况，运行时间和超参数选择不是最重要的问题；然而，当有多个对象且视频路径或飞行稀疏性较高时，这些问题可能会迅速成为重建中的难点。在这些情况下，由于数据量过大或特定区域的稀疏性（如屋顶和墙壁），经常会出现内存错误。尽管有网格填充保护机制，但在高场景复杂性和低分辨率下，这些机制可能难以处理网格中的复杂或缺失的缺陷。此外，NVS与立面的交互也非常复杂。由于斑点没有考虑反射率，可能会出现异常特征。为了满足优化过程中的相似性指标，反射率的影响（通常是高频区域）通常会用代表立面特征后面物体的物理基本单元进行映射。这有时会导致敏感度分析中的孔洞问题（如图13所示）。从感知质量角度来看，立面特征通常被很好地优化，因此基于真实数据的标准对象检测器可以与其交互。SSIM指标可以捕捉渲染图像与原始图像之间的差异，这进一步通过场景优化得到了缓解。后续工作应包括针对立面变化的敏感性分析；然而，这些变化在能量解决方案中具有关键影响。同样，可以使用2DGS的常规训练参数，其中网格密度是主要影响因素。尽管如此，将分辨率从128增加到1024对P-SSIM指标的影响小于5%，但可能在网格中产生小的几何孔洞，这会对下游任务造成问题。当使用无边界提取过程时，该方法会受到严重影响，因为大多数相关场景包含远处的天空和环境信息；有边界的提取可以减少许多退化错误。此外，还需要进行消融研究，以评估2DGS超参数在更极端场景下对结果网格的影响。在实际应用中，需要考虑消费级GPU的内存负载限制，特别是当处理超过100万个高斯点时。在这种情况下，可以降低图像输入分辨率以减少高频率信息的影响，从而降低整体复杂性。同样，可以在训练中禁用高斯密集化，以确保计算资源的有效利用。虽然NVS技术可以处理一定程度的遮挡情况，但如果某个视图中的相关对象被完全遮挡，那么优化结果中将不会显示该对象。例如，如果立面特征前方有大树或相关物体，那么该物体在重建中将不会被显示。对于立面映射，目前使用的是基于盒子的对象检测器（YOLOx）。因此，形状不规则的立面特征（如椭圆形）会导致映射错误。可以通过2DGS模型优化立面的视图，以获取完美的平面视图进行检测，并解决方向相关问题；然而，如果表面是弯曲的，那么它将被错误地映射为一个平面盒子。此外，如果在视图存在遮挡且无法在遮挡部分和目标之间合成视图，则必须使用倾斜的相机角度，这会导致特征深度偏差的映射错误。为了解决这些问题，应将盒子检测与语义分割网络（如SAM [31]）结合使用，以获得更准确的非平面特征表示。尽管采取了缓解策略，但对COLMAP初始化的依赖仍然普遍存在。极端糟糕的迭代会影响到流程的每个阶段，需要实际考虑。COLMAP的初始化和密集化也保持稳定；然而，众所周知，SfM对输入帧质量非常敏感[52]。理想情况下，捕获率应处于较高且稳定的水平（30帧/秒）和最高可用分辨率；然而，如本研究所展示的，如果应用实际考虑因素，较低分辨率也是可行的。如前所述，本工作在高质量下进行（4K 30帧/秒或1080p 30帧/秒），并在完整的GEMA方法中始终降级为1080p。在拍摄过程中，我们特别注重确保缓慢、有序的采集过程。为此，我们采用了两条螺旋路径，在不同的海拔高度上分别采集建筑物的立面和屋顶信息，每栋建筑物需要2到4分钟的控制飞行时间。这样做可以最大限度地减少模糊现象，因为模糊现象会损害特征匹配，因为重要的高频信息在各个帧之间会丢失，而这些信息必须保持一致[53]。我们的目标是减缓无人机飞行速度并精心规划飞行路径，以便最终生成的视频能够实现全面的辐射覆盖，并且包含大约100帧图像，且模糊现象最小。在测试中，我们收集了60到130帧图像，这些图像的模糊程度较低，并且涵盖了多个海拔高度的信息。为了放大场景特征以便于特征匹配和相关性分析，我们更倾向于选择接近中心物体的飞行路径；同时，这也有助于提高GEMA处理流程的整体细节质量。

在密度增强流程中还有几个改进的空间。首先，固有的深度不一致性可能导致意外的图案出现，例如斜边的“翘边”现象。这种情况在屋顶的顶端尤为明显，因为从一侧看屋顶时，屋顶真实高度的不确定性会导致屋顶顶部的深度比例出现较大变化。同样，初始COLMAP阶段的地平面剔除操作也非常重要。将x-y值标准化为局部尺度可能会导致翘边现象，通过将锚点尺度与其最近的MiDaS点进行标准化（反向搜索），然后再直接应用锚点尺度，可以减少这种问题。地面点的密度如果过于接近相机视野，可能会导致遮挡现象，从而造成不必要的尺度变化，且如果不对地面点进行剔除，这种遮挡现象会更加明显。此外，由于密度增强过程中必要的深度剔除操作，稀疏云和密集云之间存在较大的范围差异。整个流程是基于以对象为中心的数据和场景构建的。对于包含多个感兴趣对象的场景，这可能会导致严重的深度混叠问题，加剧深度图的不均匀性。在这种情况下，应该采用智能掩蔽方法来仅针对图像的相关部分进行处理，而不仅仅是基于深度。例如，可以探索基于语义的分割方法（如SAM）。目前，深度图像和相机视角的采样是由用户输入变量均匀控制的；系统对视角的数量和选择都很敏感，因此应该寻求更智能的方法来选择最佳且不矛盾的视角。

网格后处理的方案和强度取决于建筑物的几何复杂性：简单、主要为平面的建筑体需要较少的干预，而结构复杂的立面则需要更激进的简化或重建，以保持可处理的BEM（Building Electrical Modeling）网格。对于典型的住宅建筑平面几何形状，采用保留特征的网格简化[46]和基于多边形的表面重建[47][48]技术，并结合针对性的人工修正，可以在LoD3级别生成适合BEM的网格。然而，目前提出的工作流程尚未在几何结构复杂的建筑类型（如商业高层建筑或具有广泛曲线或非平面立面的混合用途建筑）上进行评估，在这些建筑类型中，当前方法所基于的平面分割假设可能不再适用，且元素数量可能会超出实际BEM模型的限制。未来的工作应该通过整合适应性简化策略来扩展这一流程，这些策略能够在保留关键非平面特征的同时满足BEM网格的要求。

6. 结论

本研究提出了基于高斯的包络模型自动化方法（GEMA），这是一种将高斯场绘制技术应用于BEM的新方法，它实现了3D重建和能量模拟之间的桥梁作用。通过将视频转换为3D高斯场，再将其转换为结构化的封闭表面模型，该框架能够进行准确高效的能量模拟，同时减少人工操作。2D高斯场绘制（2DGS）在保持几何精度方面的有效性通过几何测量、离散3D Radon变换的平面结构分析以及场景重现观察得到了验证。研究结果强调了COLMAP预处理和初始化质量的关键作用，因为不合适的设置会显著影响最终重建的准确性。实验结果表明，重建出的几何形状具有较高的保真度，最大维度比率差异仅为20.47%，相对于真实值。经过GEMA处理后的三栋独立建筑的热量模型体积分别变化了13.06%、0.99%和10.60%，占地面积分别变化了6.20%、12.81%和0.52%。新提出的平面相似性（P-SSIM）得分超过了0.85，达到0.8806、0.9032和0.9003，表明GEMA处理后的模型具有很强的结构准确性。在能量模拟方面，独立建筑每小时的供暖需求波动范围为0到5.74千瓦时；半独立建筑、联排别墅和公寓建筑的供暖需求波动范围分别为0到7.82千瓦时、0到7.45千瓦时和0到28.8千瓦时。CV(RMSE)值均在ASHRAE的可接受范围内（≤30%），进一步验证了该方法的可靠性。分辨率敏感性测试（1920×1080、960×540、480×270）表明，GEMA处理后的年能源预测值与真实值的偏差在±0.5%到±12.5%之间，显示出该方法对视频缩放的鲁棒性。此外，密度增强提升了表面的真实感，减少了低频区域的模糊现象，并通过最小化立面不连续性稳定了热估算结果。这些结果证实了该方法在几何和热精度方面的优越性，使其成为可持续建筑分析和更广泛数字建模工作流程中的高效解决方案。尽管该方法主要适用于具有平面立面的住宅建筑，但其仍存在一些局限性：在多对象场景和稀疏飞行覆盖情况下，性能会下降，此时深度混叠、网格稀疏性和内存限制会变得明显。立面重建仍然容易受到反射率驱动的噪声影响以及COLMAP初始化质量的影响，而且仅凭有限的提取手段很难完全修正几何复杂场景中的网格缺陷。这些限制凸显了精心规划拍摄过程的重要性，需要在多个海拔高度进行缓慢、高覆盖率的飞行，并采用保守的训练参数设置，包括限制高斯场生成的数量和输入分辨率。未来的工作将朝三个方向发展：（i）利用语义感知的掩蔽技术智能选择视角，以减少密集场景中的遮挡和深度混叠；（ii）通过改进高斯场初始化和平行性校正来增强深度密度；（iii）系统性地研究超参数对模型重建敏感性的影响，以适应不同类型的建筑。对于具有复杂立面的BEM应用，还需要后续的后处理步骤，包括平面化、拓扑清理和防水转换，以生成可进行分析的几何模型。

### CRediT作者贡献声明

- SoumyaDeep Chowdhury：可视化、验证、软件开发、方法论研究、形式化分析、数据整理、概念构建、初稿撰写。
- Misbaudeen Aderemi Adesanya：可视化、验证、软件开发、方法论研究、形式化分析、初稿撰写。
- Noushad Ahamed Chittoor Mohammed：可视化、软件开发、方法论研究、概念构建、初稿撰写。
- Kanwarpartap Singh Gill：可视化、验证、软件开发、方法论研究、数据整理、写作审查与编辑。
- Kuljeet Singh Grewal：项目监督、资源协调、项目管理、资金获取、概念构建、写作审查与编辑、初稿撰写。

热点排行