住宅建筑的多指标性能预测：一种基于交叉注意力（cross-attention）的多模态融合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BUILDING AND ENVIRONMENT》：Multi-Indicator Performance Prediction in Residential Buildings: A multimodal fusion method based on cross-attention

【字体：大中小】 时间：2026年04月11日 来源：BUILDING AND ENVIRONMENT 7.6

编辑推荐：

　　多模态学习框架CM-MTAN通过跨模态注意力机制整合平面图、文本、数值及拓扑信息，实现建筑日照、热舒适、能耗及碳排放的联合预测，在MRPB基准数据集上显著优于单任务模型。

Jiequn Lu | Wangtu (Ato) Xu | Yanjie Wen

厦门大学建筑与土木工程学院城市规划系，中国厦门361005

摘要

在住宅建筑设计初期，对日光、热舒适度、能源使用和碳排放的综合性预测在基于性能的设计优化中起着不可替代的作用。然而，现有的深度学习方法无法同时捕捉跨指标的相互依赖性以及整合异构数据模式。为了解决这些问题，本研究开发了一个包含约8,000个样本的多模态住宅性能基准（MRPB），这些样本包含2D平面图、文本描述、数值属性和拓扑信息。基于该基准，我们提出了一个跨模态多任务注意力网络（CM-MTAN），该网络采用双向跨模态注意力机制进行联合预测，其中每种模式轮流作为查询（Query），而其他模式作为键（Keys）和值（Values）。然后通过任务级注意力模块聚合学习到的跨模态表示，以实现多指标的同时预测。综合实验表明，CM-MTAN在所有四个指标上都达到了最先进的性能水平，且始终优于所有基线方法。除了准确性之外，学习到的跨模态注意力分布还提供了可解释的、基于物理的指导，有助于设计变量的优先级排序，支持早期的基于性能的决策制定。所提出的方法既具有高预测准确性，又具有跨模态的可解释性，为低碳住宅设计实践提供了技术支持。

引言

建筑行业约占全球最终能源消耗的36%，以及能源相关二氧化碳排放量的近40% [1]。随着城市化进程的加快和对热舒适度需求的增加，如果不采取有效措施，预计到2050年建筑能源消耗将增加70% [2]。早期的设计决策尤为重要，因为它们会影响建筑物生命周期内高达80%的环境影响 [3,4]；然而，对于实现碳中和目标最为关键的性能指标——有效日光照度（UDI）、预测平均投票值（PMV）、能源使用强度（EUI）和运营碳排放（CE）——受相互竞争的物理机制的影响，这些机制难以同时进行优化。一个典型的例子是窗墙比（WWR）：增加玻璃面积可以提高UDI，但也会增加太阳得热和EUI，而其对PMV的净效应则不明确，因为它既通过直接太阳辐射提高了平均辐射温度，又增强了交叉通风潜力。这种相互依赖性意味着孤立地优化任何一个指标都可能恶化其他指标，因此需要一个能够在一个统一表示中捕捉这些权衡的联合建模框架。多任务学习提供了一个原则性的替代方案。一个跨任务的联合模型可以同时暴露于来自所有四个性能目标的误差梯度中 [5]。UDI、PMV、EUI和CE受重叠的热力学和辐射机制的支配，因此这些梯度部分包含冗余信息，部分包含互补信息，关于相同的物理特征。因此，这些考虑因素确立了一个明确的要求：在早期设计阶段，准确、高效且物理上一致的UDI、PMV、EUI和CE的联合预测无法通过单任务模型或传统模拟流程得到充分解决。这些指标的相互依赖性要求一个框架，既能同时编码它们共有的物理机制，又能满足它们特定的模态要求。

传统方法主要依赖于监测和统计分析，以及基于热平衡原理和物理方程的专业软件或插件 [6]。通过参数化模型，这些工具可以生成详细的性能指标，其高精度和可靠性使得结果非常有说服力。例如，DesignBuilder和EnergyPlus在能源使用模拟中得到了广泛应用 [7]。对于热舒适度和日光分析，Rhino和Grasshopper通常被用作建模平台，并集成Honeybee和Ladybug插件来进行相应的模拟。这些方法允许对模拟过程进行精确控制，并能产生高精度的结果。然而，在大型建筑项目中，这些能力受到越来越大的限制，因为繁重的计算工作和长时间的模拟会带来实质性障碍。在早期设计阶段，当许多细节尚未确定，或者材料或施工计划的频繁变化降低了详细模拟方法的实用性时，这些障碍变得更加严重。

近年来，深度学习方法已被广泛应用于建筑性能预测任务中，涵盖了能源使用、供暖和制冷负荷、室内热舒适度和日光等指标 [3,8]。在设计阶段，越来越多的研究将建筑几何形状、围护结构参数和气候指标编码为数值特征，并使用前馈或基于物理的神经网络来预测年度能源使用和效率水平 [9], [10], [11], [12]。在运营阶段，卷积神经网络（CNNs）、循环神经网络（RNNs）及其相关变体被用来从历史能源使用数据、天气数据和占用时间表中自动提取时间和非线性模式，以进行短期和中期负荷预测 [13], [14], [15]。随着RPLAN等平面图数据集的发布，基于图像和布局的深度模型也被用于快速评估日光可用性、眩光和太阳辐射，并进一步与多模态特征或生成模型结合，以支持综合布局和性能优化 [16]。

然而，大多数现有模型仅关注一个或少数几个性能指标。它们的预测范围通常限于单一任务，如能源使用、日光或热舒适度，并未扩展到对建筑环境响应的更全面描述 [17]。由于输入模态通常主要依赖于几何参数、物理属性或简单的图像特征，这些模型难以捕捉设计过程中跨越尺度和语义的长期依赖性，这限制了它们的表示能力。现有的多模态方法通常采用特征级连接或浅层编码器级融合，仅在模态之间提供有限的整合。因此，它们无法充分支持语义、拓扑和数值信息之间的有效交互，最终限制了预测准确性和模型的泛化能力。有必要建立一个统一的方法论框架，整合异构的多模态数据源，捕捉跨模态关系结构，并支持建筑性能指标的多任务推理。这样的框架将提高建筑性能评估的深度、广度和适用性。此外，数据驱动的方法需要标准化和可用的数据集，而构建此类数据集在数据收集和处理方面成本高昂且技术上具有挑战性。这些问题继续限制了数据驱动方法的更广泛应用。

为了解决这些限制，我们开发了一个多模态注意力网络，用于同时预测多个建筑性能指标。该架构的核心是一个结构化的模态查询融合模块，它整合了图像、文本、数值特征和房间级别的拓扑信息。在这个模块中，每种模态依次使用自己的令牌嵌入作为查询（Q），而其余模态的连接嵌入形成键（K）和值（V）。为了进一步增强建筑配置和空间布局的语义表示，在融合模块之后引入了一个跨模态增强层。该层应用特定于模态的跨模态注意力机制来细化融合的模态令牌，每种模态都关注其他模态以捕捉跨模态依赖性。随后，我们生成成对的模态令牌来捕捉模态组合之间的协同效应。最后，我们开发了一个多任务回归框架，对来自四种模态的融合表示应用任务级注意力。该框架使得多个建筑性能指标的预测成为可能。

本研究的贡献总结如下：

•

本研究开发了一个多模态住宅性能基准（MRPB），将住宅建筑的平面图图像、描述性文本、数值特征和图结构整合到一个统一的多模态数据集中，并附有同步的性能标签。通过采用系统的跨模态对齐和统一的注释协议，该基准克服了现有碎片化数据集的局限性，这些数据集缺乏一致的多模态对应关系和同步的性能标签，从而显著提高了数据质量和综合建筑性能预测的评估能力。

•

本研究提出了一个跨模态多任务注意力网络（CM-MTAN），该网络具有特定于模态的查询向量，通过一对多注意力机制实现结构化的跨模态融合。通过允许每种模态通过多头注意力选择性地关注所有其他模态的聚合嵌入，这种方法克服了传统成对注意力策略的计算可扩展性限制，从而显著提高了多性能指标的跨模态相关性和预测准确性。

•

本研究使用MAE、RMSE、R2、MAPE和CV-RMSE等评估指标对CM-MTAN和基线多任务学习方法进行了广泛的比较测试。此外，通过系统的消融实验和跨不同性能指标的注意力权重可视化，验证了每个架构组件的有效性以及跨模态注意力机制的可解释性。

本文的其余部分安排如下。第2节回顾了相关工作。第3节描述了多模态数据集的构建和性能指标。第4节介绍了所提出的预测模型，包括多模态特征标记化、基线方法和跨模态多头注意力融合机制。第5节介绍了训练过程，并报告了实验结果以及统计分析和注意力权重解释。第6节总结了研究并讨论了未来的研究方向。

基于深度学习的建筑性能预测

传统的建筑性能评估方法通常依赖于资源密集型的模拟或长期监测 [7,18,19]。尽管基于模拟的方法能够产生精确的结果，但它们对专家设置和大量计算的依赖限制了早期设计的可扩展性 [6,20]。最近的研究越来越多地转向神经网络和深度学习。这些模型在特征提取和表示学习方面具有强大的能力，使它们能够

多模态特征数据的收集

本研究使用公开可用的RPLAN数据集作为主要数据来源。它包含大约80,000个住宅平面图样本，每个样本存储为一个四通道256×256的图像，编码了内部边界、外部边界、房间身份和房间类型标签 [16]。使用Rhinoceros和Grasshopper中的Venis插件将基于像素的平面图转换为度量几何。

为了确保气候多样性，从五个主要气候区中选择了14个典型的中国城市

结果与讨论

本节首先介绍了实施细节，基于这些细节进行了广泛的实验，并对结果进行了详细讨论。

结论

开发集成预测方法非常重要且必要，因为住宅建筑的性能取决于多个相互作用的因素。利用开源的RPLAN数据集，本研究构建了一个多模态数据集，其中包含了图像、文本、数值特征和空间拓扑。开发了一个基于跨模态注意力的多任务模型，用于联合预测UDI、PMV、EUI和运营碳排放，旨在提供一个快速且稳健的框架

资金

本研究没有从公共、商业或非营利部门的资助机构获得任何特定资助。

CRediT作者贡献声明

Jiequn Lu：撰写——原始草稿、软件、形式分析、数据管理、概念化。Wangtu (Ato) Xu：监督、方法论、调查、资金获取。Yanjie Wen：撰写——审稿与编辑、可视化、验证、软件、资源、项目管理。

联系信箱：

粤ICP备09063491号

摘要

引言

基于深度学习的建筑性能预测

多模态特征数据的收集

结果与讨论

结论

资金

CRediT作者贡献声明

热点排行