基于街景与遥感影像融合的街道尺度城市多频噪声建模与制图

【字体：大中小】 时间：2026年03月02日 来源：Computers, Environment and Urban Systems 8.3

编辑推荐：

　　为解决传统噪声建模方法成本高、覆盖有限且仅关注总声压级而忽略频率特性的问题，本研究创新性地融合街景影像(SVI)与遥感影像(RSI)，利用预训练视觉变换器架构构建多源融合模型，成功实现了珠海市香洲区街道尺度的多频噪声(100 Hz-16,000 Hz)暴露的精确建模与高分辨率(50 m)制图。结果表明，融合模型预测精度高(R2达0.417-0.649)，并揭示了建筑、道路、人行道和地形是影响噪声预测的四个最重要视觉要素。该研究为精细化城市噪声管理与健康导向的城市规划提供了新方法支持。

城市噪声污染已成为继空气污染和水污染之后的第三大环境健康威胁。无论是恼人的交通鸣笛，还是持续不断的施工低频震动，亦或是密集人群的交谈声，共同构成了现代都市复杂而难以逃脱的“声景”。长久暴露于高分贝噪声环境，已被流行病学研究证实会显著增加心血管疾病、睡眠障碍和心理压力的风险。因此，对城市噪声暴露进行精确、大尺度的建模，是健康城市研究和精准治理面临的关键科学挑战。

传统上，评估城市噪声环境主要有三种途径，但各有局限。第一种是部署固定或移动传感器进行实地测量，这种方法精度高但成本巨大，难以大规模推广。第二种是基于土地利用、建筑环境等静态数据，利用机器学习方法推断噪声，但这类模型难以捕捉动态的城市要素，在复杂多样的城市环境中泛化能力不足。第三种是利用时空大数据进行间接估计，例如基于位置的噪声投诉数据或街景影像。其中，街景影像凭借其公开可及、图像内容丰富、空间覆盖度高等优势，已被广泛应用于大量城市研究中。然而，街景采样的时间差异会受到随机交通和行人流状态的显著影响，使得噪声推断易受“时间偏差”干扰，可能产生有偏的结论。例如，同一街道在交通高峰时段与平峰时段采集的影像中，车辆和行人所占像素比例差异巨大，可能导致模型无法收敛甚至得出矛盾结果。与此同时，现有研究提出的噪声建模方法大多只能评估噪声强度（分贝值），而城市声景远比单一的“响度”维度复杂多样，不同频率的声波对人类产生的生理和行为影响各异。例如，重型卡车经过时产生的低沉轰鸣（集中于低频），与轿车、行人交谈的声音（集中于中高频），即使分贝值相同，对人的影响也截然不同。这种对噪声频率特性的忽视，是当前城市噪声研究的一个重要空白。

为应对上述挑战，一项发表在《Computers, Environment and Urban Systems》上的研究提出了一种创新的多源融合方法。该研究由香港中文大学太空与地球信息科学研究所的科研团队完成。研究人员以中国珠海市香洲区为案例，巧妙地结合了街景影像的微观视角和遥感影像的宏观视角，旨在实现对城市街道尺度多频真实噪声暴露状况的建模与制图。

为了开展这项研究，研究人员整合了多种前沿技术方法。首先，他们通过志愿者骑行调查，采集了包含23个频带(100 Hz-16,000 Hz)的35,276条街道噪声音频作为地面真值数据。同时，系统采集了研究区内约6000张街景影像及对应的遥感影像。通过空间匹配，最终构建了包含923个有效街景-噪声配对样本的数据集用于模型训练与验证。在建模核心，研究基于预训练的视觉变换器(Vision Transformer, ViT)架构构建了多源融合模型，分别使用在大型网络图像数据集和卫星图像数据集上预训练的DINOv3模型，从街景影像和遥感影像中提取高维深度特征，并进行特征融合。此外，研究还采用了多种经典的机器学习算法（如XGBoost、SVR等）进行对比实验，并利用基于语义分割的街景要素提取结合SHAP（SHapley Additive exPlanations）可解释性分析方法，来揭示影响噪声预测的关键城市环境视觉要素。

3.1. 实验采集的噪声频率分布分析

研究对沿一条骑行轨迹采集的噪声数据进行了频率分析。结果显示，城市街道尺度的噪声主要集中在中低频段，这是城市交通噪声的典型特征。低频段（约250 Hz）的噪声强度值更高、变异性更大，中位数一般维持在70-80 dB之间，这主要源于车辆发动机的低频振动、轮胎与路面摩擦及车身共振等因素。随着频率升高，噪声强度呈现明显的下降趋势。在高频段（2000 Hz以上），噪声强度显著降低，中位数降至40-55 dB范围内。这种多频谱噪声的非均匀分布，凸显了分频段建模的必要性。

3.2. 模型性能比较与融合效果

研究评估了多种机器学习方法对整体A计权声压级(dBA)、低频、中频和高频噪声的预测性能。敏感性分析表明，图像驱动的噪声预测方法具有可靠性。以dBA预测为例，R²值在0.417至0.649之间，表现出中等至较高的预测性能。在不同缓冲区尺度下，基于遥感特征的方法随缓冲区距离增大，预测精度逐步提高。在众多模型中，支持向量回归(SVR)和K最近邻(KNN)在所有评估指标上 consistently 表现出优越性能。其中，SVR模型结合遥感特征对平均噪声的预测取得了最高的R²（0.649）。一个有趣的发现是，中频噪声在所有模型配置中都表现出最高的可预测性，这可能反映了中频噪声与普遍的交通流、商业运营等人为活动模式的强关联性，而这些模式更容易被街景和遥感影像中的视觉特征捕捉。相比之下，低频噪声的预测挑战最大。

3.3. 散点图与预测空间分布分析

通过对比仅使用街景特征、仅使用遥感特征以及使用融合特征的模型预测结果，研究发现多源融合方法实现了最高的预测精度，其预测点最紧密地聚集在理想预测线周围。而仅使用SVI特征的模型在高噪声环境下预测偏差较大，体现了街景影像“时间偏差”的影响；仅使用RSI特征的模型虽然整体分布更稳定，但缺乏捕捉细微噪声变化的能力。空间制图结果进一步显示，融合模型在保留街景数据精细感知能力的同时，利用了遥感数据的空间一致性来降低预测的不确定性，生成了空间模式更均匀、一致且细节丰富的50米分辨率街道尺度多频声景图。

3.4. 可解释性学习结果

为提供可解释的见解，研究采用了一种基于语义分割的可解释建模方法。通过预训练的SegFormer模型对街景影像进行分割，提取了19类街道要素的像素比例，并基于XGBoost回归拟合噪声水平，最后利用SHAP的Tree Explainer量化了各街道要素对噪声水平的贡献。结果显示，建筑、道路、人行道和地形是影响模型预测的四个最重要的视觉要素。部分依赖图分析揭示了这些要素与噪声水平之间的非线性关系，例如，更宽的道路通常与更高的噪声水平相关，而当地形（包含路缘石、绿化带等）比例超过一定阈值时，其对噪声产生抑制作用。

该研究成功构建并验证了一个多模态机器学习框架，通过融合街景影像的微观视角和遥感影像的宏观视角，在城市街道尺度的多频谱噪声预测与高分辨率制图方面取得了重要突破。研究创新性地结合了两种数据源的优势，有效克服了单一数据源的固有局限，不仅解决了街景影像的时间不稳定性问题，也弥补了遥感影像在感知微观社会经济活动方面的不足。

研究超越了传统仅关注A计权总声压级的局限，揭示了城市噪声主要由中低频成分构成，并实现了对低、中、高三个不同频段噪声的同步、准确预测。模型在不同声景尺度上均达到了较高的预测精度，其中对中频噪声的预测精度尤为突出。研究成功生成了空间分辨率高达50米的街道尺度多频声景地图，达到了前所未有的空间粒度。通过SHAP可解释性分析，量化了建筑、道路、人行道等城市视觉要素对噪声预测的贡献，为城市规划决策提供了科学依据。

与传统的实地测量方法相比，该研究仅需街道对应的街景影像和遥感影像，为城市声环境监测提供了一种成本低廉、可大规模应用的新范式，在显著降低数据采集成本的同时，实现了更广阔的空间覆盖。尽管在模型泛化能力和数据时效性方面仍有提升空间，但研究所构建的方法框架具有良好的扩展性。未来可进一步集成动态交通数据、气象条件等因素，构建更全面的城市声环境时空动态监测系统。总之，该研究不仅在技术方法上实现了重要创新，也为精准的城市噪声污染治理、公共健康政策制定以及健康城市建设提供了有力的科学支持工具和数据基础。

热点排行