声景是指个体或群体在特定环境中感知和解释的声学环境。它反映了城市区域的自然特征和社会文化维度。城市声景显著影响居民的生活质量以及他们的身体健康和心理健康(Aletta, Zhou, Mitchell等人,2025)。噪声污染是影响城市可持续性的主要环境问题之一(Jarosińska等人,2018)。长期暴露于城市噪声与不良健康结果相关,包括听力损失、高血压、心血管疾病、焦虑和失眠(Fiedler & Zannin, 2015; Tao, Chai, & Kou, 2020)。相比之下,积极或舒缓的声音,如鸟鸣或流水声,可以减轻压力并促进心理健康(Payne, 2013)。因此,绘制细粒度的城市声景并分析其影响因素对于创造更健康、更宜居的城市环境至关重要。
声景研究涵盖了物理环境和人类感知两个方面。尽管大多数研究强调愉悦度等主观属性,但测量物理声学环境仍然是理解这些感知结果的前提。本研究关注声压级(SPL)和主要声源作为客观指标,以表征城市声学环境,将其与个体的主观情感或感知反应区分开来。传统的声景映射方法主要依赖于高成本的现场方法,如现场声音测量、声音漫步和定性调查,然后通过空间插值来估计声景模式(Liu, Kang, Luo, Behm, & Coppack, 2013)。常见的插值方法包括逆距离加权(IDW)和克里金法(Kriging)。然而,这些方法耗时且劳动密集,不适合细粒度的城市声景应用。近年来,机器学习和深度学习作为声景预测的有希望的替代方案出现,降低了数据收集和建模成本。例如,Yue, Meng, Yang等人(2023)开发了一个可视化的声景预测模型,使用高斯混合模型整合了地理和视觉设计元素来预测声压级、声源类型和声景评估,并以直观的视觉形式呈现结果,以支持城市公园设计决策。然而,这些研究主要关注特定区域,例如公园或街道,难以实现细粒度和大规模的城市声景预测。
城市大数据的快速增长为实现细粒度和大规模的城市声景分析提供了有力途径。多样且易于获取的数据集——包括遥感图像、街景图像(SVI)、道路网络和建筑轮廓——捕捉了直接塑造声学模式的环境背景。实证研究证实了城市形态和植被在减轻噪声中的关键作用(Margaritis & Kang, 2017),以及道路密度和交通走廊对噪声传播的影响(Lu等人,2019)。此外,城市声音的空间分布与异构土地覆盖和兴趣点(POI)密切相关(Guo等人,2022)。通过整合这些异构数据源,最近的研究表明,城市大数据结合机器学习能够实现可扩展且成本效益高的声景建模。例如,Zhao, Liang, Tu等人(2023)使用众包的声景评分和街景图像来推断整个城市的声学环境,展示了大数据超越局部研究、实现高分辨率和大范围预测的潜力。
尽管取得了这些进展,仍存在三个关键挑战。首先,大多数现有模型严重依赖大量标记样本或频繁的现场测量。在数据分布不均且获取成本高昂的城市环境中,这种依赖往往导致过拟合和数据稀缺区域的预测偏差,削弱了模型的泛化能力。尽管迁移学习和主动学习在缓解这些问题方面显示出潜力,但其在声景研究中的应用仍然有限(Jin, Chen, & Yang, 2022; Owusu等人,2024)。其次,虽然声景受道路密度、建筑形态、交通流量和绿地等多种因素的影响,但许多研究仍然孤立地分析这些因素,导致见解碎片化,模型无法捕捉跨尺度相互作用。需要一个更全面的框架来整合多源数据,以更丰富地表示城市声学环境。第三,尽管非线性模型(如深度神经网络和随机森林)实现了高预测精度,但它们的“黑箱”性质限制了可解释性和透明度,这对于基于证据的规划和环境治理至关重要。
为了解决这些挑战,本研究提出了一个可解释的半监督学习框架,用于预测和分析城市声景。该框架包括三个主要组成部分。首先,通过整合城市声音数据(如SPL、声源类型)与多样的空间数据源(如POI、道路网络、建筑物、街景图像和遥感数据),构建了一个多维度指标系统。这些数据被转换为功能、形态、自然和视觉上下文特征,以全面表示城市声学环境。其次,采用半监督学习方法来克服标记数据的稀缺问题。通过使用异构模型的协同训练机制,模型迭代生成伪标签以扩展训练集,从而在有限监督下实现稳健的预测。第三,通过应用SHAP(Shapley加性解释)来提高模型的可解释性,该技术量化了每个特征的边际效应,揭示了声景形成中的复杂非线性关系和空间异质性。这些组件共同构成了一个集成且可扩展的流程,用于可解释和数据高效的城市声景分析。
本文的其余部分组织如下:第2节回顾了有关城市声景和可解释机器学习的相关研究。第3节描述了研究区域和数据集。第4节详细介绍了声景映射方法。第5节讨论并分析了结果。最后,第6节总结了主要发现并展望了未来的工作。