解码城市声景：基于可解释半监督学习的空间预测与影响机制分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月01日 来源：Computers, Environment and Urban Systems 8.3

编辑推荐：

　　本研究提出一种可解释的半监督学习框架，通过整合多源地理空间数据（如POI、道路网络、遥感影像）构建多维指标体系，结合异构共训练回归器（HetCoReg）和增强随机森林模型，实现声压级（SPL）预测（R2=0.87）与声源分类（精度=0.93）。案例分析显示交通和人类活动主导城市声景，自然声源集中于公园，机械声源靠近工业区，并揭示道路密度和绿地覆盖率是关键驱动因素，为数据稀缺环境下的声景智能分析提供新方法。

蔡朝阳|陈思琪|叶耀森|赵天红|涂伟|于俊贤|易胜高|曹金洲

深圳大学建筑与城市规划学院城市信息智能感知与服务重点实验室，中国深圳市518060

摘要

城市声景不仅塑造了居民的健康和福祉，还反映了城市的地理和功能结构。然而，现有方法在样本量较小的情况下往往表现不佳，未能充分整合异构的城市数据集，并依赖于不透明的“黑箱”模型，这限制了它们的规划实用性。为填补这些空白，我们提出了一个可解释的半监督框架，用于细粒度城市声景映射和机制分析，该框架融合了多源地理空间数据。首先，通过结合现场声音测量和多源地理空间数据构建了一个多维度指标系统。其次，开发了一个异构协同训练回归器（HetCoReg）用于声压级（SPL）分析，以及一个数据增强的随机森林（RF）用于声源分类。最后，我们采用了Shapley加性解释（SHAP）来量化全局和局部特征效应，并进行了空间分析。以深圳蛇口为例，HetCoReg模型在SPL预测上的R2值为0.87，而增强后的RF模型在声源分类上的准确率为0.93。结果表明，交通和人为声音占主导地位，自然声音聚集在公园中，机械声音则集中在工业区附近。总体而言，该框架在数据稀缺条件下提高了预测能力，并为基于声景的规划和公共卫生保护提供了可操作的见解。

引言

声景是指个体或群体在特定环境中感知和解释的声学环境。它反映了城市区域的自然特征和社会文化维度。城市声景显著影响居民的生活质量以及他们的身体健康和心理健康（Aletta, Zhou, Mitchell等人，2025）。噪声污染是影响城市可持续性的主要环境问题之一（Jarosińska等人，2018）。长期暴露于城市噪声与不良健康结果相关，包括听力损失、高血压、心血管疾病、焦虑和失眠（Fiedler & Zannin, 2015; Tao, Chai, & Kou, 2020）。相比之下，积极或舒缓的声音，如鸟鸣或流水声，可以减轻压力并促进心理健康（Payne, 2013）。因此，绘制细粒度的城市声景并分析其影响因素对于创造更健康、更宜居的城市环境至关重要。

声景研究涵盖了物理环境和人类感知两个方面。尽管大多数研究强调愉悦度等主观属性，但测量物理声学环境仍然是理解这些感知结果的前提。本研究关注声压级（SPL）和主要声源作为客观指标，以表征城市声学环境，将其与个体的主观情感或感知反应区分开来。传统的声景映射方法主要依赖于高成本的现场方法，如现场声音测量、声音漫步和定性调查，然后通过空间插值来估计声景模式（Liu, Kang, Luo, Behm, & Coppack, 2013）。常见的插值方法包括逆距离加权（IDW）和克里金法（Kriging）。然而，这些方法耗时且劳动密集，不适合细粒度的城市声景应用。近年来，机器学习和深度学习作为声景预测的有希望的替代方案出现，降低了数据收集和建模成本。例如，Yue, Meng, Yang等人（2023）开发了一个可视化的声景预测模型，使用高斯混合模型整合了地理和视觉设计元素来预测声压级、声源类型和声景评估，并以直观的视觉形式呈现结果，以支持城市公园设计决策。然而，这些研究主要关注特定区域，例如公园或街道，难以实现细粒度和大规模的城市声景预测。

城市大数据的快速增长为实现细粒度和大规模的城市声景分析提供了有力途径。多样且易于获取的数据集——包括遥感图像、街景图像（SVI）、道路网络和建筑轮廓——捕捉了直接塑造声学模式的环境背景。实证研究证实了城市形态和植被在减轻噪声中的关键作用（Margaritis & Kang, 2017），以及道路密度和交通走廊对噪声传播的影响（Lu等人，2019）。此外，城市声音的空间分布与异构土地覆盖和兴趣点（POI）密切相关（Guo等人，2022）。通过整合这些异构数据源，最近的研究表明，城市大数据结合机器学习能够实现可扩展且成本效益高的声景建模。例如，Zhao, Liang, Tu等人（2023）使用众包的声景评分和街景图像来推断整个城市的声学环境，展示了大数据超越局部研究、实现高分辨率和大范围预测的潜力。

尽管取得了这些进展，仍存在三个关键挑战。首先，大多数现有模型严重依赖大量标记样本或频繁的现场测量。在数据分布不均且获取成本高昂的城市环境中，这种依赖往往导致过拟合和数据稀缺区域的预测偏差，削弱了模型的泛化能力。尽管迁移学习和主动学习在缓解这些问题方面显示出潜力，但其在声景研究中的应用仍然有限（Jin, Chen, & Yang, 2022; Owusu等人，2024）。其次，虽然声景受道路密度、建筑形态、交通流量和绿地等多种因素的影响，但许多研究仍然孤立地分析这些因素，导致见解碎片化，模型无法捕捉跨尺度相互作用。需要一个更全面的框架来整合多源数据，以更丰富地表示城市声学环境。第三，尽管非线性模型（如深度神经网络和随机森林）实现了高预测精度，但它们的“黑箱”性质限制了可解释性和透明度，这对于基于证据的规划和环境治理至关重要。

为了解决这些挑战，本研究提出了一个可解释的半监督学习框架，用于预测和分析城市声景。该框架包括三个主要组成部分。首先，通过整合城市声音数据（如SPL、声源类型）与多样的空间数据源（如POI、道路网络、建筑物、街景图像和遥感数据），构建了一个多维度指标系统。这些数据被转换为功能、形态、自然和视觉上下文特征，以全面表示城市声学环境。其次，采用半监督学习方法来克服标记数据的稀缺问题。通过使用异构模型的协同训练机制，模型迭代生成伪标签以扩展训练集，从而在有限监督下实现稳健的预测。第三，通过应用SHAP（Shapley加性解释）来提高模型的可解释性，该技术量化了每个特征的边际效应，揭示了声景形成中的复杂非线性关系和空间异质性。这些组件共同构成了一个集成且可扩展的流程，用于可解释和数据高效的城市声景分析。

本文的其余部分组织如下：第2节回顾了有关城市声景和可解释机器学习的相关研究。第3节描述了研究区域和数据集。第4节详细介绍了声景映射方法。第5节讨论并分析了结果。最后，第6节总结了主要发现并展望了未来的工作。

章节摘录

城市声景映射

声景的概念最初由R. Murray Schafer提出，他将其定义为“任何研究中的声学场”，涵盖了给定环境中存在的所有声学元素（Schafer, 1993）。一些研究使用声景描述符（如“愉悦的”、“令人兴奋的”和“混乱的”（Axelsson, Nilsson, & Berglund, 2010）以及“噪声烦恼”（Aletta, Kang, & Axelsson, 2016）来评估人们对声学环境的感知。其他研究则通过……

方法论

本研究旨在通过整合多源城市空间大数据，开发一个可解释的半监督学习框架，用于预测和分析样本有限的城市声景。该框架包括三个主要步骤，如图1所示。首先，从城市声音数据中提取声景指标，如SPL、声源类型和平均声级。同时，从多样化的空间数据集中提取环境指标，涵盖功能密度（如POI和AOI）

研究区域

选择深圳蛇口（图3）作为研究区域。该区域面积约为52.46平方公里，位于深圳南部半岛。蛇口是众多工业园区和企业的枢纽，区域内分布着大量的办公楼和工厂。蛇口港正在快速发展，周围有大量的重型机械和卡车运行。作为深圳的主要交通干道，滨海大道……

结果

结果分为三个部分。首先，第5.1节比较了半监督学习与传统监督学习和统计模型的预测准确性。其次，第5.2节生成了声景地图并进行了空间分析，以探索声景的空间分布模式。最后，第5.3节通过模型解释分析了城市环境对声景的影响机制。

非线性和阈值效应

基于SHAP的解释揭示了城市特征与声景之间的复杂非线性动态。最近绿地的面积是影响SPL的最重要因素，而较大的绿地表现出显著的噪声衰减效果（Margaritis & Kang, 2017; Rey-Gozalo, Barrigón Morillas, Montes González, & Vílchez-Gómez, 2023）。植被覆盖率在0.2到0.6之间时对声景有最显著的积极影响。

结论

本研究通过整合多源地理空间数据和半监督学习，开发并验证了一个用于细粒度城市声景预测和解释的全面框架。以深圳蛇口为例，提出的HetCoReg模型在估计SPL方面表现出高预测性能（R2 = 0.87），而增强的随机森林在声源分类方面提供了准确的准确性（准确率 = 0.93）。环境指标的结合……

CRediT作者贡献声明

蔡朝阳：撰写——原始草稿、可视化、验证、方法论、数据管理。陈思琪：撰写——原始草稿、可视化、验证、方法论、数据管理。叶耀森：可视化、验证、方法论、数据管理。赵天红：撰写——审阅与编辑、验证、形式分析。涂伟：撰写——审阅与编辑、监督、项目管理、方法论、调查、资金获取、概念化。于俊贤：撰写——审阅与……

利益冲突声明

本手稿的提交不存在利益冲突，所有作者均同意发表。我代表我的合作者声明，所描述的工作是原创研究，尚未在其他地方全部或部分发表。

致谢

本研究得到了国家自然科学基金（42471496）、广东省教育厅创新团队（2024KCXTD013）、深圳市科技计划（JCYJ20220818100200001）、智能城市时空信息与设备技术创新中心开放项目（STIEIC-KF202307）以及中国教育部航空航天信息与时空智能学科突破项目的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

城市声景映射

方法论

研究区域

结果

非线性和阈值效应

结论

热点排行