编辑推荐:
街景影像的层次语义特征提取受限于传统方法对动态静态对象区分不足及场景氛围抽象能力弱,本研究提出时空对比学习框架,通过时间/空间/实例对比策略分别捕捉静态结构、区域氛围和全局场景特征,显著提升城市任务(位置识别、社会经济预测)的模型表现,并构建基准数据集。
李勇|黄颖晶
北京大学地球与空间科学学院遥感与地理信息系统研究所,北京,100871,中国
摘要
街景图像已成为城市研究的重要数据来源,支持各种城市任务,如环境感知和社会经济预测。传统方法主要依赖于手工制作的特征或监督式机器学习从图像中提取信息。然而,这些方法往往无法捕捉城市环境的层次语义:在视觉层面上,它们无法选择性地表示动态与静态对象;而在更高层次的上下文中,它们无法抽象出场景的集体氛围,这限制了它们在地点识别和社会经济推断等任务中的有效性。本质上,这种限制是由于不同的城市任务依赖于空间和时间上的根本不同不变性。为了解决这一挑战,我们提出了时空对比学习框架,这是一种新颖的自我监督框架,系统地组织了城市场景的表示学习。该框架通过选择性地对比在空间和时间维度上保持不变的内容与变化的内容,定义了不同的预训练策略,使模型能够隔离特定的城市特征,如动态元素、静态结构或社区氛围。验证实验确认,每种对比策略产生的表示在相应任务上的表现显著优于已建立的基线。这项研究不仅提供了一个新的表示框架,还提供了一个严格的基准,增强了视觉数据在城市科学中的适用性。代码可在
https://github.com/yonglleee/UrbanSTCL获取。
引言
随着街景图像的日益普及(Naik等人,2017年;Zhang、Salazar-Miranda等人,2024年),城市正在利用大规模视觉数据进行多种任务,如地点识别(Lowry等人,2015年)、城市感知分析(Dubey等人,2016年;Zhang等人,2018年)、道路状况评估(Chacra & Zelek,2018年)和社会经济预测(Gebru等人,2017年;Wang、Li和Rajagopal,2020年)。与传统的以对象为中心的视觉任务不同,这些城市应用关注城市环境的不同方面。例如,地点识别依赖于包括建筑物和道路在内的不变特征;而测量人们对一个地方的感知则依赖于建筑物状况、街道照明、人类活动和植被等元素来评估场景中的整体感知;社会经济预测则关注空间不变的社区氛围,捕捉附近区域的物理、社会、文化和功能特征。学习能够适应这些多样化需求的有效街景表示,特别是在捕捉城市环境的空间和时间动态方面,仍然是一个关键挑战。
为了解决这种适应性表示的学习挑战,研究人员越来越多地转向自我监督学习(SSL)。自我监督学习利用对比学习(Chen等人,2020年;Chen等人,2021年;He等人,2020年)和掩码建模(He等人,2022年;Xie等人,2022年)等技术,在图像分类(Radford等人,2021年)、对象检测(He等人,2022年)和语义分割(Wang、Zhang等人,2020年)等经典视觉任务中表现出色,通常超越了传统的监督学习方法。然而,当前的自我监督方法倾向于编码尽可能多的语义和结构信息(Huang等人,2024年;Park等人,2023年),这并不完全符合城市任务的多样化需求。例如,它们可能难以区分地点识别所需的静态特征(Lowry等人,2015年)和对人类感知地点至关重要的动态元素(Dubey等人,2016年;Zhang等人,2018年),或者难以捕捉社会经济预测所需的空间一致性(Wang、Li和Rajagopal,2020年)。
在图像表示学习中,选择性地编码城市环境中的动态和静态信息及其创造的氛围非常重要,但本质上具有挑战性(Cordts等人,2016年)。要实现这种信息的精确编码,通常需要分别标记动态和静态元素,并使用特定的训练策略(Cheng等人,2017年;Wang等人,2019年)(例如,在编码静态元素时屏蔽动态元素)。然而,标记和训练过程都充满了困难。诸如照明条件、植被外观和地面杂物等因素难以客观和一致地标记。这使得使用传统数据集(例如ImageNet(Deng等人,2009年)和Places(Zhou等人,2017年)以及经典方法(监督式或自我监督式)几乎不可能准确表示这些复杂的环境因素。
为了解决这些挑战,我们提出了一个对比街景表示学习框架,该框架明确利用了时间戳和地理位置——这些元数据在标准图像数据集中大多缺失。核心思想是形成互补的正样本对,以针对不同的不变性:(i)时间对比——从同一位置在不同时间捕获的正样本对——促使编码器强调建筑环境的时间不变、静态属性(例如建筑物、基础设施),并抑制对动态元素(行人、车辆)的敏感性,从而有利于地点识别等任务。(ii)空间对比——从同一时间但在不同位置拍摄的图像形成的正样本对——鼓励在城市社区内稳定的表示,捕捉其社会经济“氛围”,同时减少对对象级变化的敏感性,这支持社区规模的社会经济估计。(iii)实例对比本质上归结为经典的实例级对比学习,产生保留完整场景(包括静态和动态内容以及整体氛围)的表示,适用于以人类感知为导向的任务。(iv)时空对比——跨越时间和空间的正样本对促进对空间和时间的不变性,捕捉更持久、更高层次的特征——如历史和文化特征——这些特征支持相关的城市分析。
我们在多个城市任务中验证了我们主要假设(实例对比、空间对比和时间对比)的有效性。虽然我们的框架还概念化了用于学习深度历史和文化模式的时空对比,但由于收集其相应下游任务所需真实数据的难度,我们将其实验验证留待未来的工作。实验结果表明,不同的对比学习目标可以学习更适合各自城市任务的不同类型特征。我们还深入分析了不同对比方法性能背后的原因,进一步强调了有针对性的学习策略的重要性。这项研究系统地探索了基于街景图像的城市研究中的表示学习策略,提供了一个有价值的基准,并增强了视觉数据在城市科学中的适用性。
部分摘录
用于城市任务的街景表示学习
街景图像已广泛用于各种城市任务(Gebru等人,2017年;Naik等人,2017年),如道路缺陷检测(Chacra & Zelek,2018年)、交通预测(Zhang、Li和Zhang,2024年)、城市功能识别(Huang等人,2023年)和社会经济预测(Fan等人,2023年)。然而,现有的街景表示研究通常依赖于在Places365(Zhou等人,2017年)等数据集上训练的监督模型,或直接使用像素比例
利用时空对比学习街景表示
我们学习城市表示的方法受到时空对比学习框架(图1)的指导,这是一个旨在利用街景图像独特属性的统一框架。该框架沿着两个基本轴组织表示学习,这两个轴定义了如何构建正样本对:空间轴,考虑样本对是否来自同一地点或社区内的不同位置;时间轴,考虑它们是否
将以任务为中心的表示应用于城市应用
城市环境既具有空间复杂性也具有时间复杂性——位置随时间变化,但仍保持固有特征;不同区域在保持独特身份的同时具有结构上的相似性。捕捉这些动态对于理解城市至关重要,使得视觉地点识别、社会经济预测和安全感知等任务成为评估我们对比学习框架的自然基准。
结果
我们在三个任务上评估了我们的模型——视觉地点识别、社会经济预测和安全感知——每个任务都对应不同的对比学习策略。视觉地点识别受益于时间对比学习,以增强随时间的稳定性。社会经济预测依赖于空间对比学习来捕捉社区模式。安全感知利用实例对比学习来提取全局场景特征。
讨论
我们对不同对比模型学习的特征进行了可解释性分析,以更深入地了解模型关注的信息以及这些信息如何影响城市任务的表现。
结论
在这项工作中,我们提出了一个自我监督学习框架——时空对比框架,旨在从街景图像中学习表示。我们系统地实施并评估了其三个核心策略:时间对比、空间对比和实例对比。我们的实验结果表明,这些不同的策略有效地学习了针对不同城市任务的特征,显著提高了视觉地点识别的性能
CRediT作者贡献声明
李勇:写作——审稿与编辑、撰写原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据整理、概念化。黄颖晶:撰写原始草稿、可视化、资源、方法论、数据整理。张帆:写作——审稿与编辑、撰写原始草稿、监督、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
我们还要感谢国家自然科学基金(项目编号42371468)的财政支持。这项工作得到了北京大学高性能计算平台的支持。