细粒度城市土地利用模拟：融合预训练视觉语言模型与空间动态建模

【字体：大中小】 时间：2026年03月02日 来源：Computers, Environment and Urban Systems 8.3

编辑推荐：

　　为解决传统城市土地利用模拟模型在细粒度数据稀缺和模型复杂性不足方面的局限，研究人员开展了一项融合预训练视觉语言模型与空间动态建模的创新研究。他们利用UrbanCLIP框架，通过对深圳街景图像进行零样本推理，获得了高分辨率（~50 m）的八类城市土地利用分类，并集成到经多项式回归增强的空间动态模型中，模拟了城市至2035年的演变。该方法显著提升了预测精度和空间粒度，为支持可持续城市治理和决策提供了可扩展的稳健工具。

城市，作为人类文明的结晶，正以前所未有的速度在全球范围内扩张。人口增长、迁移浪潮以及经济发展的迫切需求，共同驱动着城市版图的不断外延。然而，这种快速的城市化进程如同一把双刃剑，在带来繁荣的同时，也对可持续规划提出了严峻挑战。如何在经济活力、环境承载与社会公平之间取得微妙平衡，是摆在每一位城市规划者面前的难题。精准预测未来的城市形态，特别是土地利用方式的演变，成为了制定前瞻性、科学性政策的关键。传统上，研究人员依赖元胞自动机(Cellular Automata, CA)、基于智能体的模型(Agent-Based Models, ABMs)等空间动态模型来模拟城市的生长与变化。尽管这些模型理论上能够模拟精细尺度的动态，但在面对大规模现实城市系统时，常常囿于计算负荷、数据可及性以及校准复杂度等实际问题，导致其实际应用往往停留在较为粗糙的空间尺度上。更关键的是，这些模型严重依赖权威的土地利用数据集来定义转换规则，而获取这类数据并非易事。即便能够获取，为机器学习模型训练所需的大规模标注数据集，其构建过程也耗时耗力，成本高昂。

近年来，街景图像(Street View Images, SVIs)的普及为从地面视角理解城市环境细节带来了曙光。它们能够捕捉建筑立面、商业标识、街道设施等微观元素，为感知建筑级别的土地利用分布提供了可能。然而，如何从海量、无标签的街景图像中自动、准确地解读出城市功能，依然是一个巨大挑战。此时，预训练视觉语言模型(Pre-trained Vision-Language Models, VLMs)的兴起带来了转机。以CLIP(Contrastive Language–Image Pre-training)为代表的模型，通过在海量图文对上预先训练，获得了强大的零样本图像分类能力，即无需针对特定任务进行标注和模型再训练，就能对图像内容进行理解和归类。学者们进一步开发了针对城市领域的提示框架UrbanCLIP，有效提升了从单张街景图像中推断细粒度土地利用类型的准确性。这为我们获取当前城市高精度的功能地图开辟了新路径。但现有研究大多停留在静态的图像分类或场景理解，如何将这些详尽的现状信息融入到动态的未来城市模拟中，仍是一片待开垦的沃土。与此同时，城市增长受到人口密度、交通可达性、社会经济因素、环境约束和区划政策等多重驱动力的复杂影响，传统模型往往难以在精细空间尺度上充分捕捉这些多维度的相互作用。

鉴于此，一项发表于《Computers, Environment and Urban Systems》的研究提出了一种新颖的方法论，旨在弥合这一空白。该研究由东南大学建筑学院的Zipan Cai、Andrew Karvonen、Cong Cong和Weiming Huang（黄伟明）合作完成。他们创造性地将预训练视觉语言模型的零样本推理能力与机器学习的空间动态建模框架相结合，以中国深圳为案例，预测了至2035年的细粒度城市土地利用变化。这项研究不仅显著提升了城市模拟的精度与粒度，也为应对传统数据约束、赋能科学城市规划决策提供了强有力的新工具。

为开展这项研究，作者团队运用了几个关键的技术方法。首先，他们在中国深圳全市范围内以约100米间隔采集了超过22.6万张街景图像，构建了空间密集的影像数据集。其次，核心创新在于应用了专门化的视觉语言提示框架UrbanCLIP，对收集的街景图像进行零样本推理，直接识别出八种主要的城市土地利用类型，生成了~50米分辨率的精细化城市功能地图。最后，他们将这些高分辨率图谱输入到一个由多项式回归增强的空间动态模型中。该模型整合了核密度估计、基于重力模型的吸引力计算以及考虑社会经济和政策因素的回归分析，用以模拟城市在邻里影响、增长驱动和政策约束下的未来演变。整个研究流程确保了从数据获取、现状解析到未来预测的完整闭环。

研究结果

4.1. 细粒度城市土地利用格局

通过UrbanCLIP对街景图像的分析，研究成功绘制了深圳全市八类城市土地利用的细空间分布图。这八类包括：居住、商业、工业、教育、医疗、市政与政府、户外与自然、体育与休闲。结果显示，居住区在城郊区域占主导，并与商业中心交织，体现了混合开发的特点。商业区显著聚集在主要交通走廊和城市中心，符合公交导向的发展战略。工业区则集中在城市外围，与旨在减少与居住、休闲区域冲突的战略性区划政策相一致。通过对图中局部区域的放大观察，可以更深入地洞察土地利用模式。例如，中心城区显示出密集的居住与商业集群；而城市边缘区域则呈现出工业与户外空间的混合，展示了城市在经济发展与环境保护间的战略平衡。这些精细图谱为后续的空间动态建模提供了实证基础。

4.2. 空间动态模型结果

研究建立的空间动态建模框架有效地模拟了深圳未来的土地利用变化。多项式回归分析评估了人口吸引力、可达性等因素对土地利用转换的相对贡献。分析表明，人口吸引力是所有模型中最强的预测因子，凸显了其在驱动城市变化中的核心作用。通过引入高阶项，模型捕捉了复杂的非线性动态，拟合优度显著提升。研究还可视化展示了深圳全市的城市变化概率和各类城市功能的吸引力空间分布。结果显示，深圳中心区（如福田、罗湖）表现出最高的变化概率，这源于密集的人口集群、成熟的商业区和强大的交通网络。外围区域则因功能强度和基础设施连接性较弱而显示出较低的变化概率。各类功能的吸引力图进一步揭示了驱动深圳城市化的动力学：居住区在具有高公共交通可达性的城郊区域形成强集群；商业区沿深南大道等关键交通走廊集中；工业区在城市外围表现出高吸引力，反映了平衡经济发展与中心城区宜居性的区划政策。

4.3. 未来城市土地利用预测

岭回归分析确定了影响城市转换概率的关键特征及其重要性。人口密度是主导因素，交通可达性（包括临近交通枢纽和道路网络）位列第二，这反映了深圳对公交导向发展的重视。居住集群进一步支持了城市转换，充当了邻里发展的锚点。教育与医疗设施虽然对城市宜居性至关重要，但其直接影响相对较低。特征相关性矩阵揭示了城市变量间的复杂关系，例如人口与居住特征呈强正相关，交通可达性与商业特征相关性高。混淆矩阵、ROC曲线和精确率-召回率曲线等指标验证了模型的预测能力。最终，模型预测了至2035年深圳城市肌理的空间分布。投影显示，深圳中部和南部地区将成为主要增长中心。福田、罗湖等中心商务区预计将有进一步的商业开发；南山区则呈现出居住、商业和休闲功能更均衡的分布；北部的宝安区等区域则显示出以居住集群和融合自然空间为特点的郊区扩张。这些模式共同勾勒出深圳战略性城市增长的图景：中心区以混合开发为主，郊区则在居住与绿色空间之间保持平衡。

研究结论与意义

本研究的核心贡献在于成功整合了预训练视觉语言模型与空间动态建模，为细粒度城市土地利用模拟开辟了新范式。通过UrbanCLIP框架，研究实现了无需人工标注数据集的街景图像城市功能零样本推理，这在深圳这类快速演变的城市语境中价值尤为突出。在约50米的空间分辨率下，生成的地图揭示了功能集群的精细模式，与深圳规划中的动态发展轨迹高度吻合。

将这种丰富的高分辨率功能图层嵌入机器学习增强的空间动态模型后，研究成功捕捉了人口密度、可达性、形态吸引力及政策约束之间复杂的非线性相互作用。验证结果表明，模型在识别高概率转换区域方面表现出色。与仅使用人口核密度和道路可达性的基线模型相比，融合街景语义信息的完整模型在区分度、精确率和校准度上均有显著提升。这量化了引入街景层面功能信号对提升预测性能的边际价值。

这项研究的方法论进步具有深远的现实意义。它为城市规划者提供了前所未有的细节来检测城市功能的细微变化，并以更高的精度预测城市发展。所生成的2035年深圳高分辨率土地利用投影，能够识别出需要平衡增长、进行针对性基础设施投资和生态保护的区域，为可持续发展提供了切实可行的见解。通过与《深圳市城市总体规划（2035）》中设定的关键指标（如生态保护、控制城市扩张、增强基础设施）对齐，该模拟确保了预测与战略性规划框架的一致性，从而为知情的城市治理和决策提供了有力支持。最终，这项研究通过融合前沿的机器学习技术与空间动态模型，解决了预测性城市规划中的一些长期挑战，提升了规划评估的细节和准确性，助力于推动可持续的城市转型。

热点排行