利用大数据和机器学习进行精细尺度的空间模拟以及职业人口分布的解释

《Habitat International》:Fine-Scale spatial simulation and interpretation of occupational population distributions using big data and machine learning

【字体: 时间:2026年02月24日 来源:Habitat International 7

编辑推荐:

  基于腾讯用户大数据与多源地理信息融合,本研究提出XGBoost模型驱动的网格级职业人口模拟方法,通过SHAP分析揭示地理要素非线性影响机制。实验表明该方法在长沙城市中的平均R2达0.80,为城市功能分区优化与资源配置提供科学依据。

  
张成志|张宏辉|吴松泰|李少颖
广州大学地理与遥感学院,广州,510006,中国

摘要

随着城市发展中对高分辨率人口数据需求的增加,职业群体的空间分布已成为优化产业布局和资源配置的关键要素。虽然传统的普查和遥感数据难以捕捉特定职业动态的细微差异,但本研究提出了一种基于网格级别的职业人口建模的空间模拟方法,该方法结合了腾讯用户大数据、多源地理信息并运用了机器学习技术。研究结果表明,仅使用易于获取的数据并结合XGBoost模型,在模拟职业人口分布方面表现出色,所有分析行业的平均决定系数(R2)达到0.80。此外,通过使用SHAP技术进行可解释性分析,我们定量揭示了多种地理特征对这些分布的影响强度和复杂的非线性效应。这些发现不仅加深了人们对职业聚集如何塑造城市功能动态的理解,还为数据驱动的城市规划策略提供了可操作的科学依据。

引言

在全球城市化加速的背景下,特定职业群体的空间聚集是塑造城市功能组合的基本驱动力(Blumen & Zamir, 2001; Jacobs-Crisioni et al., 2014; Glaeser, 2011)。不同行业作为“活跃主体”,定义了城市空间的功能特征,创造了就业活动与建成环境之间的复杂相互依赖关系(Cervero, 1989; Zhou et al., 2024; Z. Chen & Yeh, 2026)。因此,准确绘制这些职业模式不仅是一项人口统计工作,更是制定数据驱动规划策略的先决条件(Liu et al., 2024; C. Xu, Xiao et al., 2021)。具体而言,它为优化产业布局、缓解功能不兼容性以及合理分配公共服务提供了必要的空间信息(Duncan & Duncan, 1955; Stadin et al., 2021; Wilmot & Ones, 2021)。因此,生成高分辨率的职业分布数据对于解码这些复杂的功能互动和支持精准的城市治理具有科学必要性。
尽管如此,满足这些数据需求仍然具有挑战性。传统的普查和家庭调查等来源虽然权威,但通常空间分辨率较低、更新频率较低且收集成本较高(Stadin et al., 2021; De Alwis et al., 2022)。这些限制限制了它们在网格级别映射和及时诊断城市社会经济动态方面的实用性(Freire, 2010; Jia et al., 2014)。
为了从面积统计数据中推导出高分辨率的人口分布图,已经开发了一系列空间化方法,包括非均质映射(Eicher & Brewer, 2001; Mennis, 2003)以及地理统计和机器学习技术(Cheng et al., 2022; Hu et al., 2022; Oliver & Webster, 1990; Tobler, 1979)。同时,由于夜间灯光具有广泛的空间覆盖范围和易于获取的特点,遥感代理数据(特别是夜间灯光)也被广泛用于近似人口密度或一般活动强度(Bagan & Yamagata, 2015; X. Yang et al., 2019)。然而,夜间灯光数据仍然是间接的且不够具体的。在照明强烈的城市核心区域,这些数据可能会饱和,并且对城市内部的细微变化敏感度较低,从而降低了它们区分行业就业结构和职业群体差异的能力。
时空大数据的最新进展为在细空间尺度上表征人口分布和动态提供了另一种途径(Boo et al., 2022; Xu et al., 2021)。移动轨迹和基于位置的服务能够以高时空分辨率和广泛的人口覆盖范围记录人类存在和活动,从而比传统的静态数据集提供更真实的人口动态描绘(Chen et al., 2022; Gao et al., 2024; C. Zhang et al., 2023)。特别是基于位置的社会媒体和平台用户数据(如腾讯用户数据),提供了大量且持续更新的信息,显示人们何时何地处于活跃状态(L. Chen, Zhao et al., 2022; Jiao et al., 2023; F. Wang, He et al., 2024)。尽管这些数据不直接编码职业类别,但当与城市背景信息和可解释的建模框架结合时,它们为推断和比较特定行业的职业人口模式创造了新的机会(T. Li et al., 2023; Preo?iuc-Pietro et al., 2015; Wen et al., 2020)。
尽管取得了这些进展,职业人口映射仍面临两个挑战。首先,大多数研究仅对总人口或单一群体进行建模,未能在统一框架内充分比较不同行业的职业人口及其不同的环境驱动因素。其次,许多高性能模型的可解释性有限,难以解释潜在机制并将结果转化为可操作的规划指导。
为了解决这些挑战,本研究利用腾讯的位置大数据对长沙的职业人口进行了网格级别的空间模拟和分析,重点关注餐饮、教育、建筑和旅游四个主要行业的职业人口空间分布模式。研究整合了多源地理特征数据作为预测变量,包括建成环境指标(兴趣点密度、道路网络密度)、物理约束(海拔、坡度)、社会经济信号(夜间灯光强度)和生态条件(NDVI)。通过使用XGBoost模型,我们实现了高精度的职业人口分布预测。除了预测之外,我们还基于SHAP开发了一个可解释的分析框架,以量化变量贡献并揭示行业特定的非线性响应。本研究为职业人口映射提供了一种集成且可解释的方法。从理论上讲,它通过量化非线性环境驱动因素推动了以机制为导向的城市分析;从实践上讲,它为优化城市功能分区和资源分配提供了基于证据的支持。
本文的其余部分结构如下:第2节介绍研究区域和数据来源。第3节详细阐述方法论框架。第4节展示我们的实证发现。第5节全面讨论了职业人口分布的空间异质性及其驱动因素。最后,第6节总结了研究结论并指出了未来研究的潜在方向。

研究区域

长沙位于湖南省中东部地区,是该省的省会,也是中部长江城市聚集区的重要组成部分。该市管理着九个区和县,总面积为11,819平方公里,2023年居民人口约为1037万。该地区在人口流动性、就业分布和产业布局方面表现出快速城市化的典型特征,使其成为理想的

方法

本研究的数据和方法论分为三个主要部分:(1)特征工程:对于每个网格单元和职业类别,我们计算了19个指标。这些特征通过网格单元索引与目标职业数据合并,以确保空间对应关系。(2)模型训练:我们采用五折交叉验证进行超参数调整,并将数据集分为80:20的比例的训练集和测试集。(3)模型评估和解释:

四种类型职业群体的空间分布

图3展示了长沙四个行业中员工比例的空间分布,这些行业使用自然断裂法被分为六类。为了定量表征统计上显著的聚类现象,应用了Getis-Ord Gi?统计量。这种方法特别适用于划分连续的“高-高”聚集区,这些区域构成了城市的功能中心。虽然热点模式(图4)在空间上与高密度区域对齐

职业群体的空间差异机制

长沙的职业人口空间分布反映了市场需求、功能分区和政策导向的综合影响。餐饮业就业集中在商业核心区、大学区和人口密集的居住区,混合用途分区和稳定的消费需求共同支持了服务导向的活动(Gao et al., 2025; C. Tian et al., 2023)。
与教育相关的就业更依赖于制度

结论

本研究结合了腾讯大数据和可解释的机器学习方法来研究长沙的职业空间差异。与基于普查的方法不同,我们的非线性框架揭示了驱动行业特定排序的复杂机制。实证表明,职业分布受不同的“阈值”而非线性依赖关系支配。服务行业(餐饮、旅游)表现出“冷启动”约束,需要达到一定的密度才能触发

CRediT作者贡献声明

张成志:撰写——原始草稿、可视化、方法论、概念化。张宏辉:资金获取、数据整理。吴松泰:数据整理。李少颖:概念化、撰写——审稿与编辑、资金获取。

写作过程中使用生成式AI和AI辅助技术的声明

在准备本手稿的过程中,作者仅使用生成式AI工具来辅助语言润色和提高可读性(例如语法和风格)。所有观点、分析、解释和结论均为作者本人所持。作者仔细检查并编辑了所有AI辅助的输出,并对本文的内容负全责。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究工作。

致谢

本研究得到了国家自然科学基金(资助编号:42271467)、广州市科技项目[资助编号:SL2024A03J00487]和国家自然科学基金(资助编号:42471513)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号