通过深度学习方法,从群体合成数据中生成个体化的时空活动序列
《Engineering Applications of Artificial Intelligence》:Generate individual spatiotemporal activity sequences from population synthesis via deep learning approaches
【字体:
大
中
小
】
时间:2026年01月21日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
提出基于个体属性的时空行为生成模型Pop2Act&Loc,整合人口合成与活动生成,解决数据稀缺、分布不均及隐私问题。采用CTGAN生成属性数据,VQVAE结合TCN生成时空序列,通过对比学习提升属性与活动的匹配度。实验验证模型生成数据在统计分布和隐私保护上均优于基线,预测精度降低至0.522,适用于数字孪生场景。
叶路|刘贵荣|李翔|金珍
中国北方工业大学机械与电气工程学院,030051,太原,山西,中国
摘要 个体时空活动数据是构建高保真城市数字孪生的关键基础,但其获取和应用面临数据稀缺、分布不均和隐私限制等挑战。现有模型主要关注单一方面:要么是人口合成,要么是活动生成,忽略了由异质个人特征和家庭结构引起的时空行为多样性。为了解决这些问题,我们提出了一种新的深度生成模型,以捕捉个体属性、活动和位置之间的复杂依赖关系。首先,生成了一个结合了个人特征和家庭结构的合成属性数据集。接下来,我们使用变分嵌入将活动位置序列编码到离散的潜在空间中,捕捉潜在分布的时间演变。最后,我们利用属性和潜在变量之间的相关性进行条件生成,将个体属性与时空活动序列结合起来。实验结果表明,我们的模型生成了真实且保护隐私的合成数据集,保持了现实世界移动时空模式的统计分布。这些多样化的个体时空活动数据已成功应用于城市数字孪生,为城市规划、智慧城市和公共卫生等领域提供了可靠的数据支持。
引言 个体移动数据,作为个体在空间和时间维度上移动行为的数字记录,在城市数字孪生中起着关键作用(Jones等人,2020年;Deren等人,2021年),应用于传染病控制、智能交通、城市管理、公共服务、旅游和通信基础设施等领域(Ivanov等人,2020年)。COVID-19大流行生动地展示了这一依赖性:没有详细的个体移动数据,追踪社会接触变得困难,最终使得疾病传播预测的准确性降低(Yan等人,2011年;Squires等人,2024年)。
目前的个体移动数据主要依赖于两种数据来源。第一种来源是通过大数据位置服务收集的个体轨迹数据,包括时间和地理坐标。这些数据丰富,支持目的地推断、轨迹生成、群体移动预测和活动聚类等任务(Pappalardo等人,2023年;Barbosa等人,2018年;Luca等人,2023年;Rong等人,2024年)。然而,其可用性常常受到冗余、噪声以及缺乏活动和属性数据的限制。第二种来源是通过抽样方法获得的时间使用调查数据(Aemmer和MacKenzie,2022年;Borysov等人,2021年),包含个人属性数据(如个人特征)和个体活动数据(如详细的活动序列及其对应的位置类型),提供了详细的个体属性和活动细节,但可扩展性有限且获取成本较高。
个体活动数据和属性数据之间有着密切的联系。个人特征和家庭结构创造了独特的日常行为模式,直接影响活动决策。例如,学生通常在工作日上学,而有孩子的失业成年人则因育儿责任而经常待在家里。最近在生成模型方面的进展主要集中在扩展个体活动数据或个体属性数据上,由于时间活动数据和静态属性数据之间的结构差异,很少将两者结合起来。
因此,需要开发一个个体活动生成模型,以生成在统计上接近真实数据的个体活动和属性数据集,保护个人隐私,解决数据量不足和数据分布不均的问题(Savage,2023年;Heppenstall等人,2021年),并为城市数字孪生提供数据支持。我们提出了一种名为Pop2Act&Loc的新深度生成模型,包含四个核心组成部分:(1) 无监督聚类: 应用相似性评估指标对人群和活动进行无监督聚类,将聚类引入活动生成和比较评估;(2) 人口合成: 利用条件表格生成对抗网络(CTGAN)(Xu等人,2019年)对个体属性数据集中不平衡的离散列的概率分布进行建模,利用其条件生成器生成合成个体属性数据;(3) 活动生成: 将条件生成、层次分割、膨胀卷积和时间卷积网络(TCN)(Lea等人,2016年)集成到向量量化变分自编码器(VQVAE)(Oord等人,2017年)中,将个体活动数据映射到紧凑的离散潜在空间中,捕捉活动和位置潜在变量随时间的离散分布,Transformer(Vaswani等人,2017年)分析潜在变量和人群簇之间的依赖关系,指导合成个体活动数据的生成,使其与合成个体属性保持一致;(4) 比较评估: 通过自我监督对比学习共同训练个体属性和活动编码器,最大化编码后的个体属性和活动之间的余弦相似度,提供合成个体属性和活动数据匹配程度的度量。
本研究的核心贡献在于开发了Pop2Act&Loc——第一个多模态的个体属性到活动生成框架。我们的框架克服了以前仅限于处理属性或活动生成的单模模型的局限性,能够基于个体属性生成细致多样的时间活动序列。通过将时空活动序列压缩到离散的潜在空间中,我们将训练时间缩短到了相同数据集上Transformer基线的三分之一。此外,我们实施了两层隐私保护策略:较低层通过梯度裁剪和噪声注入确保人口合成的差分隐私,而较高层使用离散表示掩盖原始轨迹的时空细节。实验结果表明,Pop2Act&Loc在保持与真实数据统计一致性的同时,将攻击者的预测准确性从0.841降低到0.522(接近随机猜测),为城市数字孪生提供了一种高效且安全的数据解决方案。
相关研究 在本节中,我们首先概述了深度生成模型的发展轨迹。随后,系统地回顾了关于人口合成和活动生成的文献,总结了在合成人口中应用生成模型的努力。最后,我们批判性地反思了当前研究中的研究空白,并介绍了本研究中解决的挑战。
数据细节 我们构建了一个属性数据集,该数据集来源于当前人口调查(CPS)(Madrian和Lefgren,2000年),由多个个体属性数据集组成。对于一个个体,
P 由多个个体属性数据集构成,其中
P i 是包含所有属性(包括个人特征和家庭结构)的个体属性数据集,p m 是特定属性的值。每个m 包含多个属性值。结果 本研究使用的高性能服务器配备了第13代Intel Core i9-13900K处理器、NVIDIA GeForce RTX 4090图形处理单元(GPU)和128 GB RAM。服务器运行在Linux 5.15.0–113-generic内核上。实验代码基于Python 3.10作为主要编程语言,构建的神经网络模型使用了PyTorch 2.2.1版本。
结论与未来工作 本研究解决了基于个体属性生成时空活动序列的核心挑战。我们开发了Pop2Act&Loc模型,该模型结合了差分隐私技术,生成了在效率、准确性、多样性和安全性(隐私保护)之间取得有效平衡的合成数据集。
本研究的主要学术贡献如下:首先,开创了人口合成和活动生成的集成——这两个重要方面
CRediT作者贡献声明 叶路: 撰写——原始草案、可视化、软件、资源、方法论、数据整理、概念化。刘贵荣: 项目管理、资金获取。李翔: 项目管理、资金获取。金珍: 撰写——审稿与编辑、验证、监督、资源管理、项目管理、资金获取。
利益冲突声明 作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。
致谢 本研究得到了国家自然科学基金 (资助编号:12231012、U23A20331、62303303)、山西省科学基金 (资助编号:20210302123466、202202020101010)以及1331 山西省工程项目 的联合资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号