编辑推荐:
犯罪预测联邦学习框架FedCrime结合时空建模与零膨胀负二项损失函数,有效缓解数据稀疏和长尾分布问题,实验在LA和CHI数据集上分别提升14%和12%宏F1值。
Bhumika|Philippe Lalanda|German Vega|Debasis Das
印度焦特布尔理工学院计算机科学与工程系,焦特布尔,342030,拉贾斯坦邦,印度
摘要
在智能城市中,犯罪预测通过主动干预和高效资源分配在提高公共安全方面发挥着关键作用。近年来,基于深度学习的方法在时空犯罪预测方面表现出良好的性能。然而,大多数现有方法依赖于集中式训练,其中敏感的历史数据被收集在单一存储库中,这引发了重大的隐私问题并限制了可扩展性。联邦学习提供了一种有吸引力的替代方案,它允许在多个客户端(例如警察辖区)之间进行协作模型训练,而无需共享原始数据。尽管如此,传统的联邦学习技术并不适合犯罪预测,因为犯罪数据表现出长尾空间异质性,这导致低频(尾部)区域的零膨胀现象。在这种情况下,尾部区域的预测性能受到限制,而它们嘈杂的更新可能会对全局聚合产生负面影响,从而导致知识传递不良。为了解决这些挑战,我们提出了FedCrime,这是一个专门为极端稀疏条件下的犯罪预测设计的联邦学习框架。FedCrime结合了客户端级别的时间模型和一种考虑稀疏性的零膨胀损失函数,该函数明确考虑了过多的零值和分散的犯罪计数。这种设计使局部优化与底层数据生成过程保持一致,从而使用标准的联邦平均法实现稳定和有效的聚合。我们在来自洛杉矶和芝加哥的两个真实世界犯罪数据集上评估了FedCrime。实验结果表明,在极端稀疏条件下,FedCrime在洛杉矶的数据集上将宏观F1分数提高了14%,在芝加哥的数据集上提高了12%。
引言
普适计算利用嵌入在城市环境中的传感器提供上下文感知的服务,从而在包括交通优化、污染监测、事件管理和公共安全等多个领域改善日常生活[1],[2]。在这些应用中,由于盗窃、袭击和入室盗窃等犯罪行为的增加,犯罪预测受到了越来越多的关注1,这些犯罪行为对社会构成了重大挑战[3],[4],[5]。通过利用历史犯罪数据和先进的预测模型,执法机构旨在更有效地预测犯罪活动并分配资源。尽管预测警务系统在实践中取得了不同的成功2,但犯罪预测仍然是一个活跃的研究领域,这得益于深度学习和时空建模的最新进展[6]。
早期的犯罪预测深度学习方法主要依赖于基于网格的空间划分,并结合卷积和循环神经网络来模拟空间和时间依赖性[7],[8]。虽然这些方法在捕捉局部模式方面有效,但刚性的网格结构无法很好地反映城市环境的不规则几何形状,从而限制了空间表达能力和跨区域的泛化能力。为了解决这一限制,引入了基于图的模型,将城市区域表示为通过空间或功能关系连接的节点,从而实现了更灵活和表达力更强的时空建模[9],[10],[11]。
尽管有这些建模进展,大多数方法仍然依赖于集中式学习范式,需要将所有辖区的犯罪数据汇总到一个中心位置。这种集中式设计引入了几个关键挑战:
•隐私风险——犯罪数据通常包含敏感信息,使得集中式收集和共享容易受到数据泄露和未经授权访问的影响。
•计算和带宽开销——将大量数据从多个辖区传输到中央服务器会带来显著的通信和计算成本,从而引发可扩展性问题。
•更新延迟——集中式模型更新可能不会实时发生,从而降低了犯罪预测的响应性和准确性。
•数据不平衡——数据丰富的区域主导了训练,而犯罪率低或代表性不足的区域学习不足,导致预测偏差[12]。
联邦学习(FL)作为一种有前景的替代方案,通过在不共享原始数据的情况下实现协作模型学习[13],[14]。在图1所示的典型FL设置中,每个客户端(通常对应于一个地理区域或警察辖区)在其私有数据上训练一个本地模型,并定期将模型更新(例如权重或梯度)发送到中央服务器。服务器将这些更新汇总以生成一个全局模型,然后将其重新分配给客户端进行进一步的本地训练。这个过程在多个通信轮次中重复进行,直到模型收敛。虽然FL有效地解决了隐私问题并减少了原始数据的传输,但其收敛行为高度依赖于客户端数据的统计特性。在实践中,联邦训练可能在不同的客户端以不同的速度收敛到不同的最优解,全局收敛通常比集中式设置更慢或不稳定。在犯罪预测中,这些挑战尤为明显,因为数据本质上是异质的且高度偏斜:少数区域报告频繁的事件,而大多数区域犯罪发生稀少。这种长尾分布导致低犯罪区域的严重零膨胀现象,这在联邦设置中引发了两个主要问题。首先,在稀疏数据上训练的本地模型难以学习有意义的模式,可能会收敛到平凡的预测因子。其次,当这些次优更新被汇总时,它们会将噪声引入全局模型,导致知识传递不良和客户端性能下降[15],[16]。此外,标准的FL架构没有明确考虑犯罪数据的时空特性。犯罪预测需要模拟时间动态和区域间的空间相关性,而传统的FL方法主要关注于减轻非独立同分布(non-IID)数据的影响,而没有考虑结构化的时空依赖性[17],[18]。因此,现有方法仍然不适合在极端稀疏条件下的大规模城市犯罪预测。
为了解决这些挑战,我们提出了FedCrime,这是一个专门为零膨胀和长尾数据分布下的时空犯罪预测设计的联邦学习框架。FedCrime通过在每个客户端本地进行时间建模,并通过定期的服务器端聚合来捕获空间依赖性,从而将时间和空间学习分离。在每个客户端模型的核心,我们集成了一种时间卷积网络(TCN-SD)和统计分布模块,使模型能够共同学习时间模式并估计分布参数[19]。与基于高斯的公式不同,后者不适合稀疏和分散的犯罪数据,所提出的模型依赖于基于负二项分布的统计分布,以更好地捕捉长尾行为和过度分散。为了进一步减轻稀疏性的不利影响并防止知识传递不良,我们在客户端级别引入了一种考虑稀疏性的零膨胀损失函数,允许低犯罪区域在联邦聚合过程中贡献更多有信息量和稳定的更新[20],[21]。
我们的主要贡献可以总结如下:
•我们提出了FedCrime,这是一个用于城市规模时空犯罪预测的联邦学习框架,专门针对高度稀疏和偏斜的犯罪分布。FedCrime结合了时间卷积网络(TCN)和概率统计建模,能够在极端空间不平衡的情况下实现有效学习。据我们所知,这是第一个在城市规模上明确解决时空犯罪预测中零膨胀问题的联邦学习方法。
•在客户端方面,我们引入了一种考虑分布的本地学习策略,将基于TCN的时间表示与考虑稀疏性的零膨胀负二项(ZINB)损失相结合。这种设计明确模拟了结构零值和过度分散的犯罪计数,改善了低频(尾部)区域的学习效果,同时减轻了联邦设置中的知识传递不良。
•在服务器端,FedCrime保留了一种简单且通信效率高的聚合方案,与标准的FedAvg兼容。我们的方法表明,将局部目标与犯罪数据的统计特性对齐足以在极端异质性下实现强大的全局性能。
•我们在来自洛杉矶(LA)和芝加哥(CHI)的两个真实世界公共犯罪数据集上进行了广泛的实验。我们将FedCrime与最先进的联邦学习方法进行了比较,分析了头部、中部和尾部区域的区域知识共享情况,并评估了局部和全局性能。我们的结果显示,在LA上FedCrime在局部评估中实现了高达16%的宏观F1分数,在CHI上实现了高达19%的宏观F1分数,在相应的全球测试中分别实现了高达14%和12%的宏观F1分数,突显了泛化与个性化之间的权衡。
•本文的其余部分组织如下。第2节回顾了与犯罪预测和联邦学习相关的工作。第3节介绍了必要的术语,并正式定义了联邦犯罪预测问题。第4节介绍了提出的FedCrime框架,详细说明了其架构和核心组件。第5节描述了实验设置,第6节详细讨论了结果。最后,第7节总结了本文的主要发现并概述了我们方法的局限性。
部分摘录
相关工作
本节首先回顾了现有的集中式犯罪预测方法,然后介绍了分布式城市数据联邦学习的最新进展。接着,我们研究了旨在解决时空预测任务中零膨胀问题的方法,并讨论了当前技术在有效建模时空依赖性、处理分布偏斜和减轻零膨胀数据挑战方面的局限性。
初步和问题表述
犯罪预测旨在根据历史犯罪数据预测城市内犯罪事件的发生。我们首先介绍了将在本文中使用的必要符号,然后正式定义了联邦学习环境下的犯罪预测问题。
定义1 区域或客户端
一个城市由个不重叠的、地理行政边界组成,这些边界被称为辖区或区域,正式定义为。在联邦学习设置中,每个区域作为一个
FedCrime:提出的方法
我们提出了FedCrime,这是一个用于在严重数据稀疏和分布偏斜条件下进行时空犯罪预测的联邦学习框架。FedCrime依赖于具有统计分布(TCN-SD)的时间卷积网络(Temporal Convolutional Network with Statistical Distribution)作为核心,其中时间依赖性在每个客户端本地进行建模,犯罪数据的分布特征通过概率输出明确捕获。特别是,该模型参数化了零膨胀负二项分布(ZINB)
实验设置
本节提供了实验设置的详细概述。它包括数据集的描述、系统配置(包括超参数)以及用于评估的评估策略和指标。此外,它还概述了用于评估模型性能的方法论。
实验
在本节中,我们提出了实验来评估FedCrime的性能,旨在回答以下关键问题:
•数据稀疏性如何影响联邦学习的整体性能(就预测准确性而言?
•与现有的联邦学习技术相比,所提出的方法表现如何?
•知识共享如何影响联邦学习中的头部、中部和尾部区域?
•不同的零膨胀建模技术在联邦学习中的表现如何
结论和未来工作
在这项工作中,我们研究了作为集中式方法替代方案的联邦学习,用于城市规模的犯罪预测,解决了与隐私、通信开销和模型更新延迟相关的关键限制。我们介绍了FedCrime,这是一个联合使用时间卷积网络(TCN-SD)架构和零膨胀负二项分布(ZINB)损失的联邦框架,以明确建模极端稀疏和长尾分布
CRediT作者贡献声明
Bhumika:写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、资源管理、方法论、调查、资金获取、正式分析、数据整理、概念化。Philippe Lalanda:撰写原始草稿、可视化、监督、方法论、调查、资金获取、正式分析、概念化。German Vega:撰写原始草稿、验证、监督、软件、资源管理、方法论、正式
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。