FreTransLS：基于频率变换器的大规模群体活动识别模型，适用于传感器数据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pervasive and Mobile Computing》：FreTransLS: Frequency Transformer based large-scale group activity recognition model for sensor data

【字体：大中小】 时间：2026年02月11日 来源：Pervasive and Mobile Computing 3.5

编辑推荐：

　　大尺度群体活动识别中提出基于频率Transformer的FreTransLS模型，通过融合时空图卷积网络与群体位置特征提取模块，结合频率注意力机制Transformer进行全局时间-频率特征分析，有效提升传感器数据驱动的群体活动识别准确性和鲁棒性。

阮荣红|曹美娇|周彦通|张吉|陈鹏|孙国道|梁荣华

中国浙江工业大学

摘要

在大型群体活动中，参与者会参与更多种类的行为，他们之间的互动也变得显著复杂。这带来了挑战，包括在群体活动识别中的同步性和协调性分析问题。因此，那些为使用传感器数据识别小型群体活动而设计的方法往往无法准确识别大型环境中的动态模式。为了解决这个问题，本文提出了FreTransLS——一种基于频率变换器的模型，用于使用传感器数据识别大型群体活动。FreTransLS引入了一种新的方法来提取大型群体活动中的时频特征。该方法结合了时空图卷积网络（ST-GCN）模块来捕捉群体内的时空特征，以及群体位置特征提取（GLFE）模块来获取群体位置特征。这两种特征流被融合在一起，以得出群体活动的综合时域表示。此外，FreTransLS还包含了一个基于频率注意力机制的频率变换器编码器。该编码器在频率域中进行全局分析，以更好地模拟群体活动中的同步性和协调性模式。为了提高模型的泛化能力，FreTransLS采用了联合优化策略，通过互补的分类和重建模块共同精炼提取的时频特征。在两个公共数据集上的实验表明，所提出的方法能够有效地从传感器数据中捕捉到具有区分性的特征，从而提高了群体活动识别的准确性和鲁棒性。

引言

活动识别是指利用从传感器收集的用户数据，并应用模式识别理论以及机器学习或深度学习算法来识别各种人类活动的技术。它包括人类行为识别（HAR）和群体活动识别（GAR）。目前，该领域的大多数研究都集中在个体层面，而针对多用户或更广泛社会层面的GAR的研究相对较少。群体活动不仅仅是个体行为的简单聚合；它涉及个体之间以及个体与其环境之间的复杂互动。GAR的核心在于深入探索这些互动，以生成群体活动的有意义的语义表示。GAR在城市规划、交通监控和社会学研究等领域具有巨大的应用潜力[1]。

历史上，大多数GAR方法依赖于视频分析[2]。然而，随着移动传感器技术的快速发展，基于传感器的GAR已成为一个有前景但具有挑战性的研究方向。通过分析传感器数据，这些方法能够捕捉群体动态并识别群体活动[3]，同时克服了基于视频的方法的固有局限性——如隐私问题和位置限制[4]。

在GAR中，通常将包含12个或更少个体的群体定义为小型群体，而包含超过12个个体的群体则被视为大型群体[5]。在小型群体中，个体活动通常更加集中和一致，导致群体活动和互动的模式相对简单。目前大多数基于传感器的GAR方法主要关注小型群体。但是，传统的小型群体GAR方法[6]、[7]、[8]、[9]依赖于手工制作的特征，这限制了它们的鲁棒性和泛化能力。相比之下，深度学习通过数据驱动的方法进行特征提取，从广泛的样本训练中得出深度的、特定于数据集的特征表示，从而提高了鲁棒性和泛化能力。因此，深度学习方法在GAR研究者中也受到了关注。阮等人[10]提出了一种基于传感器数据的双域联合注意力机制（TJAMSD），通过整合数据域和语义域的网络来提高GAR的准确性和鲁棒性。尽管这种方法利用深度学习来增强特征提取的鲁棒性和泛化能力，但它仍然主要关注小型群体特征。当应用于大型群体时，TJAMSD的识别性能会显著下降。这一限制主要是由于个体行为的多样性增加、互动的复杂性提高，以及在大规模环境中出现同步性和协调性分析等挑战性问题。因此，开发针对大型群体的专门特征提取方法对于提高大型群体活动的识别准确性至关重要。

最近，研究人员开始关注基于传感器数据的大型群体活动识别。例如，Lane等人[11]引入了网络化社区行为（NCB）框架用于活动识别，旨在揭示社区规模上的活动模式。陈等人[12]利用基于位置的移动传感器信号探讨了社会关系和GPS位置信息对群体活动模式的影响。吴和Solmaz等人[13]提出了一种两阶段方法来推断移动模式，通过成功识别个体移动模式来检测集体移动行为。上述方法能够区分小型群体和大型群体的特征，并采用特定策略处理大型场景。然而，这些方法仍然严重依赖于预先定义的先验知识，这限制了它们的鲁棒性和泛化能力。此外，它们未能充分解决大规模环境中的关键挑战——如同步性和协调性——从而阻碍了整体群体活动模式的有效捕捉。

频率域深度神经网络被认为可以捕捉活动中的全局特征，如共振频率，为上述挑战提供了潜在的解决方案。Vuong等人[14]提出了一种深度小波卷积神经网络（DWCNN），旨在从时间和频率域中提取特征。这种方法通过揭示时间-频率域内传感器信号的内在依赖性，提高了多模态HAR的准确性，有效解决了多模态传感器信号中的时间-频率依赖性带来的挑战。Hussai等人[15]提出了一种基于信道状态信息的Wi-Fi被动感知模型用于HAR，利用功率谱密度分析来捕捉频率域特征，同时使用Transformer架构处理频率域相位信息并捕捉复杂的时空模式。尽管这些方法在时间和频率域都使用了深度神经网络进行活动识别，但它们仅限于HAR，并未解决GAR问题，特别是在大规模GAR的背景下。

基于上述分析，并针对当前大型群体活动识别中的关键挑战，本文提出了FreTransLS——一种基于频率变换器的模型，用于使用传感器数据识别大型群体活动。FreTransLS旨在捕捉大型群体中更丰富的个体互动和更复杂的活动模式。这项工作的主要贡献是一个新的时频特征提取框架，能够学习出有效反映群体成员之间同步性和协调关系的鲁棒和泛化表示。具体来说，它包括：

(1) 它引入了时空图卷积网络（ST-GCN）模块来提取群体时空特征，以及群体位置特征提取（GLFE）模块来捕捉群体位置特征。通过将群体时空特征与群体位置特征融合，模型生成了群体活动的鲁棒时域特征。

(2) 它引入了一个基于频率注意力的频率变换器编码器来进行时频特征提取。该模块使用频率注意力在频率域中进行全局分析，以理解群体活动中的同步性和协调性关系。多头注意力机制用于捕捉群体活动的时频特征。

(3) 在两个自构建的数据集UT-Data-gar和Garsensors上进行的实验表明，所提出的方法能够有效捕捉大型群体活动特征，在大型群体活动识别中实现了比现有方法更高的准确性和鲁棒性。

本文的其余部分组织如下：第2节回顾了相关工作，包括基于视频和传感器的大型群体活动的当前研究。第3节详细介绍了所提出的模型。第4节介绍了实验数据集、设置、结果和分析。第5节对研究结果进行了讨论，第6节总结了研究。

章节摘录

基于视频的大型群体活动识别

基于视频的GAR研究面临的主要困难是如何随着个体数量的显著增加而有效建模复杂的群体动态。

为了解决这个问题，研究人员首先扩大了可用数据集的规模和多样性。最近引入的大型视频数据集（包括PANDA [16]和JRDB-Act [17]）包含了更广泛的场景分布、更高的人口密度和更复杂的互动模式。

FreTransLS模型概述

在本文中，我们提出了FreTransLS，一种基于频率变换器的大型群体活动识别模型，用于传感器数据。FreTransLS包括一个时空图卷积网络（ST-GCN）模块和一个群体位置特征提取（GLFE）模块，这些模块用于提取群体时空特征和群体位置特征，然后将它们整合起来获得群体活动的时域特征。此外，FreTransLS还包括一个基于频率变换器的编码器

数据集

我们在两个自构建的数据集上评估了该方法：UT-Data-gar和Garsensors。

UT-Data-gar数据集是从UT-Data个体活动数据集[31]派生出来的GAR数据集。它包含了原始数据集中的个体活动数据，并添加了新的个体坐标数据。此外，在原始个体活动注释的基础上引入了群体活动标签。个体活动数据包括来自三轴加速度计的测量数据

参数和计算性能

表7展示了各种网络模型的参数数量和FLOPs。值得注意的是，最初为基于视频的GAR设计的方法GroupFormer、AT和ACCG表现出显著更高的参数数量和FLOPs。相比之下，我们提出的方法的参数数量为878.0K，FLOPs为68.9M。尽管参数数量略高于同样用于基于传感器数据的TJAMSD方法，但我们的方法显示出更低的

结论

本文提出了FreTransLS，一种基于频率变换器的大型群体活动识别模型，用于传感器数据。其核心是引入了一种专门为大型群体活动设计的时频特征提取模型。这包括使用ST-GCN模块捕捉群体时空特征，以及一个新颖的GLFE模块来识别群体位置特征，然后将它们整合到群体活动的时域特征中。FreTransLS进一步结合了频率变换器

CRediT作者贡献声明

阮荣红：撰写——审稿与编辑、监督、资源管理、项目管理、方法论、调查、资金获取、正式分析、概念化。曹美娇：撰写——审稿与编辑、原始草稿撰写、可视化、验证、软件开发、方法论、调查、数据管理。周彦通：验证、软件开发、调查、数据管理。张吉：原始草稿撰写、软件开发、方法论、调查、概念化。陈鹏：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（项目编号：62276237、62036009、62432014、62422607）的支持，浙江省基本公共福利研究计划项目（项目编号：LTGY23F02006），以及浙江省自然科学基金（项目编号：LDT23F0202、LDT23F02021F02）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言