参数化的合成WiFi信道状态信息（CSI）数据生成，用于实现可靠的人类活动识别：一种结合边缘计算部署分析的Sim2Real方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Internet of Things》：Parameterized Synthetic WiFi CSI Data Generation for Trustworthy Human Activity Recognition: A Sim2Real Approach with Edge Deployment Analysis

【字体：大中小】 时间：2026年03月01日 来源：Internet of Things 7.6

编辑推荐：

　　本提出参数化合成WiFi信道状态信息（CSI）数据生成框架，结合Sim2Real迁移学习与边缘优化，解决数据稀缺、跨域泛化差及计算受限问题。实验表明模型仅需20%真实标注数据即达82.1%宏F1分数，在Xavier AGX 32G平台实现607样本/秒吞吐量，模型大小<2.5MB。

赵志豪|陈雅冰|郭帕特里克|努尔·赛阿兹琳·艾哈迈德

马来西亚科学大学电气与电子工程学院，14300 Nibong Tebal，槟城，马来西亚

摘要

基于无线保真（WiFi）信道状态信息（CSI）的人类活动识别（HAR）技术展示了良好的成果，但实际应用面临关键挑战，包括数据稀缺、跨域泛化能力差以及边缘部署的计算限制。虽然现有的基准测试（如SenseFi）系统地在真实数据集上评估模型，但它们假设存在大量标注数据，并忽略了实际部署的考虑因素。我们提出了一个参数化的合成CSI数据生成框架，通过模拟到现实（Sim2Real）迁移学习和边缘部署优化来解决这些挑战。我们的方法生成了具有真实频率特性、时间动态和噪声模式的可控合成CSI样信号，从而实现了向真实场景的有效领域迁移。我们引入了一种增强型深度学习架构，该架构结合了挤压激励（SE）模块和时间注意力机制，并配备了可靠的评估协议和边缘部署分析。在合成鲁棒性验证（SRV：540种配置）、跨域适应评估（CDAE：40种配置）和Sim2Real迁移效率评估（STEA：56种配置）中的实验表明了强大的性能。我们的方法仅使用20%的标注真实数据就实现了82.1%的宏观F1分数，与全监督相比仅相差1.2%，同时将标注成本降低了80%。增强型模型在留一受试者外（LOSO）和留一间室外（LORO）协议下均表现出83.0±0.1%的F1分数，显示出跨域一致性。在Xavier AGX 32G平台上的边缘部署分析显示了其实际可行性，具备实时推理能力：增强型模型在批量大小为8时可实现每秒607个样本的吞吐量，单样本延迟为5.3毫秒，同时模型大小保持在2.5MB以下。本研究提出了一个包含WiFi CSI HAR边缘部署分析的系统性Sim2Real研究。

引言

移动计算和物联网（IoT）的部署趋势引发了关于无设备感知系统实际可行性的重大关切。这些关切主要集中在它们对标注数据集的依赖性、跨域性能下降的脆弱性以及边缘部署场景的计算需求上。基于无线信号的人类活动识别（HAR）由于多径传播、环境敏感性和人类运动动态与电磁波扰动之间的复杂关系而具有固有的复杂性。这种复杂性在保护隐私的感知能力和在多样且不受控制的环境中进行部署的严峻现实之间造成了矛盾，因为在这些环境中获取标注训练数据的成本非常高昂，计算资源也严重受限。

本研究的核心问题是探讨合成数据生成是否能够弥合实验室控制的WiFi信道状态信息（CSI）HAR系统与实际边缘计算场景之间的差距，后者以数据稀缺、领域异质性和资源限制为特征。

现有的基准测试工作对该领域做出了实质性贡献。SenseFi [1] 通过比较11种深度学习模型在4个公共数据集上的表现，建立了标准化的评估协议，并揭示了不同架构和数据集之间的性能差异。然而，这些基准测试假设存在大量可用的标注真实世界训练数据，并且计算资源是无限的，这导致了研究成果与实际部署场景之间的差距。尽管之前的研究探索了包括迁移学习方法、领域适应技术和数据增强策略在内的方法，但这些方法仍然依赖于足够的目标领域标注数据的可用性，而且通常需要计算密集型模型，不适合边缘部署。

我们的工作通过几项新颖的贡献解决了这些限制，推进了基于WiFi CSI的HAR的理论理解和实际应用性。我们引入了一个系统化的参数化合成数据生成框架，该框架生成了具有真实频谱特性的可控CSI样信号，从而能够创建有助于有效领域迁移的合成训练数据。我们在WiFi CSI HAR中进行了系统的模拟到现实（Sim2Real）迁移学习研究，结果表明，在合成数据上预训练的模型仅需要20%的真实数据即可进行微调，以实现82.1%的宏观F1分数，相当于全数据集性能的98.6%，同时将数据收集成本降低了80%。我们提出了一个增强型注意力网络（EAN），其中包含了挤压激励（SE）模块和时间注意力机制，在留一受试者外（LOSO）和留一间室外（LORO）协议下均实现了83.0±0.1%的F1分数，显示出前所未有的跨域一致性。此外，我们在Xavier AGX 32G平台上提供了首次边缘部署分析，证明了其实际可行性，该平台具备实时推理能力：增强型模型在批量大小为8时可实现每秒607个样本的吞吐量，单样本延迟为5.3毫秒，同时模型大小保持在2.5MB以下。

主要贡献：

1.
参数化合成数据生成器：
我们开发了一种新颖的参数化合成数据生成框架，可以生成具有可配置频率特性、时间动态和噪声模式的可控CSI样信号，以生成真实的合成训练数据。
2.
Sim2Real迁移学习：
我们在WiFi CSI HAR中进行了系统的Sim2Real研究，与之前的基于物理的特征提取方法 [2]、[3] 不同，我们证明了从参数化合成数据集到真实领域的有效迁移。
3.
样本高效学习：
我们证明，在合成数据上预训练的模型仅需要20%的真实数据即可进行微调，以实现82.1%的宏观F1分数，相当于全数据集性能的98.6%，同时将数据收集成本降低了80%。
4.
增强型注意力网络：
我们提出了一个包含SE模块和时间注意力机制的EAN，在合成数据和真实数据上都实现了卓越的性能，并具有出色的跨域一致性。
5.
边缘部署分析：
我们为WiFi CSI HAR提供了全面的边缘部署特性分析，在Xavier AGX 32G平台上进行了详细的性能分析，包括吞吐量、延迟和内存优化分析。
6.
可靠的评估协议：
我们引入了包括模型校准分析、预测置信度评估和适合安全关键边缘应用的跨域鲁棒性测试在内的可靠性评估。

实验验证：我们通过三种结合边缘部署分析的系统评估协议验证了我们的方法：(1) 合成鲁棒性验证（SRV）： 在噪声、类别重叠和难度条件下的540种配置，(2) 跨域适应评估（CDAE）： 验证LOSO/LORO泛化能力的40种配置，(3) Sim2Real迁移效率评估（STEA）： 量化Sim2Real标签效率的56种配置，以及(4) 边缘部署特性分析： 在Xavier AGX 32G平台上的性能分析。结果展示了突破性的性能，包括83.0±0.1%的F1跨域一致性，仅使用20%的标注真实数据即可实现82.1%的F1分数，以及在边缘硬件上实现每秒607个样本的实时推理能力。

本文的其余部分详细介绍了我们的方法和发现。第二节回顾了WiFi CSI HAR、合成数据生成方法、Sim2Real迁移学习和边缘计算考虑的相关工作。第三节介绍了我们的合成数据生成框架及其详细的信号模型和参数化策略。第四节描述了我们的增强型注意力网络架构和为边缘部署优化的可靠评估协议。第五节展示了所有评估协议的实验结果，包括详细的边缘部署分析。第六节讨论了发现、影响和局限性，第七节总结了贡献和对普遍感知应用的广泛影响。图1提供了整个系统流程的概述。

部分摘录

WiFi CSI HAR和深度学习架构

随着深度学习架构和系统评估框架的进步，基于WiFi CSI的HAR取得了显著发展。早期工作侧重于特征工程方法 [4]，从CSI幅度和相位信息中提取手工制作的特征。此后，该领域转向了端到端的深度学习方法，采用了越来越复杂的架构。

卷积神经网络（CNN）是最早应用于WiFi CSI HAR的深度学习方法之一，

参数化合成CSI数据生成框架

本节介绍了我们的参数化合成CSI数据生成框架，该框架生成了能够模仿WiFi CSI数据基本特性的可控合成信号，用于HAR应用。该框架使用可配置的信号参数和真实的噪声建模来生成合成训练数据，从而实现有效的领域迁移，并为全面的评估协议提供对数据特性的系统控制。

增强型深度学习架构

基于我们的合成数据生成框架，我们提出了一个EAN，其中结合了先进的注意力机制和特征细化技术，旨在提高准确性和计算效率。我们的设计理念在模型表达能力和边缘部署限制之间取得了平衡，确保了在资源受限的IoT场景中实现卓越的性能。如图2所示，该模型结合了CNN特征

带有边缘部署分析的实验评估

图3总结了我们的四个评估组件（SRV、CDAE、STEA和边缘部署分析），为后续的实验设置和结果提供了框架。

讨论

本研究通过参数化合成数据生成和Sim2Real迁移学习解决了WiFi CSI基础HAR中的数据稀缺问题，同时通过详细的边缘计算分析解决了实际部署问题。我们的研究问题集中在合成数据生成是否能够弥合实验室控制系统与实际部署场景之间的差距，后者以数据稀缺、领域异质性和资源限制为特征。

结论

本文首次系统地研究了用于WiFi CSI HAR的参数化合成数据生成及其边缘部署分析，解决了数据稀缺、跨域泛化和实际部署限制等挑战。我们的评估表明，参数化合成数据能够实现有效的Sim2Real迁移到真实场景，仅使用20%的标注真实数据即可实现82.1%的宏观F1分数，并在LOSO/LORO协议下实现了83.0±0.1%的跨域一致性

CRediT作者贡献声明

赵志豪：撰写——原始草案、方法论、调查、形式分析、数据整理。陈雅冰：可视化、资源。郭帕特里克：可视化、验证。努尔·赛阿兹琳·艾哈迈德：撰写——审稿与编辑、验证、监督、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言