FLNM-Net：一种频率自适应且对亮度噪声敏感的掩模网络，用于从视频中提取rPPG信号

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：FLNM-Net: A Frequency-Adaptive and Luminance-Noise Aware Mask Network for rPPG Signal Extraction from Video

【字体：大中小】 时间：2026年03月09日 来源：Pattern Recognition 7.6

编辑推荐：

　　远程光电容积描记（rPPG）技术通过面部视频估算心率等生理信号，但易受运动伪影和光照变化干扰。FLNM-Net通过动态抑制光照噪声的LNAM模块、增强生理相关频段的FAG模块和自适应时空注意力ADTA模块，显著提升信号质量与计算效率，在五大数据集上较SOTA方法MAE降低31.65%，SNR提高11.83%。

赵杰·范|邵伟·顾|欧阳开晨|魏德代|彭勇

中国湖南省长沙市中南大学交通与运输工程学院，教育部轨道交通交通安全重点实验室，邮编410075

摘要

远程光电容积描记法（rPPG）是一种有前景的非接触式技术，可以从面部视频中估计心率和血容量脉搏等生理信号。然而，在现实场景中，由于运动伪影和环境光亮度变化，其可靠性常常受到严重影响。关键挑战在于有效分离微弱的血容量脉搏（BVP）信号与这些强大的噪声源。为了解决这个问题，我们提出了FLNM-Net，一种新型的频率自适应和光亮度噪声感知掩码网络。该框架整合了三个核心组件：光亮度噪声感知掩码（LNAM），在训练期间动态抑制空间域中的光照引起的噪声；频率自适应门（FAG），通过可学习的复合波形增强与生理相关的频率带；以及平均深度时间注意力（ADTA）模块，对时间特征进行逐通道重新校准，以强调信息动态。我们在五个具有挑战性的公共数据集——PURE、MMPD、UBFC-PHYS、SCAMPS和COHFACE上，与九种最先进的方法进行了广泛的实验。结果表明，与现有的最先进方法相比，FLNM-Net显著提高了估计精度和信号质量，同时保持了仅0.05M参数的轻量级结构。例如，在MMPD数据集上，与最优模型相比，FLNM-Net将MAE降低了31.65%，并将SNR提高了11.83%。我们的方法为无约束条件下的实时rPPG估计提供了一种强大而高效的解决方案。代码可在以下链接获取：https://github.com/gswawei-sys/FLNM-Net.git

引言

远程光电容积描记法（rPPG）是一种非接触式的生理测量技术。收缩期和舒张期会导致微血管中血液体积的周期性变化，从而引起皮肤反射光强度的微妙而规律的波动[1]。通过建模和提取这些由心脏泵血引起的微妙、周期性的皮肤颜色变化，rPPG能够无干扰地估计心率（HR）和血容量脉搏（BVP）。与传统的基于接触的光电容积描记法（PPG）传感器相比，rPPG不需要皮肤接触，避免了用户不适或运动限制[2]。这一特性使得该系统非常适合连续、长期的监测场景，特别是在检测驾驶员疲劳或分心时，因为生理状态直接影响安全性[3]。在多模态信息驱动的视频理解中，rPPG通过联合建模空间外观线索和时间节奏模式，直接从RGB视频中提取生理信息，从而实现下游解释任务，如疲劳检测、血压估计或健康状况评估。此外，它在[4]、[5]等领域显示出广泛的应用价值，包括临床健康跟踪、隐私保护和情绪分析。

rPPG技术的早期实现主要基于传统的信号处理框架。这些方法通常首先使用面部检测算法定位面部区域，然后根据生理特征选择特定的感兴趣区域（ROI），并从RGB通道中提取脉波成分。在信号处理阶段，研究人员经常采用频域分析方法[6]，如离散傅里叶变换，并结合时域峰值检测算法来估计心率参数。这些方法的核心局限性在于它们依赖于多阶段的手工特征，包括复杂的步骤，如预处理、频域滤波和后处理。此外，这些模型在现实应用中由于运动伪影和环境光干扰[7]而表现出较差的鲁棒性，严重限制了它们的临床实用性。

最近的深度学习方法可以直接从原始视频中学习脉波特征，改进了非接触式心率测量[8]。早期的方法遵循多步骤流程：面部ROI预处理[9]、构建时频或时空图[10]，以及基于CNN的回归。尽管有效，但这些流程需要复杂的预处理，丢弃了可能有用的一些非ROI信息，并阻碍了端到端的全局建模。这促使人们开发了端到端框架，共同建模局部和全局信息。然而，CNN主要捕获局部感受野，在建模长距离时空依赖性方面存在局限性。因此，利用面部区域和时间帧之间的相关性对于提高rPPG精度仍然至关重要。由于Transformer能够捕获空间和时间上的长距离依赖性，它们在rPPG中受到了关注[11]，并且可以更好地建模区域-帧相关性，以产生更准确的BVP特征。

然而，Transformer的复杂性随序列长度呈二次方增长[12]，因此许多方法采用粗略的token化来减少计算量。这通常会将富含rPPG的区域与运动或光照噪声区域混合在同一token中，从而降低准确性和鲁棒性[13]，特别是在强运动、光照变化或肤色多样性条件下。

为了克服这些问题，我们提出了FLNM-Net，一个端到端模型，它将频域信息与时域光亮度噪声线索相结合，用于无约束场景下的稳健rPPG提取。其核心思想是在抑制光照噪声和运动伪影的同时，强调由心跳引起的微妙生理信号。FLNM-Net使用3D CNN进行局部时空特征提取，并结合卷积块和时间注意力来捕获长距离的时间依赖性。该架构通过平衡性能和计算效率以及模型大小进行了优化。本研究的主要贡献总结如下：1.

为了减轻rPPG对光照变化和轻微头部运动的敏感性，我们设计了光亮度噪声感知掩码（LNAM）模块。它测量时空特征的不稳定性，以生成在训练期间抑制光照和运动干扰的自适应掩码，促使网络关注生理脉搏信号。

2.

为了利用rPPG的准周期性，我们提出了频率自适应门（FAG）模块进行自适应频域调制。它学习具有生理意义的复合波形来调制时域特征，增强与rPPG相关的频段（0.5–3.0Hz），同时抑制无关噪声，从而提高信号保真度和鲁棒性。

3.

为了高效利用时间上下文并在深层调整通道特征，我们引入了轻量级的平均深度时间注意力（ADTA）模块。它通过并行注意力分支捕获逐通道的时间动态，并生成注意力权重来重新校准主干特征，强调对rPPG预测更有信息量的通道。

4.

在多个基准rPPG数据集上的实验表明，FLNM-Net在估计精度、对现实干扰的鲁棒性和计算效率方面均优于最先进的方法，支持在资源受限的边缘设备上进行实时部署。

部分片段

传统方法

Verkruysse等人[14]首次提出使用RGB相机无接触地提取光电容积描记法（PPG）或血容量脉搏（BVP）信号的方法，开启了基于视频的生理参数监测的新方向。常见的方法主要可以分为基于信号分离的方法和基于皮肤反射模型的方法。

基于信号分离技术的核心思想是从混合的原始RGB中分离出与脉搏相关的有效成分

FLNM-Net的总体框架

FLNM-Net是一个轻量级的端到端深度学习架构，专为rPPG信号提取而设计。它的目标是从面部视频序列中稳健地恢复微弱的生理脉搏信号。网络结构如图1所示。它使用3DCNN作为主干，并整合了三个关键的新功能模块：LNAM、FAG和ADTA。输入的面部张量满足

X \in R^{B \times C \times T \times H \times W}

，其中B, C, T, H和W分别代表批量大小、通道数量（对于RGB视频，

C = 3

，时间序列

数据集和性能指标

为了全面评估FLNM-Net的性能，我们使用了五个广泛使用的公共数据集：PURE [35]、MMPD [36]、UBFC-PHYS [37]、SCAMPS [38] 和 COHFACE [39]。这些数据集涵盖了从理想实验室设置到复杂现实场景的广泛条件，有效检验了模型的准确性和鲁棒性。

•

PURE [35]：该数据集包含10名受试者执行六种不同头部运动任务的视频（例如，静止、说话、平移等）

结论

在这项工作中，我们专注于减轻无约束环境中基于rPPG的生理监测所面临的挑战，特别是针对复杂运动伪影和环境光照噪声的双重干扰。为此，我们提出了FLNM-Net，一个稳健的端到端框架，旨在将生理信号与噪声在时频域中分离。

FLNM-Net的方法论贡献在于三种新机制的协同整合：

CRediT作者贡献声明

赵杰·范：撰写——原始草稿、验证、方法论、资金获取、正式分析、数据管理。邵伟·顾：撰写——原始草稿、验证、方法论、概念化。欧阳开晨：撰写——原始草稿、正式分析。魏德代：撰写——原始草稿、正式分析、数据管理。彭勇：撰写——原始草稿、可视化、监督、方法论、调查、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本文档是中国湖南省自然科学基金（2025JJ60279）和中南大学研究生创新项目（2024XQLH095）以及中国国家自然科学基金（U24B20123）资助的研究项目的成果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号