基于机器学习的远程光电容积脉搏波信号质量评估：提升车载驾驶员监测的可靠性与计算效率

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Machine learning-based remote PPG signal quality assessment for in-vehicle driver monitoring

【字体：大中小】 时间：2026年02月22日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　为了解决在动态车载环境中，由于运动伪影和光照变化导致远程光电容积脉搏波（rPPG）信号质量下降、进而影响驾驶员心率（PR）监测可靠性的问题，研究人员系统性地评估了多种机器学习（ML）和深度学习（DL）技术用于rPPG信号质量分类的性能。研究表明，基于峰值中心化幅度谱的频域特征显著提升了信号质量分类的能力，其中，利用前五个频域特征的极限梯度提升（XGBoost）模型在实现优异性能（AUC为0.86）的同时，计算成本（以每秒浮点运算次数，FLOPs衡量）远低于深度学习方法。这项研究为在高级驾驶员监控系统（DMS）中集成鲁棒且高效的驾驶员健康监测技术铺平了道路。

在智能交通系统的浪潮中，基于摄像头的生命体征监测正成为提升道路安全的关键技术。想象一下，您的爱车不仅能自动驾驶，还能默默关心您的健康——通过远程光电容积脉搏波（remote photoplethysmography, rPPG）技术，一个普通的车载摄像头就能捕捉皮肤因心跳而产生的细微颜色变化，从而估算您的心率（Pulse Rate, PR）。这种无接触、持续性的监测，对于预警驾驶员疲劳、压力或突发健康恶化至关重要，有望实现主动的自动干预。然而，理想很丰满，现实却很骨感。真实的车载环境充满挑战：路面的颠簸、驾驶员的动作以及快速变化的光照，都会在rPPG信号中引入严重的噪声和运动伪影，极大地限制了其可靠性。当信号质量不可靠时，任何基于此的心率读数都可能是“失真的警报”。

为了攻克这一难题，研究人员将目光投向了人工智能。与其依赖复杂的端到端视频分析模型（这类方法将信号提取与质量评估耦合，计算成本高昂），一个更具前景的思路是：能否直接从已经提取出的一维rPPG波形信号本身，来判断它是否可靠？这就像一个医生能否仅凭一份有噪点的心电图图纸，判断这份记录是否可用于诊断。如果可行，这种模块化的质量评估将能以极低的计算开销，无缝集成到资源受限的车载硬件中。为此，一个由飞利浦（Royal Philips）的研究团队开展了一项开创性的研究，并发表在《Biomedical Signal Processing and Control》期刊上。他们的核心问题是：在真实世界的驾驶场景下，如何构建一个既精准又高效（兼顾高性能与低计算量）的rPPG信号质量分类器？

为了回答这些问题，研究人员设计并执行了一套严谨的方法。首先，他们构建了一个独特的真实世界驾驶数据集：从31名参与者（23名男性，8名女性，年龄30-65岁）中收集了总计24小时的车内rPPG数据，使用车内视觉传感摄像头（VSC）系统，数据采集于德国和荷兰的高速公路、省道和城市道路。同时，通过贴于驾驶员胸部的电极同步记录心电图（ECG）作为心率参考真值。rPPG信号从视频帧中提取，使用了MediaPipe进行面部关键点检测，并应用了专为抑制车内常见失真（如光照突变和机械振动）而设计的DisGOP方法。数据处理时，将信号分割成6秒长、重叠5秒的片段，并通过Z-score进行归一化。一个关键的创新是引入了“峰值中心化幅度谱”作为信号表示方法：首先对信号进行快速傅里叶变换（FFT）得到幅度谱，然后找出幅度最大的峰（代表主导频率），最后将整个频谱循环移位，使该峰位于频谱中心。这种方法将信号质量评估与具体的心率值解耦，迫使分类器关注峰值本身的频谱完整性（如锐度与噪声基底），而非其频率位置，从而提升了模型对不同心率状态的泛化能力。信号片段的标签根据其rPPG估算心率与ECG参考心率之间的绝对差值是否小于±5次/分钟（BPM）来定义，合格则标记为“优质”，否则为“劣质”。最终获得了125,947个数据样本。

研究人员系统性地评估了四类模型：支持向量机（Support Vector Machine, SVM）、极限梯度提升（eXtreme Gradient Boosting, XGBoost）、一维卷积神经网络（Convolutional Neural Network, CNN）和长短期记忆网络（Long Short-Term Memory, LSTM）。对于传统的机器学习模型（SVM和XGBoost），他们从时域和频域提取了共计34个手工特征，并利用SelectKBest算法选择了最具区分度的前5个和前15个特征组合进行训练。深度学习模型（CNN和LSTM）则直接接收原始的时域信号或转换后的频域幅度谱作为输入，自动学习特征。所有模型都采用了基于受试者的五折交叉验证策略进行训练和评估，以确保模型能够泛化到新的、未见过的个体。研究的性能评估指标主要包括受试者工作特征曲线下面积（AUC）、灵敏度（Sensitivity）、特异性（Specificity）和准确率（Accuracy），并特别引入了计算成本度量——每秒浮点运算次数（FLOPs），以评估模型的部署效率。

研究结果部分揭示了几个关键发现：

•
特征重要性与模型表现：特征重要性分析显示，频域特征，尤其是与峰值形状和能量分布相关的特征（如峰值强度、频谱平坦度、熵等），对于区分信号质量至关重要。性能对比结果表明，无论是机器学习还是深度学习模型，使用频域表示（峰值中心化幅度谱）的性能均显著优于使用时域原始信号。在机器学习模型中，仅使用前5个频域特征的模型（SVM 5f和XGBoost 5f）与使用前15个特征的模型性能相当，表明少数核心特征已能提供足够信息。
•
计算效率的权衡：尽管多个模型（SVM 5f、XGBoost 5f、CNN fd、LSTM fd）在预测性能（AUC）上相近，但计算成本差异巨大。分析显示，XGBoost 5f模型的总计算量（1.94 × 10⁵FLOPs）远低于SVM 5f（3.09 × 10⁶FLOPs）和深度学习模型（如LSTM fd为7.72 × 10⁵FLOPs，CNN fd高达8.31 × 10⁸FLOPs）。这凸显了XGBoost在性能与效率上的卓越平衡。
•
与前沿方法的对比：研究人员将其最优模型（XGBoost 5f）与文献中多个先进的（远程）PPG质量估计模型在自家数据集上进行了对比。结果显示，XGBoost 5f模型取得了最高的AUC（0.86）和出色的灵敏度，同时其计算需求（1.94 × 10⁵FLOPs）比表现接近的Shin的CNN模型（3.73 × 10⁸FLOPs）低了三个数量级，比Goh等人的模型（8.52 × 10⁵FLOPs）也低得多。
•
标签与预测的深入分析：文章通过图示案例指出，基于心率误差的标签定义存在一定局限性：即使一个信号片段在时域形态上看起来质量不佳（噪声大），只要其频谱主峰位置正确，仍可能被标记为“优质”。研究人员的XGBoost模型有时会预测这些片段为“劣质”，表明模型可能学习到了比单纯心率匹配更丰富的、与信号形态完整性相关的特征。

结论与讨论部分总结了本研究的多重贡献与未来方向。该研究首次在真实世界驾驶场景下，系统性地评估了机器学习和深度学习技术用于rPPG信号质量分类。其核心结论是：基于峰值中心化幅度谱频域特征的XGBoost模型，能够在保持卓越分类性能（AUC 0.86）的同时，实现远低于深度学习模型的惊人计算效率。这为在资源受限的车载硬件上部署实时、可靠的驾驶员心率监测系统提供了极具前景的解决方案。

研究意义深远：它证明了对于rPPG信号质量评估这一特定任务，精心设计的特征工程结合高效的机器学习模型（如XGBoost），其表现可以不亚于甚至在某些方面优于复杂的深度学习模型，尤其在计算成本方面优势巨大。这种“信号中心化”的模块化方法，将质量评估与信号提取解耦，显著降低了整个处理流程的复杂度与资源消耗。该工作为智能交通系统（ITS）中集成鲁棒的驾驶员健康监测功能铺平了道路，有望提升道路安全并推动下一代远程健康监测技术的发展。

当然，研究也存在一些局限性，为未来工作指明了方向。首先，基于心率误差的标签定义可能无法完全反映信号的真实形态质量，未来可探索基于心电R波与PPG峰值手动对齐的更精确标签。其次，当前数据集在驾驶条件（仅冬季日间）、参与者多样性（肤色等）方面还有待扩展。此外，模型尚未集成视频级的运动或光照描述符进行多模态融合分析。最后，研究的下一步是在真实的汽车级处理器上验证XGBoost模型的实时部署性能，并探索其在夜间（需红外摄像头）或更复杂路况下的适用性。尽管车载生命体征监测目前尚处起步阶段，远未达到临床医疗监测的标准，但这项研究无疑为构建更智能、更关怀驾乘人员健康的未来汽车迈出了坚实的一步。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号