基于机器学习的远程光电容积脉搏波信号质量评估:提升车载驾驶员监测的可靠性与计算效率

《Biomedical Signal Processing and Control》:Machine learning-based remote PPG signal quality assessment for in-vehicle driver monitoring

【字体: 时间:2026年02月22日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  为了解决在动态车载环境中,由于运动伪影和光照变化导致远程光电容积脉搏波(rPPG)信号质量下降、进而影响驾驶员心率(PR)监测可靠性的问题,研究人员系统性地评估了多种机器学习(ML)和深度学习(DL)技术用于rPPG信号质量分类的性能。研究表明,基于峰值中心化幅度谱的频域特征显著提升了信号质量分类的能力,其中,利用前五个频域特征的极限梯度提升(XGBoost)模型在实现优异性能(AUC为0.86)的同时,计算成本(以每秒浮点运算次数,FLOPs衡量)远低于深度学习方法。这项研究为在高级驾驶员监控系统(DMS)中集成鲁棒且高效的驾驶员健康监测技术铺平了道路。

  
在智能交通系统的浪潮中,基于摄像头的生命体征监测正成为提升道路安全的关键技术。想象一下,您的爱车不仅能自动驾驶,还能默默关心您的健康——通过远程光电容积脉搏波(remote photoplethysmography, rPPG)技术,一个普通的车载摄像头就能捕捉皮肤因心跳而产生的细微颜色变化,从而估算您的心率(Pulse Rate, PR)。这种无接触、持续性的监测,对于预警驾驶员疲劳、压力或突发健康恶化至关重要,有望实现主动的自动干预。然而,理想很丰满,现实却很骨感。真实的车载环境充满挑战:路面的颠簸、驾驶员的动作以及快速变化的光照,都会在rPPG信号中引入严重的噪声和运动伪影,极大地限制了其可靠性。当信号质量不可靠时,任何基于此的心率读数都可能是“失真的警报”。
为了攻克这一难题,研究人员将目光投向了人工智能。与其依赖复杂的端到端视频分析模型(这类方法将信号提取与质量评估耦合,计算成本高昂),一个更具前景的思路是:能否直接从已经提取出的一维rPPG波形信号本身,来判断它是否可靠?这就像一个医生能否仅凭一份有噪点的心电图图纸,判断这份记录是否可用于诊断。如果可行,这种模块化的质量评估将能以极低的计算开销,无缝集成到资源受限的车载硬件中。为此,一个由飞利浦(Royal Philips)的研究团队开展了一项开创性的研究,并发表在《Biomedical Signal Processing and Control》期刊上。他们的核心问题是:在真实世界的驾驶场景下,如何构建一个既精准又高效(兼顾高性能与低计算量)的rPPG信号质量分类器?
为了回答这些问题,研究人员设计并执行了一套严谨的方法。首先,他们构建了一个独特的真实世界驾驶数据集:从31名参与者(23名男性,8名女性,年龄30-65岁)中收集了总计24小时的车内rPPG数据,使用车内视觉传感摄像头(VSC)系统,数据采集于德国和荷兰的高速公路、省道和城市道路。同时,通过贴于驾驶员胸部的电极同步记录心电图(ECG)作为心率参考真值。rPPG信号从视频帧中提取,使用了MediaPipe进行面部关键点检测,并应用了专为抑制车内常见失真(如光照突变和机械振动)而设计的DisGOP方法。数据处理时,将信号分割成6秒长、重叠5秒的片段,并通过Z-score进行归一化。一个关键的创新是引入了“峰值中心化幅度谱”作为信号表示方法:首先对信号进行快速傅里叶变换(FFT)得到幅度谱,然后找出幅度最大的峰(代表主导频率),最后将整个频谱循环移位,使该峰位于频谱中心。这种方法将信号质量评估与具体的心率值解耦,迫使分类器关注峰值本身的频谱完整性(如锐度与噪声基底),而非其频率位置,从而提升了模型对不同心率状态的泛化能力。信号片段的标签根据其rPPG估算心率与ECG参考心率之间的绝对差值是否小于±5次/分钟(BPM)来定义,合格则标记为“优质”,否则为“劣质”。最终获得了125,947个数据样本。
研究人员系统性地评估了四类模型:支持向量机(Support Vector Machine, SVM)、极限梯度提升(eXtreme Gradient Boosting, XGBoost)、一维卷积神经网络(Convolutional Neural Network, CNN)和长短期记忆网络(Long Short-Term Memory, LSTM)。对于传统的机器学习模型(SVM和XGBoost),他们从时域和频域提取了共计34个手工特征,并利用SelectKBest算法选择了最具区分度的前5个和前15个特征组合进行训练。深度学习模型(CNN和LSTM)则直接接收原始的时域信号或转换后的频域幅度谱作为输入,自动学习特征。所有模型都采用了基于受试者的五折交叉验证策略进行训练和评估,以确保模型能够泛化到新的、未见过的个体。研究的性能评估指标主要包括受试者工作特征曲线下面积(AUC)、灵敏度(Sensitivity)、特异性(Specificity)和准确率(Accuracy),并特别引入了计算成本度量——每秒浮点运算次数(FLOPs),以评估模型的部署效率。
研究结果部分揭示了几个关键发现:
  • 特征重要性与模型表现:特征重要性分析显示,频域特征,尤其是与峰值形状和能量分布相关的特征(如峰值强度、频谱平坦度、熵等),对于区分信号质量至关重要。性能对比结果表明,无论是机器学习还是深度学习模型,使用频域表示(峰值中心化幅度谱)的性能均显著优于使用时域原始信号。在机器学习模型中,仅使用前5个频域特征的模型(SVM 5f和XGBoost 5f)与使用前15个特征的模型性能相当,表明少数核心特征已能提供足够信息。
  • 计算效率的权衡:尽管多个模型(SVM 5f、XGBoost 5f、CNN fd、LSTM fd)在预测性能(AUC)上相近,但计算成本差异巨大。分析显示,XGBoost 5f模型的总计算量(1.94 × 105FLOPs)远低于SVM 5f(3.09 × 106FLOPs)和深度学习模型(如LSTM fd为7.72 × 105FLOPs,CNN fd高达8.31 × 108FLOPs)。这凸显了XGBoost在性能与效率上的卓越平衡。
  • 与前沿方法的对比:研究人员将其最优模型(XGBoost 5f)与文献中多个先进的(远程)PPG质量估计模型在自家数据集上进行了对比。结果显示,XGBoost 5f模型取得了最高的AUC(0.86)和出色的灵敏度,同时其计算需求(1.94 × 105FLOPs)比表现接近的Shin的CNN模型(3.73 × 108FLOPs)低了三个数量级,比Goh等人的模型(8.52 × 105FLOPs)也低得多。
  • 标签与预测的深入分析:文章通过图示案例指出,基于心率误差的标签定义存在一定局限性:即使一个信号片段在时域形态上看起来质量不佳(噪声大),只要其频谱主峰位置正确,仍可能被标记为“优质”。研究人员的XGBoost模型有时会预测这些片段为“劣质”,表明模型可能学习到了比单纯心率匹配更丰富的、与信号形态完整性相关的特征。
结论与讨论部分总结了本研究的多重贡献与未来方向。该研究首次在真实世界驾驶场景下,系统性地评估了机器学习和深度学习技术用于rPPG信号质量分类。其核心结论是:基于峰值中心化幅度谱频域特征的XGBoost模型,能够在保持卓越分类性能(AUC 0.86)的同时,实现远低于深度学习模型的惊人计算效率。这为在资源受限的车载硬件上部署实时、可靠的驾驶员心率监测系统提供了极具前景的解决方案。
研究意义深远:它证明了对于rPPG信号质量评估这一特定任务,精心设计的特征工程结合高效的机器学习模型(如XGBoost),其表现可以不亚于甚至在某些方面优于复杂的深度学习模型,尤其在计算成本方面优势巨大。这种“信号中心化”的模块化方法,将质量评估与信号提取解耦,显著降低了整个处理流程的复杂度与资源消耗。该工作为智能交通系统(ITS)中集成鲁棒的驾驶员健康监测功能铺平了道路,有望提升道路安全并推动下一代远程健康监测技术的发展。
当然,研究也存在一些局限性,为未来工作指明了方向。首先,基于心率误差的标签定义可能无法完全反映信号的真实形态质量,未来可探索基于心电R波与PPG峰值手动对齐的更精确标签。其次,当前数据集在驾驶条件(仅冬季日间)、参与者多样性(肤色等)方面还有待扩展。此外,模型尚未集成视频级的运动或光照描述符进行多模态融合分析。最后,研究的下一步是在真实的汽车级处理器上验证XGBoost模型的实时部署性能,并探索其在夜间(需红外摄像头)或更复杂路况下的适用性。尽管车载生命体征监测目前尚处起步阶段,远未达到临床医疗监测的标准,但这项研究无疑为构建更智能、更关怀驾乘人员健康的未来汽车迈出了坚实的一步。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号