基于声学信号的人类呼吸活动的实时识别与定位：助力传染病预防与控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Building Engineering》：Real-time recognition and localization of human respiratory activities based on acoustic signals: facing to infectious disease prevention and control

【字体：大中小】 时间：2026年03月01日 来源：Journal of Building Engineering 7.4

编辑推荐：

　　实时声学系统通过Bi-LSTM识别呼吸活动与SRP-PHAT定位，在37平方米空间内定位误差平均13.9厘米，咳嗽/喷嚏/说话识别准确率分别为92.3%/92.1%/97.2%。该方案为智能通风系统提供创新解决方案。

郭子涵|李建农|刘洋|魏佳琪|陈一凡|张建超|刘伟|张楠

北京工业大学绿色建筑环境与能源高效技术重点实验室，北京，100124，中国

摘要

感染者在咳嗽、打喷嚏和说话等呼吸活动中会释放出大量具有传染性的气溶胶颗粒，这些颗粒可以传播数米远。准确识别和定位这些活动有助于实现有针对性的空气净化，从而有效降低感染风险。在本研究中，我们提出了一种基于实时声学的系统，该系统结合了深度学习识别技术和基于波束形成的声音定位技术。利用包含9,222个标注样本（包括咳嗽、打喷嚏和说话的声音）的开源数据集，我们比较了不同的声学特征和模型，发现将Log-Mel频谱（LMS）和Mel频率倒谱系数（MFCC）特征与双向长短期记忆网络（Bi-LSTM）结合使用能够获得最佳的识别性能。在定位方面，我们采用了相位变换引导响应功率（SRP-PHAT）算法来估计声源方向，并通过麦克风阵列计算声源坐标。该系统对咳嗽的识别准确率为92.3%，对打喷嚏的识别准确率为92.1%，对说话的识别准确率为97.2%。在37.0平方米的室内测试区域内，定位误差平均为13.9厘米；而在真实的会议场景中，识别准确率达到了81.3%，误差为12.1厘米。这项工作为呼吸活动的实时识别和定位提供了一种便捷且成本效益高的解决方案，在智能家居、智能医疗等领域具有广泛的应用前景。

引言

气溶胶传播是大多数呼吸道传染病的主要传播途径之一[1]。高风险的呼吸活动（如咳嗽、打喷嚏和说话）会释放大量气溶胶[2][3]。例如，一次咳嗽可以释放约3,000个颗粒；一次打喷嚏可以释放大约40,000个气溶胶颗粒；而说话每秒可以产生1-50个颗粒[4]。先前的研究表明，由咳嗽、打喷嚏和说话产生的飞沫在20秒内可以传播3.8米、2.2米和1.1米。这些呼吸活动还会在嘴巴前方形成高浓度的病毒区域，范围约为2.8米。此外，在通风不良的情况下，这些活动产生的微小颗粒可能会在房间内扩散，最远可达7.4米[5]。值得注意的是，说话时产生的气溶胶颗粒直径较小，因此能够在空气中悬浮较长时间[6]。通风是减少气溶胶传播风险的最常见方法[7]。然而，如果不准确识别声源位置，就很难有效地清除室内环境中的传染性气溶胶。因此，有效监测呼吸活动对于准确检测和定位气溶胶来源、识别高风险区域以及精准预防和控制呼吸道传染病至关重要。

现有的呼吸活动识别技术主要依赖于声学信号、运动信号、电磁波信号或结合音频、运动和视频数据的多模态融合方法，通常与机器学习算法结合使用。关于咳嗽检测的研究经常采用神经网络、声学-惯性测量单元（IMU）融合或视频-IMU融合技术，其识别准确率在90.0%到95.0%之间[8][9]。打喷嚏的监测研究相对较少，主要是因为缺乏全面的数据[10]。它通常与咳嗽等其他呼吸活动一起进行分类。报道的方法包括使用LibSVM（支持向量机库）分类器的基于视频的方法、通过决策树/随机森林/梯度提升树分类器分析的低采样率声学数据，以及使用SVM分类器处理Wi-Fi信道状态信息（CSI）的方法，其准确率分别达到94.2%、70.0%和91.2%[11][12][13]。关于说话监测的研究较为丰富，应用了CaS-Net、SVM分类器以及UniSpeech-SAT（具有说话者感知预训练的通用语音表示学习）等模型，用于方言和外语识别任务，其词错误率（WER）在1.8%到20.1%之间[14]。

在呼吸活动定位方面，已经有多种技术提供支持，包括超声波（US）、红外线（IR）、射频（RF）和声学定位[15][16]。基于声学和信号处理理论的传统分析和数值方法包括到达时间差（TDOA）[17]、基于能量的定位[18]、到达方向（DOA）估计[19]和波束形成技术[20]，这些方法构成了声源定位技术的基础。上述方法中广泛采用的算法包括广义互相关（GCC）、多信号分类（MUSIC）、相位变换（PHAT）和通过旋转不变性技术估计信号参数（ESPRIT）。由于呼吸活动（咳嗽、打喷嚏和说话）产生的声学信号具有独特的频谱和空间特征，这些传统方法非常适合用于呼吸活动的准确定位[21]。然而，在实际环境中，环境噪声、多路径混响和反射信号会显著降低定位精度[22]。与说话信号相比，咳嗽和打喷嚏信号持续时间较短、瞬态性强且带宽较宽。即使在混响条件下，它们产生的波峰也更清晰，有利于声源定位[23]。近年来，机器学习（尤其是深度学习）的进步在声源定位方面展现了巨大潜力[24][25]，为在复杂声学环境中显著提高定位精度提供了机会。

当前关于呼吸活动识别和定位的研究存在一些局限性。首先，由于打喷嚏发生的频率较低，相关研究相对较少。说话识别的研究主要集中在语音转文本、说话者识别或情绪识别上，很少有研究致力于区分咳嗽、打喷嚏和说话活动。其次，用于识别和定位呼吸活动的技术容易受到环境干扰的影响，限制了实际应用场景。第三，传统技术依赖于可穿戴设备，降低了用户的便利性。最后，目前缺乏将声音识别与精确定位能力相结合的综合性解决方案。

本研究提出了一种非接触式的实时系统，用于呼吸活动的识别和定位，利用了声学信号的基本传播特性。该系统通过提取Log-Mel频谱（LMS）和Mel频率倒谱系数（MFCC）特征，并使用双向长短期记忆网络（Bi-LSTM）进行实时识别。在定位方面，设计了一个由两个8元素圆形麦克风阵列组成的双阵列架构，并结合了相位变换引导响应功率（SRP-PHAT）算法来实现实时位置估计。该系统在包含七名参与者的会议室中进行了90分钟的实验验证。结果表明，这种方法能够准确识别和精确定位呼吸活动，从而有助于有针对性地清除传染性气溶胶，显著降低室内呼吸道疾病传播的风险。

方法

本研究开发了一种基于声学信号的实时呼吸活动监测系统，包括识别模块和定位模块。该系统专注于识别对传染病传播有重要贡献的咳嗽、打喷嚏和说话行为。识别模块利用训练有素的深度学习模型进行实时分类，而定位模块则用于估计实时空间坐标

模型训练结果

三种不同的特征配置——LMS（64分辨率）、15阶MFCC及其组合——分别作为输入用于训练LSTM和Bi-LSTM模型。识别准确率总结在表4中，相应的混淆矩阵显示在图12中（横轴表示预测值，纵轴表示真实值）。从图12可以看出，咳嗽和打喷嚏更容易被错误分类。

讨论

本研究提出了一种智能系统，用于实时识别和定位呼吸活动（咳嗽、打喷嚏、说话），利用了声学信号的传播特性，并结合了Bi-LSTM深度学习模型和SRP-PHAT算法。通过独立的识别和定位实验以及在模拟会议场景中的评估，验证了该系统的性能。结果表明，该系统具有持续的高准确率

结论

本研究开发了一种实时系统，用于识别和定位呼吸活动，使用了包含咳嗽、打喷嚏和说话音频样本的开源数据库。通过将Bi-LSTM深度学习模型与SRP-PHAT算法相结合，系统比较了LMS、MFCC及其组合作为声学特征输入的有效性。此外，还评估了LSTM和Bi-LSTM架构之间的性能差异。

作者贡献声明

刘伟：撰写、审稿与编辑、监督、调查。张建超：方法论、调查。刘洋：调查、数据整理。李建农：撰写、审稿与编辑、方法论、数据整理。陈一凡：方法论、数据整理。魏佳琪：方法论、数据整理。郭子涵：撰写、审稿与编辑、初稿撰写、方法论、调查、正式分析、数据整理、概念化。张楠：撰写、审稿与编辑、初稿撰写

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究的资金由国家自然科学基金（资助编号：52478074）提供。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号