利用基于显著性的预训练基础模型表示来揭示语音中的呼吸模式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：Leveraging saliency-based pre-trained foundation model representations to uncover breathing patterns in speech

【字体：大中小】 时间：2026年02月17日 来源：Computer Speech & Language 3.4

编辑推荐：

　　本研究提出一种基于卷积长短期记忆网络（Conv-LSTM）的机器学习方法，利用预训练的Wav2Vec2模型提取语音特征，从近说话筒采集的语音信号中估计呼吸率（RR）。在26名受试者的数据集上验证，结果显示呼吸时间序列估计的RMSE为0.11，MAE约1.6次/分钟，且呼吸事件检测错误率（BER）低于基线模型。

苹果公司，美国

摘要

人类语音产生的过程涉及协调的呼吸动作，以产生声学语音信号。通常，当空气从肺部被排出并通过声道调节时，语音就被产生出来，在这个过程中，会有吸气（吸入空气）的时刻来重新填充肺部。呼吸频率（RR）是一个重要的指标，用于评估个人的整体健康状况、体能和一般福祉。现有的测量RR（每分钟呼吸次数）的方法需要使用专门的设备或培训。研究表明，可以使用机器学习算法，以生物传感器信号作为输入来估计RR。基于语音的RR估计方法可以在不需要任何特殊设备或传感器的情况下，提供一种有效的测量这一重要指标的方式。本研究探讨了一种基于机器学习的方法，从与麦克风设备近距离说话的受试者的语音片段中估计RR。数据来自26名个体，其中真实的RR是通过商用级别的胸带获得的，然后手动校正了任何错误。我们提出了一种卷积长短期记忆网络（Conv-LSTM），用于从语音信号中估计呼吸时间序列数据。我们证明了使用从基础模型（如Wav2Vec2）获得的预训练表示，可以以较低的均方根误差和较高的相关系数来估计呼吸时间序列。该模型驱动的时间序列可以用来估计RR，平均绝对误差（MAE）约为

\approx 1 .6

引言

肺部在语音发声中起着核心作用，它们作为空气的来源，空气通过声道输送，而声道则起到过滤作用（Stevens, 2000），从而产生声学语音。Stevens（2000）和Fant（1971）提出的源-滤波器模型（见图1）将肺部视为能量的来源，将声道视为滤波器。呼吸是人类发声的大部分声音的来源，而语音产生需要控制和协调呼吸与语音发音，这也被称为语音呼吸（Fuchs和Rochet-Capellan, 2021）。语音呼吸比普通呼吸需要更多的努力，其特点是吸气时间较短，以减少语音产生过程中的中断，而普通呼吸包括相等的吸气和呼气阶段（Hixon, 1987）。由于吸气时间短，空气流入的速度比普通呼吸快（Conrad和Schoenle, 1979），因此，在语音中通常可以听到呼吸声（Arafath K.和Routray, 2019）。语音过程中呼出的空气量受到预期话语的长度和响度的影响，呼气持续时间取决于语言意图和语音产生过程中产生的声音（Winkworth等人，1994年；Klatt等人，1968年）。语音产生和呼吸是紧密耦合的，Nallanthighal等人（2020）旨在从语言内容和语音韵律因素中感知语音呼吸模式。

呼吸频率（RR）是一个重要的指标，研究表明RR是衡量努力程度的最有效标志（Nicolò等人，2014年；Nicolò等人，2017年），RR的降低是个人放松反应的指标（Grant和Rainville, 2009年；Wielgosz等人，2016年；Kral等人，2022年；Kral等人，2023年）以及自我报告的福祉（Kral等人，2023年）。语音呼吸参数已被用于临床应用（Solomon和Hixon, 1993年）以及情感分析（Goldman-Eisler, 1955年；Heim等人，1968年）。以往的工作主要集中在检测和分类呼吸声音，以区分健康和异常呼吸（Li等人，2017年；Castro和Marti-Puig, 2014年）。RR的估计已经从基于接触的传感器和非基于接触的传感器（Sierra等人，2006年；Sierra等人，2004年；Ren等人，2015年；Kumar等人，2021年；Ahmed等人，2023年；Rahman等人，2022年）以及可穿戴麦克风中进行研究，以获取鼻呼吸记录。观察到基于接触的呼吸传感技术常常受到运动干扰（Ginsburg等人，2018年），并且需要较大的上下文窗口（几秒钟）来获得可靠的呼吸频率测量值。在这项工作中，我们研究了使用近距离说话麦克风记录的语音来估计呼吸参数，由于这些麦克风更接近嘴巴，因此更有可能感知到语音中的呼吸声音。鉴于基于语音的技术在人与人以及人与计算机交互中的普遍使用，使用语音信号进行呼吸感知是实用的，与其他传感技术相比，它不太容易受到运动伪影的影响，并且可以使用较小的上下文窗口来实现低延迟的呼吸频率测量。

以往关于语音呼吸的研究主要集中在使用传统的声学特征，如对数梅尔频谱图（Nallanthighal等人，2020年），或其离散余弦变换对应物（即梅尔频率倒谱系数或MFCC）（Arafath K.和Routray, 2019年；Ruinskiy和Lavner, 2007年；MacIntyre等人，2020年）。然而，在数据集规模有限的情况下，这样的表示会使下游的机器学习模型容易过拟合，从而限制了机器学习（ML）模型的泛化能力和鲁棒性。

计算语言学挑战（Schuller等人，2020年）引入了一个呼吸子挑战（BSC），其中数据集包含来自49位说话者的自发语音，使用压电呼吸带收集参考呼吸信号。请注意，BSC中的数据集仅对挑战参与者开放。¹Mendon?a等人（2020年）提出了一种振幅调制（AM）和频率调制（FM）分解技术用于BSC，其中基于AM的表示比基线特征表现更好。

基础模型的最新进展（Bommasani等人，2021年）显著提升了语音技术的性能，预训练模型表示（Baevski等人，2020年；Hsu等人，2021年）在语音识别（Zuluaga-Gomez等人，2023年）、说话者识别（Zuluaga-Gomez等人，2023年）和情感识别（Mitra等人，2022a）方面展示了最先进的性能。来自预训练基础模型的表示在不同的声学条件和多种语言下表现出更好的泛化能力和鲁棒性，因此我们假设这样的表示对于基于语音的呼吸参数估计任务将非常有用。

自监督学习的（SSL）模型，如Wav2Vec2（Baevski等人，2020年）或HuBERT（Hsu等人，2021年），在大量未标记的数据上进行训练，预计可以从训练数据中学习声学单元。学习到的声学单元应该在它们的频谱-时间表示中具有可区分性，并代表不同的声学音素单元（如元音、浊音/清音辅音、停顿、送气噪声等）或其子状态。以往的研究主要集中在预训练FM的最终层的表示上（Srinivasan等人，2022年；Mitra等人，2022b年；Mitra等人，2023a年），而很大程度上忽略了中间层或更早层的表示。早期的研究调查了中间表示，以获得更好的模型直觉或错误检测（Alain和Bengio, 2016年）以及减少不太显著的神经元或模型适应（Mitra和Franco, 2020年）。Yang等人（2024年）的一项最近研究调查了将FM中所有冻结的隐藏表示进行加权组合用于下游任务，并报告了比单独使用最终层更好的性能，然而这种组合在计算上可能代价较高。

我们的贡献可以总结如下：

1.
我们提出了一种基于机器学习的方法，从通过近距离说话麦克风捕获的输入语音数据中估计呼吸时间序列。我们证明了可以从估计的时间序列数据中高精度地得出RR。
2.
我们证明了预训练的基础模型（FM）表示可以促进高精度的呼吸时间序列估计，与文献中使用的标准基线声学特征相比。请注意，我们在本工作中使用了Wav2Vec2 SSL模型，虽然还有其他几种FM，如HuBERT（Hsu等人，2021年）、WavLM（Chen等人，2022年）、Whisper（Radford等人，2023年）等，这些也可能有助于实现更好的性能，但FM的比较超出了本工作的范围。
3.
我们提出了一种基于显著性的FM层选择和FM表示维度选择，并证明了FM显著层捕获了对呼吸时间序列估计相关的子带能量。
4.
我们引入了呼吸事件错误率（BER），这是一个衡量语音数据中吸气事件检测错误的指标，并证明了所提出的架构不仅提供了更好的时间序列估计和准确的RR估计，而且BER也更低。
5.
我们提出了一种卷积LSTM（Conv-LSTM）模型，并展示了多种表示的融合有助于提高呼吸时间序列估计。

本文的其余部分组织如下：第2节介绍了我们研究中使用的数据集，第3节介绍了研究的特征表示和声学模型及其参数的详细信息，第4节展示了结果，第5节给出了结论。

部分摘录

数据

目前没有公开可用的包含呼吸时间序列参考的语音数据集，因此本工作中使用的数据是内部收集的。语音语言学挑战（Schuller等人，2020年）探讨了基于语音的呼吸事件检测，但该挑战中使用的数据集并不公开，仅对挑战参与者可见。¹我们研究中使用的数据来自26位成年说话者，在真实的背景声学条件下收集

声学特征

基线声学特征包括40维的梅尔滤波器组（MFB）能量，在25毫秒的窗口内分析，帧间隔为10毫秒，输入语音信号的采样率为16千赫。此外，我们还研究了梅尔频率倒谱系数（MFCC）：13个系数及其速度和加速度系数，总共39个系数，以及使用Mitra等人（2012年，Mitra等人，2013年）提出的调制能量振幅调制（AM）方法

结果

我们使用（i）MFCC、（ii）调制特征（振幅调制（AM）能量和（iii）MFB来训练基线声学模型（LSTM和Conv-LSTM），并比较了它们的性能。我们实现了基于Mitra等人（2012年，Mitra等人，2014年）描述的AM特征的实现，这与Mendon?a等人（2020年）使用的实现类似。请注意，Mendon?a等人（2020年）训练的模型是一个使用256个隐藏单元的BiLSTM架构，然而在我们的实验中

结论

在这项工作中，我们证明了可以从通过近距离说话麦克风收集的语音数据中估计呼吸信号。我们展示了可以从语音中估计出呼吸时间序列信号，其CCC值高达0.77，RMSE低至0.11，其中真实的呼吸时间序列数据经过了z分数标准化。在片段级别，我们观察到RR可以用1.6次/分钟的MAE估计出来（其中RR是从估计的呼吸时间序列中得出的

CRediT作者贡献声明

Vikramjit Mitra：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，监督，资源管理，方法论，调查，正式分析，数据管理，概念化。Anirban Chatterjee：写作 – 审稿与编辑，软件，资源管理。Ke Zhai：写作 – 审稿与编辑，软件，资源管理。Helen Weng：写作 – 审稿与编辑，资源管理，数据管理，概念化。Ayuko Hill：写作 – 审稿与编辑，项目管理

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号