使用自监督学习模型对歌唱和说话声音中的发声类型进行分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Speech Communication》：Classification of phonation types in singing and speaking voice using self-supervised learning models

【字体：大中小】 时间：2026年01月26日 来源：Speech Communication 3

编辑推荐：

　　本研究提出基于自监督学习（SSL）的发音类型自动分类方法，利用Wav2vec2-Base、Wav2vec2-Large、HuBERT和voc2vec四模型提取多层级声学特征，结合SVM和FFNN分类器，在演唱与演讲语音数据集上分别达到97%和88%的准确率，显著优于传统方法。该成果为声乐教学、表演分析及临床喉音评估提供新工具。

普拉塔梅什·帕拉萨拉姆·帕蒂尔（Prathamesh Parasharam Patil）| 米塔帕莱·基兰·雷迪（Mittapalle Kiran Reddy）| 帕沃·阿尔库（Paavo Alku）

印度卡纳塔克邦赖楚尔（Raichur）印度信息技术学院（Indian Institute of Information Technology）计算机科学与工程系，邮编584135，印度

摘要

发声是产生可听声音的过程，涉及多种喉部调节方式，从而形成不同的发声类型，如气声（breathy）、中性声（neutral）和紧绷声（pressed）。这些类型在歌唱和说话中对于表达情感至关重要。本研究提出了一种自动分类发声类型的方法，该方法利用了从三个预训练的语音基础自监督学习（SSL）模型（Wav2vec2-Base、Wav2vec2-Large和HuBERT）以及一个用于非语言发声的基础SSL模型（voc2vec）中提取的特征。与依赖复杂信号处理和手动特征工程的传统方法不同，我们的方法从这些SSL模型的多层结构中自动提取出强大且高层的表示。随后，使用径向基函数（RBF）核的支持向量机（SVM）和前馈神经网络（FFNN）对这些学习到的特征进行分类。通过在成熟的歌唱和说话语音数据集上进行的实验，并采用10折交叉验证策略，证明了该方法具有优越的性能。所提出的基于SSL的方法在歌唱语音分类上的准确率为97%，在说话语音分类上的准确率为88%，显著优于传统的特征提取技术。这些发现强调了SSL衍生特征在发声类型分类中的有效性，为声乐教学、表演分析、歌唱合成和临床语音评估提供了一种可扩展且强大的方法。

引言

发声是喉部系统与呼吸系统产生的气流共同作用的基本过程，通过该过程产生可听声音。这一过程的核心是声带（vocal folds）的振动，声带是喉部内的多层组织，它们调节气流以产生声门流波形——这是浊音的主要来源（Kane和Gobl，2013；Airas和Alku，2007）。人类可以通过调整喉部肌肉的激活和呼吸力度来巧妙地改变声带的振动方式，从而产生多种发声类型（Kane和Gobl，2013；Sundberg，2022）。本研究专注于从歌唱和说话的语音声学信号中自动分类三种主要的发声类型：气声、中性声和紧绷声。

上述三种发声类型具有不同的声学和生理特征。气声通常与礼貌或亲密的表达相关（Ito，2004），是由于声带未完全闭合导致的，表现为较低的声门下压力和较高的声门气流（Sundberg，1987；Proutskova等，2013；Hillenbrand等，1994）。中性声的特点是声带振动平衡且完整，张力适中，通常在每个周期内声门完全闭合（Sundberg，1987；Proutskova等，2013）。相反，紧绷声是由于声门下压力高和声门开口狭窄引起的，产生的声音基频较低，高次谐波较为明显，常与高唤醒情绪（如愤怒或快乐）相关（Kane和Gobl，2013；Proutskova等，2013；Hillenbrand等，1994；Gobl和Ní Chasaide，2003；Yanushevskaya等，2005）。由于声带的过度内收，紧绷声在发声时也可能较为费力（Titze，1994）。

发声类型的自动分类可以应用于多个领域，包括歌唱风格的识别（Proutskova等，2013；Rouas和Ioannidis，2016）、职业嗓音护理（Vilkman，2000）以及副语言信息的解读，如情绪和情感（Gobl和Ní Chasaide，2003；Yanushevskaya等，2005）。传统的发声类型分类方法通常依赖于估计声门源波形（Airas和Alku，2007；Proutskova等，2013；Alku等，2002；Kane和Gobl，2011）或直接从语音信号中提取声学特征。在前一种方法中，使用了声门逆滤波（GIF）来提取对发声类型变化敏感的特征（Airas和Alku，2007；Kane和Gobl，2011；Mittapalle等，2022）。然而，在歌唱语音中，基于GIF的技术可能因显著的源-滤波器耦合和高基频而受到限制（Proutskova等，2013；Kadiri和Yegnanarayana，2018；Mittapalle和Alku，2024a），并且通常需要复杂的信号处理步骤。其他特征，如基于单频滤波的倒谱系数（SFFCCs）（Kadiri等，2020；Kadiri和Yegnanarayana，2018）和小波特征（如可调Q因子小波变换TQWT的特征）（Mittapalle和Alku，2024b），虽然有所改进，但在完全捕捉发声类型之间的细微差异方面仍面临挑战，尤其是在气声和中性声之间的区别上。

人工智能领域的最新进展，特别是在语音处理中的自监督学习（SSL），提供了一种范式转变。SSL模型在大量未标记的音频数据上预训练，无需显式的特征工程即可学习到丰富且泛化的语音信号表示（Baevski等，2020；Hsu等，2021）。这些模型在各种语音相关任务中表现出显著的成功。

在本文中，我们介绍了一种利用SSL力量的发声类型分类方法。我们从预训练的Wav2vec2-Base、Wav2vec2-Large（Baevski等，2020）、HuBERT（Hsu等，2021）和voc2vec（Koudounas等，2025）模型的多层结构中提取特征。然后将这些特征输入支持向量机（SVM）和前馈神经网络（FFNN）分类器中进行分类。我们的贡献包括：

1.
据我们所知，这是首次使用来自多个高级SSL模型（Wav2vec2、HuBERT和voc2vec）层的特征来对歌唱和说话语音的发声类型进行分类的研究。
2.
该研究全面分析了从SSL模型不同层提取的特征，以了解它们表示发声类型的能力。
3.
研究结果显示，歌唱语音的分类准确率为97%，说话语音的分类准确率为88%，显著优于之前的方法，包括基于TQWT的方法（Mittapalle和Alku，2024b）。

本研究不仅提出了一种更准确和稳健的发声类型分类方法，还强调了SSL特征在简化和增强复杂发声现象分析方面的潜力。

本文的其余部分组织如下：第1.1节讨论相关工作。第2节描述了所提出的基于SSL的分类系统。第3节解释了数据集和实验设置，第4节展示了结果并进行了讨论。最后，第5节总结了本文并提出了未来的研究方向。

发声类型分类是一个活跃的研究领域，主要关注从声学信号中提取区分性特征。早期的工作通常涉及使用GIF估计声门源参数（Airas和Alku，2007；Kane和Gobl，2011；Mittapalle等，2022），如振幅商（AQ）、归一化振幅商（NAQ）以及与声门周期的开启和关闭阶段相关的参数。虽然这些特征在语音分析中有效，但在歌唱语音中由于强烈的源-滤波器相互作用以及从高音语音中估计共振峰的问题而受到限制（Proutskova等，2013；Kadiri和Yegnanarayana，2018）。

还探索了直接从麦克风信号中提取的声学特征。这些特征包括谐波幅度、共振峰频率、倒谱峰值显著性（CPP）和谐波与噪声比（HNR）（Rouas和Ioannidis，2016）。结合声门和声学特征的研究也显示了改进的性能（Hillenbrand等，1994；Alku等，2002）。最近，提出了更先进的语音处理技术用于发声类型分类。例如，Kadiri等人（Kadiri等，2020；Kadiri和Yegnanarayana，2018）引入了基于单频滤波的倒谱系数（SFFCCs），在歌唱和说话语音的分类中表现出比传统MFCC和声门特征更好的性能。Mittapalle等人（Mittapalle和Alku，2024a）使用了来自双层小波散射网络的特征，进一步提高了性能。Mittapalle和Alku（Mittapalle和Alku，2024b）的研究使用了基于可调Q因子小波变换（TQWT）的香农熵特征作为当前研究的参考，使用FFNN分类器，他们的研究在歌唱语音上的准确率为91%，在说话语音上的准确率为82%，突显了基于小波分析的潜力。

尽管有上述进展，大多数现有方法仍然依赖于精心设计的信号处理步骤和特征工程，这些方法可能复杂且难以在不同发声条件下泛化。此外，特别是气声和中性声之间的区分仍然是一个挑战（Proutskova等，2013；Kadiri等，2020；Mittapalle和Alku，2024a）。

自监督学习（SSL）已成为语音处理中的一个强大范式。像Wav2vec 2.0（Baevski等，2020）、HuBERT（Hsu等，2021）等模型在大量未标记的语音数据上预训练，学习到了通用的表示。这些表示在自动语音识别（ASR）、说话者识别和情感识别等下游任务中表现出极高的效率，通常只需要少量的任务特定微调（Yang等，2021）。其核心思想是通过学习预测输入信号或其量化表示的部分，这些模型捕获了语音的基本声学和语音学特性。这些模型的层次结构，通常包括卷积层和变换器编码器，允许从不同层次提取不同抽象级别的特征（Pasad等，2021）。迄今为止，将这种全面的SSL特征分析应用于发声类型分类，尤其是在多个SSL模型的不同层次上，尚未得到充分探索，这为推动技术进步提供了有希望的方向。

部分摘录

提出的发声类型分类系统

所提出的自动发声类型分类系统利用了从预训练的SSL模型中提取的特征。系统的概述如图1所示（a面板为训练部分，b面板为测试部分）。核心组件包括基于SSL模型的特征提取和随后的机器学习算法分类。

数据库

本研究使用Mittapalle和Alku（Mittapalle和Alku，2024b）参考文献中描述的相同歌唱和说话语音数据集进行实验，以确保性能的公平比较。

结果与讨论

本节展示了我们使用从Wav2vec2-Base、Wav2vec2-Large、HuBERT和voc2vec模型中提取的特征，以及SVM和FFNN分类器进行的发声类型分类实验的结果。

结论

在本文中，我们提出了使用来自四个预训练的自监督学习（SSL）模型（Wav2vec2-Base、Wav2vec2-Large、HuBERT和voc2vec）的特征，对歌唱和说话语音的发声类型（气声、中性声、紧绷声）进行自动分类。通过系统地从这些模型的不同变换器层提取特征，并使用SVM和FFNN分类器，我们实现了97%的歌唱语音分类准确率和88%的说话语音分类准确率

CRediT作者贡献声明

普拉塔梅什·帕拉萨拉姆·帕蒂尔（Prathamesh Parasharam Patil）：撰写——原始草稿、软件开发、方法论、数据整理。米塔帕莱·基兰·雷迪（Mittapalle Kiran Reddy）：撰写——审阅与编辑、可视化、验证、监督、方法论、数据整理、概念化。帕沃·阿尔库（Paavo Alku）：撰写——审阅与编辑、可视化、方法论。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号