基于音高的多特征融合技术,用于在资源匮乏的语言中分类陈述句、疑问句和感叹句

《Computer Speech & Language》:Pitch-Aware multi-feature fusion for classifying statements, questions, and exclamations in low-resource languages

【字体: 时间:2026年01月30日 来源:Computer Speech & Language 3.4

编辑推荐:

  多特征融合架构在低资源库尔德语语句分类中表现优异,结合预训练wav2Vec 2.0波形嵌入、MFCCs和梅尔频谱图,在SQEBSP数据集上测试准确率达88%,显著优于单特征基线。

  
阿尤布·奥斯曼·阿卜杜勒拉赫曼
伊拉克库尔德斯坦地区哈拉布贾大学科学学院计算机科学系,哈拉布贾

摘要

自动分类陈述、问题和感叹语对于对话系统、语音分析、语言文档编制以及其他人机交互任务非常重要。语音的音高和韵律是这些类别的关键线索,但由于说话者的差异、录制条件以及不同类别之间韵律模式的重叠,基于音高的分类仍然具有挑战性,尤其是在资源匮乏的环境中。我们提出了一种创新的多特征融合架构,该架构结合了预训练的wav2Vec 2.0原始波形嵌入(迁移学习)、40维梅尔频率倒谱系数(MFCC)特征和梅尔频谱图表示,形成一个集成框架。我们的工作明确依赖于与音高相关的线索(主要由波形嵌入和频谱图分支捕获),以及互补的MFCC频谱特征,这些共同提高了模型的鲁棒性。模型将每个分支的128维表示连接起来,并通过全连接层对融合后的向量进行精细化处理。本研究利用了作者最近发布的带有音高标注的库尔德语语音数据集SQEBSP(包含431位说话者的12,660条话语)来评估陈述、问题和感叹语的分类。所提出的方法在训练/验证数据上的准确率约为97%,在包含数据集20%的独立测试集上的准确率约为88%,显著优于单一特征基线(58.8-79.3%)和之前的三类系统(68.0%)。消融实验确认,与音高相关的输入对分类准确率有显著贡献,而MFCC特征提供了互补的频谱/音色信息。我们的研究表明,在资源匮乏的场景中,预训练的wav2Vec 2.0表示与多特征融合以及监督微调的结合提供了一种高效的语音分类方法。

引言

语音是人类之间交流的基本方式,也是交换信息最基本和最有效的技术。研究人员一直在寻找改进人机交互的方法(Abdul, 2019)。语音识别算法领域的研究发展集中在提高理解来自不同背景、各种方言和语言的人类语音的能力上(Dar和Jagalingam, 2025)。在现实生活中的各种情况下,包括工业、住宅和城市环境,自动声音分类技术的使用日益增加。这些技术包括监控系统、智能安全系统和虚拟助手(Zinemanas等人, 2021)。
声音的音高影响自然语言中句子和短语的分类技术。语音识别技术的准确性受到参与者性别、年龄和句子类型多样性的影响(Rawf等人, 2024)。频谱测量,包括频谱熵、频谱平坦度、频谱质心和频谱通量,被广泛用于从语音中提取有用信息,从而有助于完成口音识别和说话者特征分析等任务(Mishra等人, 2022;Naveenkumar等人, 2023)。这些测量指标关注节奏、基本频率和音高等因素(Dar和Jagalingam, 2025)。音高处理和提取技术为语音和音乐识别以及声音分离等其他声学活动提供了基础(Chang等人, 2025)。此外,由于声学特征(如口音、声道大小、性别和情绪)的不同,不同个体的语音信号也有所不同,这使得研究人员和科学家能够区分说话者(Dar和Jagalingam, 2025)。
除了深入的语音分析外,意图分类在语音界面中也至关重要。区分陈述、问题和感叹语对于开发高效的语音界面至关重要。声学线索,特别是音高、时长和能量,在增强对话行为或意图分类方面显示出有效性:Shriberg等人(1998)发现韵律特征在自动对话行为检测中具有显著优势(Shriberg等人, 1998),而Braun等人(2019)研究了韵律在区分德语语音中的问题类型中的作用(Braun等人, 2019)。在自动语音识别任务中,韵律被认作是句子语气的指示器,有助于系统更准确地解释用户意图(Vicsi和Saszák, 2010)。此外,具有意图感知能力的语音系统提高了人机交互的自然性,使其更加高效和用户友好。
机器学习方法使研究人员能够将声音识别算法投入实际应用。机器学习的最新进展,尤其是深度学习,展示了模型如何从原始输入数据中自动学习高级特征(Abayomi-Alli等人, 2022)。深度学习相对于传统机器学习算法的主要优势在于它消除了手动特征提取的需要,从而减少了时间和成本,这对于资源匮乏的语言尤为重要。卷积神经网络(CNN)以其从原始数据中学习层次化特征的能力而闻名,从而减少了手动特征工程的需求(Abdulrahman等人, 2024)。
标准的语音识别技术主要依赖于从语音源中提取的声学信息。整合多模态信息可以显著提高效率(Dar和Jagalingam, 2025),因为它使模型能够利用来自不同数据表示的互补特征,从而实现更鲁棒和多样化的特征学习,最终提高分类准确性。整合多种特征表示可以显著提高鲁棒性和准确性(Nia等人, 2025)。特征融合是一种创建共享表示的方法,它结合了来自多种特征类型的互补信息(Kumar等人, 2024)。
小型数据集限制了特征的种类,可能导致模型简化或过拟合。在专业领域,数据标注也更加昂贵和耗时。可以使用数据增强、自监督学习和迁移学习等方法来帮助解决这些困难(Chang等人, 2025)。此外,自监督学习是一种允许算法从输入的一个部分独立学习另一部分知识的技术(Choi等人, 2025)。迁移学习通过使用来自大型数据集的特征来改进预训练模型,从而减少了对大量标注数据的需求(Chang等人, 2025)。
资源匮乏的语言在语音处理方面面临相当大的障碍,因为标注数据的稀缺、语言工具的获取较少,以及预训练模型的数量较少,与英语等资源丰富的语言相比。库尔德语具有许多方言和强烈的韵律多样性,在土耳其、伊拉克、伊朗和叙利亚等地都有使用(Rawf等人, 2024)。资源匮乏语言中标注语音数据的稀缺促使人们使用迁移学习和预训练的自监督模型,如wav2vec 2.0,这些模型已被证明能够在资源匮乏的场景中显著提高性能(Baevski等人, 2020)。
本研究提出了一种多特征融合架构,该架构结合了预训练的wav2vec 2.0嵌入、梅尔频率倒谱系数(MFCC)和频谱图分支,并应用监督微调来实现资源匮乏环境中的基于音高的语音分类。这项工作的新颖之处在于结合了基于韵律(音高)和频谱(MFCC和频谱图)的元素来分类库尔德语中的陈述、问题和感叹语。除了提出的多特征融合框架外,该研究还使用了作者最近发布的带有音高标注的库尔德语语音数据集SQEBSP。该数据集在另一篇数据文章中进行了介绍,专门用于陈述、问题和感叹语的分类。其规模和标注质量使得能够系统地评估基于韵律的模型在资源匮乏语言中的表现(Abdulrahman等人, 2025)。该研究强调了在多特征融合模型中,音高轮廓在区分语气差异以及频谱信息方面的重要性。本文的主要贡献包括:
  • 基于音高的语音分类的实证融合分析。提出了一种多特征融合框架,结合了预训练的wav2vec 2.0嵌入、梅尔频率倒谱系数(MFCC)和频谱图表示,实现了97.03%的准确率。
  • 细致的消融和错误评估。我们进行了系统的消融研究、混淆矩阵分析和特征级评估(波形、频谱图、MFCC),解释了在资源匮乏环境中通过融合提高分类效果的原因和原理。
  • 对资源匮乏语言的研究和提出的方法框架。我们概述了一种高效的训练策略(预处理、特征缓存、融合头、微调程序),该策略减少了对于标注数据的需求,适用于资源匮乏的环境。提供了实现细节、超参数和数据划分,以便于复制。
  • 使用带有音高标注的库尔德语语音数据集(SQEBSP)进行评估。所提出的多特征融合框架在SQEBSP数据集上进行了评估,该数据集包含12,660条陈述、问题和感叹语类别的话语。该数据集之前由本文作者与其他哈拉布贾大学的研究人员合作发表。据我们所知,SQEBSP是第一个公开可用的库尔德语音高标注数据集,为未来基于韵律的语音分类研究建立了基准。

相关工作

基于音高的语音分类面临重大挑战,尤其是对于陈述、问题和感叹语,因为标注数据集的稀缺和语音模式的多样性。当前的研究主要集中在单一特征方法或特定领域应用上,导致缺乏能够有效融合多种声学表示的技术。本节回顾了语音模态分类和相关先前的工作。

提出的方法

首先使用Librosa将所有音频文件加载并重采样到16 kHz;然后创建三个特征集:来自预训练的wav2vec 2.0模型的原始波形嵌入、40维MFCC矩阵和梅尔频谱图图像。每种类型的特征由不同的子网络处理:wav2vec嵌入使用自适应池化线性编码器,MFCC使用两层CNN,频谱图使用修改后的ResNet-18,最终得到三个128维向量。这些向量被连接起来

实验设置

本节概述了用于评估所提出的基于音高的多特征融合模型的实验框架。目的是解释数据集特征、准备技术、实现背景和评估标准,以确保可以准确分析和应用模型的性能。

结果与讨论

本节评估了所提出的基于音高的多特征融合模型。目的是展示该模型在处理真实世界资源匮乏语音数据时的有效性、鲁棒性和泛化能力。通过研究定量性能指标、消融研究和错误场景,我们旨在展示原始波形、MFCC和频谱图特征的整合如何提高分类准确性,并阐明模型的优势

结论与未来工作

这种多模态整合对于库尔德语尤为重要,因为库尔德语是一种具有声调和韵律敏感性的语言,在这种语言中,具有相同词汇内容的句子仅通过音高和语调模式就可以传达不同的含义。本研究描述了一个系统,该系统在多特征融合架构中结合了预训练的wav2vec 2.0原始波形嵌入、MFCC特征和梅尔频谱图表示。分类器以监督方式进行训练,而Wav2Vec编码器

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,我使用了ChatGPT和QuillBot来提高我的英语水平。使用这些工具和服务后,我根据需要仔细审查和编辑了内容,并对出版物的内容负全责。

CRediT作者贡献声明

阿尤布·奥斯曼·阿卜杜勒拉赫曼:写作——审阅与编辑、写作——原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、资金获取、形式分析、概念化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号