语音是人类之间交流的基本方式,也是交换信息最基本和最有效的技术。研究人员一直在寻找改进人机交互的方法(Abdul, 2019)。语音识别算法领域的研究发展集中在提高理解来自不同背景、各种方言和语言的人类语音的能力上(Dar和Jagalingam, 2025)。在现实生活中的各种情况下,包括工业、住宅和城市环境,自动声音分类技术的使用日益增加。这些技术包括监控系统、智能安全系统和虚拟助手(Zinemanas等人, 2021)。
声音的音高影响自然语言中句子和短语的分类技术。语音识别技术的准确性受到参与者性别、年龄和句子类型多样性的影响(Rawf等人, 2024)。频谱测量,包括频谱熵、频谱平坦度、频谱质心和频谱通量,被广泛用于从语音中提取有用信息,从而有助于完成口音识别和说话者特征分析等任务(Mishra等人, 2022;Naveenkumar等人, 2023)。这些测量指标关注节奏、基本频率和音高等因素(Dar和Jagalingam, 2025)。音高处理和提取技术为语音和音乐识别以及声音分离等其他声学活动提供了基础(Chang等人, 2025)。此外,由于声学特征(如口音、声道大小、性别和情绪)的不同,不同个体的语音信号也有所不同,这使得研究人员和科学家能够区分说话者(Dar和Jagalingam, 2025)。
除了深入的语音分析外,意图分类在语音界面中也至关重要。区分陈述、问题和感叹语对于开发高效的语音界面至关重要。声学线索,特别是音高、时长和能量,在增强对话行为或意图分类方面显示出有效性:Shriberg等人(1998)发现韵律特征在自动对话行为检测中具有显著优势(Shriberg等人, 1998),而Braun等人(2019)研究了韵律在区分德语语音中的问题类型中的作用(Braun等人, 2019)。在自动语音识别任务中,韵律被认作是句子语气的指示器,有助于系统更准确地解释用户意图(Vicsi和Saszák, 2010)。此外,具有意图感知能力的语音系统提高了人机交互的自然性,使其更加高效和用户友好。
机器学习方法使研究人员能够将声音识别算法投入实际应用。机器学习的最新进展,尤其是深度学习,展示了模型如何从原始输入数据中自动学习高级特征(Abayomi-Alli等人, 2022)。深度学习相对于传统机器学习算法的主要优势在于它消除了手动特征提取的需要,从而减少了时间和成本,这对于资源匮乏的语言尤为重要。卷积神经网络(CNN)以其从原始数据中学习层次化特征的能力而闻名,从而减少了手动特征工程的需求(Abdulrahman等人, 2024)。
标准的语音识别技术主要依赖于从语音源中提取的声学信息。整合多模态信息可以显著提高效率(Dar和Jagalingam, 2025),因为它使模型能够利用来自不同数据表示的互补特征,从而实现更鲁棒和多样化的特征学习,最终提高分类准确性。整合多种特征表示可以显著提高鲁棒性和准确性(Nia等人, 2025)。特征融合是一种创建共享表示的方法,它结合了来自多种特征类型的互补信息(Kumar等人, 2024)。
小型数据集限制了特征的种类,可能导致模型简化或过拟合。在专业领域,数据标注也更加昂贵和耗时。可以使用数据增强、自监督学习和迁移学习等方法来帮助解决这些困难(Chang等人, 2025)。此外,自监督学习是一种允许算法从输入的一个部分独立学习另一部分知识的技术(Choi等人, 2025)。迁移学习通过使用来自大型数据集的特征来改进预训练模型,从而减少了对大量标注数据的需求(Chang等人, 2025)。
资源匮乏的语言在语音处理方面面临相当大的障碍,因为标注数据的稀缺、语言工具的获取较少,以及预训练模型的数量较少,与英语等资源丰富的语言相比。库尔德语具有许多方言和强烈的韵律多样性,在土耳其、伊拉克、伊朗和叙利亚等地都有使用(Rawf等人, 2024)。资源匮乏语言中标注语音数据的稀缺促使人们使用迁移学习和预训练的自监督模型,如wav2vec 2.0,这些模型已被证明能够在资源匮乏的场景中显著提高性能(Baevski等人, 2020)。
本研究提出了一种多特征融合架构,该架构结合了预训练的wav2vec 2.0嵌入、梅尔频率倒谱系数(MFCC)和频谱图分支,并应用监督微调来实现资源匮乏环境中的基于音高的语音分类。这项工作的新颖之处在于结合了基于韵律(音高)和频谱(MFCC和频谱图)的元素来分类库尔德语中的陈述、问题和感叹语。除了提出的多特征融合框架外,该研究还使用了作者最近发布的带有音高标注的库尔德语语音数据集SQEBSP。该数据集在另一篇数据文章中进行了介绍,专门用于陈述、问题和感叹语的分类。其规模和标注质量使得能够系统地评估基于韵律的模型在资源匮乏语言中的表现(Abdulrahman等人, 2025)。该研究强调了在多特征融合模型中,音高轮廓在区分语气差异以及频谱信息方面的重要性。本文的主要贡献包括:
基于音高的语音分类的实证融合分析。提出了一种多特征融合框架,结合了预训练的wav2vec 2.0嵌入、梅尔频率倒谱系数(MFCC)和频谱图表示,实现了97.03%的准确率。
细致的消融和错误评估。我们进行了系统的消融研究、混淆矩阵分析和特征级评估(波形、频谱图、MFCC),解释了在资源匮乏环境中通过融合提高分类效果的原因和原理。
对资源匮乏语言的研究和提出的方法框架。我们概述了一种高效的训练策略(预处理、特征缓存、融合头、微调程序),该策略减少了对于标注数据的需求,适用于资源匮乏的环境。提供了实现细节、超参数和数据划分,以便于复制。
使用带有音高标注的库尔德语语音数据集(SQEBSP)进行评估。所提出的多特征融合框架在SQEBSP数据集上进行了评估,该数据集包含12,660条陈述、问题和感叹语类别的话语。该数据集之前由本文作者与其他哈拉布贾大学的研究人员合作发表。据我们所知,SQEBSP是第一个公开可用的库尔德语音高标注数据集,为未来基于韵律的语音分类研究建立了基准。