基于小波显著性的跨语言韵律特征分析:一项利用大规模语言数据和深度学习模型研究第二语言英语与第一语言信德语词汇重音的研究

《Computer Speech & Language》:Cross-Linguistic Analysis of Prosodic Features Based on Wavelet Prominence: A Study of L2 English and L1 Sindhi Lexical Stress Using Large Language & Deep Learning Models

【字体: 时间:2026年02月17日 来源:Computer Speech & Language 3.4

编辑推荐:

  本研究通过跨语言分析英语和信德语的重音特征,提出融合小波变换(CWT)与深度学习(Wav2Vec 2.0)的混合模型,验证了跨语言迁移在二语英语重音建模中的有效性,准确率达92.1%。

  
阿卜杜勒·马利克·阿巴西 | 英米提亚兹·侯赛因
巴基斯坦信德省卡拉奇信德伊斯兰大学英语系

摘要

本研究对英语和信德语的韵律特征进行了跨语言分析,重点使用先进的人工智能技术对词汇重音和节奏突出性进行建模。所提出的框架将基于小波的信号处理与深度学习架构相结合,并结合从大型语言模型(LLMs)中提取的韵律嵌入。我们解决了关于信德语词汇重音的计算研究不足的问题,并探讨了基于连续小波变换(CWT)的韵律突出性和Wav2Vec 2.0嵌入的融合表示是否能够准确模拟重音模式,并支持跨语言转移到第二语言(L2)英语中的核心研究问题。该系统在信德语词汇重音模式上进行训练后,被应用于具有不同第一语言(L1)背景的说话者的英语语音数据中,以自动预测音节突出性。实验结果表明,结合连续小波变换(CWT)特征与BiLSTM和Wav2Vec 2.0嵌入的混合模型实现了92.1%的重音分类准确率,显著优于基线模型。特征消融分析确认在信德语中持续时间是最具预测性的线索,而在英语中音高则占主导地位。模型的突出性估计与人类分配的CEFR评分高度一致(皮尔逊相关系数r = 0.78,p < 0.001),验证了其感知可靠性。这些发现突显了可解释的、由AI驱动的方法在多语言韵律建模中的有效性,并强调了它们在语音合成、自动语音识别和语言学习技术中的实际应用价值。

引言

韵律特征,特别是词汇和短语重音,是口语处理的关键组成部分,有助于提高流畅性、可理解性和语义解释。量化这些特征的能力增强了口语的客观评估,尤其是在第二语言(L2)习得的背景下,与母语相似的韵律偏差是学习者熟练程度的明显指标。然而,自动评估韵律能力需要强大的计算方法,能够可靠地建模和比较不同语言背景下的韵律结构。在口语交流技能的学习过程中,正确的发音通常最受关注,而超音段特征则被忽视。产生正确的韵律对于实现L1的可理解性和流畅性起着基础性作用(Pinget等人,2014年)。
小波分析为捕捉韵律的层次结构提供了强大的工具。研究人员通过将关键声学特征(如音高f?、持续时间和能量)整合到统一的韵律信号中,特别是在资源匮乏的语言环境中使用了CWT(Suni等人,2017年;Eriksson等人,2018年)。Wav2Vec 2.0和数据高效的变换器使得可以直接从原始音频输入中自动提取高级、上下文化的语音嵌入(Baevski等人,2020年)。无需依赖手动注释或专家标记的数据集即可捕获语音、音系和韵律信息。
本研究引入了一种新的双模建模框架,将基于小波的信号处理与在上下文化嵌入上训练的深度学习架构相结合。这种混合方法结合了可解释的信号分析和数据驱动的表示学习,提高了音节突出性检测的准确性和泛化能力。具体来说,该研究将CWT应用于涉及重读和非重读音节的声学数据以及持续时间指标,以探究潜在的韵律模式。

章节摘录

主要贡献

本研究做出了四项关键贡献:(i)提出了第一个使用可解释的基于CWT的韵律线索的信德语词汇重音计算模型;(ii)引入了一种结合小波突出性得分与Wav2Vec 2.0嵌入的新融合架构;(iii)提出了一个用于L2英语的跨语言重音预测框架;(iv)提供了包括基线、消融分析和统计测试的全面评估。

文献综述

信德语是一种印欧语系语言,巴基斯坦和印度有超过3000万人使用,它具有复杂的音系系统,包括浊音音素和音节定时节奏结构(Shah,2009年)。韵律,包括语调、节奏和重音等超音段特征,在构建口语结构和传达句法、语义和语用意义方面起着关键作用(Ladd,2008年)。其中,基本的音节突出性是...

假设

H1:突出性估计可以预测母语者L1的感知直觉。
我们预计,L1说话者的估计突出性值越接近,其熟练程度等级就越高。
不同韵律特征(f?、能量和持续时间)的显著性在产生突出性时取决于语言。

研究问题

  • 1.
    基于小波的突出性特征在多大程度上可以预测人类感知的信德语和英语语音中的韵律能力?
  • 2.
    重音的声学相关因素(f?、能量和持续时间)在信德语和英语中的显著性有何不同,哪些组合能产生最准确的重音预测?
  • 3.
    在信德语突出性特征上训练的多语言AI框架能否有效转移到L2英语语音中用于重音模式分类?
尽管持续时间被认为是一个重要的...

材料与方法

本研究采用了一种混合框架,结合了信号处理、基于小波的突出性分析和深度神经架构,以模拟不同L1背景下的韵律突出性,特别关注信德语词汇重音和L2英语语音。该方法包括以下顺序模块。

方法论

跨语言韵律分析方法结合了基于小波的突出性预测、深度学习模型和跨语言韵律比较(信德语-英语)。使用信号处理(小波)、共振峰分析(F1、F2)和深度学习来分析和建模信德语和英语之间的词汇重音变化。收集的数据被用作信德语元音的基线声学特征。英语语音数据标注了重音模式。Python

结果与讨论

分析基于10位信德语母语者的录音,这些录音包含了20对双音节词,这些词嵌入在载体短语中。录音经过了基于小波的分析,结合了韵律特征、音高、能量和持续时间。虽然本研究专注于信德语和英语,但所提出的小波-DL混合框架适用于其他具有音段变化的低资源语言。使用Wav2Vec 2.0提供的通用韵律嵌入提供了一种可扩展的方法...

结论

本研究验证了将小波突出性建模与基于深度学习的韵律嵌入相结合用于多语言语音分析的有效性。我们的双轨方法结合了传统信号处理的可解释性和LLMs的适应性,为自动语音评估开辟了新的途径,特别是在第二语言习得和AI驱动的语言学习工具中。此外,小波脊分析显示,英语元音通常表现出更高和更...

局限性与未来工作

当前研究的一个关键局限性是信德语数据集相对较小且是预先编排的。尽管这提供了一个受控环境,但未来的工作应包括自发性和方言变体。此外,通过更多CEFR级别的评估者进行感知验证将提高泛化能力。未来的工作将探索将该框架扩展到声调和音调语言,并为CALL系统整合视觉韵律反馈。
由于研究受到...

未引用的参考文献

Eriksson等人,2013年;Ludusan等人,2011年;Eriksson和Heldner,2015年;Eriksson等人,2018年;Eriksson和Vainio,2013年;Behrens,2013年;Eriksson等人,2016年;Todd,1994年;Barbosa等人,2013年;Suni等人,2017年;Suni等人,2017年;Shen等人,2018年;Suni等人,2017年;Abbasi等人,2025年;Abbasi等人,2018e

CRediT作者贡献声明

阿卜杜勒·马利克·阿巴西:撰写——审稿与编辑、监督、资源管理、项目实施、资金获取、概念化。英米提亚兹·侯赛因:撰写——原始草稿、验证、软件开发、方法论、正式分析、数据管理。
阿卜杜勒·马利克·阿巴西博士拥有语言学博士学位,专注于实验语音学。他的研究领域包括人类语音和口语,探索语音形式的变异性、语音处理的认知机制以及语言习得,以及人工智能数据驱动的分析。他的工作基于英语教学、语音学-音系学接口、语音感知与产生以及基于语料库的语言学方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号