OdiSR-TL:一种基于迁移学习和预训练模型的奥里亚语自动语音识别(ASR)系统

《ACM Transactions on Asian and Low-Resource Language Information Processing》:OdiSR-TL: An ASR System in Odia Language Using Transfer Learning and Pre-trained Models

【字体: 时间:2026年03月21日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  奥里亚语自动语音识别系统通过迁移学习结合残差细化学习(RRL)网络优化,采用孟加拉语、印地语和英语资源预训练模型,并对比Whisper-small和Wav2Vec2.0 XLSR-53等模型,提出混合迁移学习框架,在词错误率(1.15%)和字符错误率(0.14%)上显著优于现有系统,并在其他印度语言中验证有效性。

  
要查看此由人工智能生成的摘要,您必须具有高级访问权限。

摘要

摘要

本文介绍了我们为奥里亚语(Odia)开发的自动语音识别(ASR)系统。奥里亚语是印度奥里萨邦的主要语言,但目前缺乏足够的标注语音语料库。然而,其他一些语言拥有更多的公开可用语音资源。因此,我们采用了迁移学习方法来进行开发。首先,我们使用孟加拉语、印地语和英语资源构建了单语言的预训练模型。然后,我们结合这些预训练模型和奥里亚语数据,通过残差精炼学习(RRL)网络开发了ASR模型。这种迁移学习模型的性能优于基线模型。某些多语言预训练模型,如Whisper-small和Wav2Vec2.0 XLSR-53,在各种语音处理任务中表现非常出色。我们也在奥里亚语ASR任务中使用了这些模型,并发现它们能够提升性能。此外,我们提出了一种混合迁移学习技术,将两个预训练模型结合起来。具体来说,Whisper-small和Wav2Vec2.0与RRL框架相结合。所提出的混合迁移学习模型性能优于所有之前的模型。最终模型的单词错误率(WER)为1.15,字符错误率(CER)为0.14,明显优于现有的奥里亚语ASR系统。通过在统一平台上对其他印度语言实施多个系统和数据集进行测试,也验证了该模型的优越性。

人工智能摘要

人工智能生成的摘要(实验性)

此摘要是由自动化工具生成的,并非由文章作者撰写或审核的。它旨在帮助读者发现研究内容、评估其相关性,并辅助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充,而作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的简洁语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号