OdiSR-TL：一种基于迁移学习和预训练模型的奥里亚语自动语音识别（ASR）系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：OdiSR-TL: An ASR System in Odia Language Using Transfer Learning and Pre-trained Models

【字体：大中小】 时间：2026年03月21日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　奥里亚语自动语音识别系统通过迁移学习结合残差细化学习（RRL）网络优化，采用孟加拉语、印地语和英语资源预训练模型，并对比Whisper-small和Wav2Vec2.0 XLSR-53等模型，提出混合迁移学习框架，在词错误率（1.15%）和字符错误率（0.14%）上显著优于现有系统，并在其他印度语言中验证有效性。

要查看此由人工智能生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

本文介绍了我们为奥里亚语（Odia）开发的自动语音识别（ASR）系统。奥里亚语是印度奥里萨邦的主要语言，但目前缺乏足够的标注语音语料库。然而，其他一些语言拥有更多的公开可用语音资源。因此，我们采用了迁移学习方法来进行开发。首先，我们使用孟加拉语、印地语和英语资源构建了单语言的预训练模型。然后，我们结合这些预训练模型和奥里亚语数据，通过残差精炼学习（RRL）网络开发了ASR模型。这种迁移学习模型的性能优于基线模型。某些多语言预训练模型，如Whisper-small和Wav2Vec2.0 XLSR-53，在各种语音处理任务中表现非常出色。我们也在奥里亚语ASR任务中使用了这些模型，并发现它们能够提升性能。此外，我们提出了一种混合迁移学习技术，将两个预训练模型结合起来。具体来说，Whisper-small和Wav2Vec2.0与RRL框架相结合。所提出的混合迁移学习模型性能优于所有之前的模型。最终模型的单词错误率（WER）为1.15，字符错误率（CER）为0.14，明显优于现有的奥里亚语ASR系统。通过在统一平台上对其他印度语言实施多个系统和数据集进行测试，也验证了该模型的优越性。

人工智能摘要

人工智能生成的摘要（实验性）

此摘要是由自动化工具生成的，并非由文章作者撰写或审核的。它旨在帮助读者发现研究内容、评估其相关性，并辅助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充，而作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的简洁语言摘要，您必须具有高级访问权限。

联系信箱：

粤ICP备09063491号

摘要

摘要

人工智能摘要

人工智能生成的摘要（实验性）

热点排行