今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

KANWhisper:利用可学习的激活函数实现可解释且高效的阿拉伯语自动语音识别

《Scientific Reports》:KANWhisper: leveraging learnable activation functions for interpretable and efficient arabic automatic speech recognition

【字体: 大 中 小 】 时间:2026年06月03日 来源:Scientific Reports 3.9

编辑推荐:

  摘要阿拉伯语的自动语音识别(ASR)由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型(如OpenAI的Whisper)通过迁移学习取得了良好的基线性能,但其前馈子层普遍使用具有固定激活函数的多层感知器(MLPs),这限制了模型

  

摘要

阿拉伯语的自动语音识别(ASR)由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型(如OpenAI的Whisper)通过迁移学习取得了良好的基线性能,但其前馈子层普遍使用具有固定激活函数的多层感知器(MLPs),这限制了模型的表达能力和可解释性。本文介绍了KANWhisper,这是首次将Kolmogorov-Arnold Networks(KANs)应用于自动语音识别。通过用具有可学习B样条激活函数的KAN层替换Whisper编码器和解码器中的MLP前馈层,KANWhisper不仅提高了识别准确性,还增强了模型的可解释性。在Common Voice Arabic数据集上的广泛实验表明,KANWhisper的词错误率(WER)为8.02%,字符错误率(CER)为2.78%,优于标准Whisper微调模型(WER为8.61%)、LoRA适配的Whisper(WER为8.10%)、wav2vec2 XLSR-53(WER为11.50%)和SeamlessM4T v2-Large(WER为13.20%),同时参数数量减少了16倍(228M vs. 244M)。对学习到的激活函数的分析显示出了层次化的特性:较低的编码器层保留了类似GELU的激活函数,用于通用声学处理;而较高层则发展出了新的变换机制,能够捕捉阿拉伯语特有的音系现象,包括重音辅音的区分。在音素级别的评估中,阿拉伯语中易混淆的重音辅音对的错误率降低了33.3%

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:语音识别|Kolmogorov-Arnold Networks|阿拉伯语 ast|高准确率|简单模型|专家网络

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号