NN-CTC+：基于检索增强的解码方法，用于提高基于CTC的自动语音识别（ASR）的鲁棒性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月10日 来源：Artificial Life 1.5

编辑推荐：

　　检索增强CTC解码框架在自动语音识别中的应用

摘要：

检索增强方法通过引入非参数记忆机制来补充参数模型，在自然语言处理中表现出强大的适应性。将这一范式扩展到自动语音识别（ASR）领域既具有吸引力也充满挑战，尤其是在帧级对齐方面，因为精确对齐较为困难，而大规模的音视频数据存储又带来了沉重的存储和检索成本。我们提出了k< />+，这是一种用于基于CTC的ASR的检索增强解码框架，旨在解决这些挑战。为了在没有外部监督的情况下构建细粒度的数据存储，k NN-CTC+利用CTC编码器的嵌入作为键，帧级伪标签作为值。为了减少冗余，我们提出了一种基于“空白”信息的剪枝策略，在数据存储构建和查询时删除含有空白字符的帧，从而在保持信息完整性的同时提高效率。除了对齐和规模问题外，领域不匹配也是一个主要障碍。k NN-CTC+引入了一种轻量级的无监督领域适应（UDA）流程：基于置信度的过滤在构建特定领域的数据存储时丢弃不可靠的伪标签；动态插值策略则根据邻居节点的置信度自适应地平衡模型预测和k NN检索结果。这些设计使得系统能够在没有标记数据或参数更新的情况下实现强大的测试时适应能力。在普通话、中国方言、儿童和老年人语音数据集上的实验表明，该方法能够持续提升准确率，并在领域变化的情况下增强系统的鲁棒性。k NN-CTC+为基于CTC的ASR提供了一种可扩展且有效的解决方案。代码可在https://github.com/NKU-HLT/KNN-CTC获取。

联系信箱：

粤ICP备09063491号

摘要：

热点排行