DGSNA:动态生成式基于场景的噪声添加方法 陈志豪(Zihao Chen)、 林振涛(Zhentao Lin)、 曾碧(Bi Zeng)、 黄林毅(Linyi Huang) 以及 蔡佳(Jia Cai)

《Computation》:DGSNA: Dynamic Generative Scene-Based Noise Addition Method Zihao Chen, Zhentao Lin, Bi Zeng, Linyi Huang and Jia Cai

【字体: 时间:2026年05月10日 来源:Computation 1.9

编辑推荐:

   摘要

  

摘要

为确保语音系统在各种环境中的可靠运行,噪声添加方法已成为标准解决方案。然而,现有方法对现实场景的覆盖范围有限,且依赖于预先存在的噪声库和场景元数据。本文提出了一种基于提示的动态生成场景噪声添加技术(DGSNA),这是一种由生成式语言模型驱动的新方法,它将基于场景信息的动态生成(DGSI)与用于语音的场景噪声添加(SNAS)相结合。DGSI模块采用BET(背景、示例、任务)提示框架,动态生成符合逻辑的场景信息,包括场景维度、声源和麦克风位置,从而解决了场景枚举和详细描述的问题。此外,SNAS模块使用基于时间-频率扩散(TFD)的文本到音频模型来合成特定场景的噪声。通过将这种噪声与经过房间冲激响应(RIR)滤波器处理的清晰语音结合,该模块简化了传统上耗时的多样声学环境复制过程。实验结果表明,DGSNA显著增强了语音识别和关键词检测模型的鲁棒性,相对提高了高达11.32%的性能。同时,DGSNA与现有的噪声添加技术高度兼容。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号