DGSNA:动态生成式基于场景的噪声添加方法
陈志豪(Zihao Chen)、
林振涛(Zhentao Lin)、
曾碧(Bi Zeng)、
黄林毅(Linyi Huang)
以及
蔡佳(Jia Cai)
《Computation》:DGSNA: Dynamic Generative Scene-Based Noise Addition Method
Zihao Chen,
Zhentao Lin,
Bi Zeng,
Linyi Huang and
Jia Cai
【字体:
大
中
小
】
时间:2026年05月10日
来源:Computation 1.9
摘要
为确保语音系统在各种环境中的可靠运行,噪声添加方法已成为标准解决方案。然而,现有方法对现实场景的覆盖范围有限,且依赖于预先存在的噪声库和场景元数据。本文提出了一种基于提示的动态生成场景噪声添加技术(DGSNA),这是一种由生成式语言模型驱动的新方法,它将基于场景信息的动态生成(DGSI)与用于语音的场景噪声添加(SNAS)相结合。DGSI模块采用BET(背景、示例、任务)提示框架,动态生成符合逻辑的场景信息,包括场景维度、声源和麦克风位置,从而解决了场景枚举和详细描述的问题。此外,SNAS模块使用基于时间-频率扩散(TFD)的文本到音频模型来合成特定场景的噪声。通过将这种噪声与经过房间冲激响应(RIR)滤波器处理的清晰语音结合,该模块简化了传统上耗时的多样声学环境复制过程。实验结果表明,DGSNA显著增强了语音识别和关键词检测模型的鲁棒性,相对提高了高达11.32%的性能。同时,DGSNA与现有的噪声添加技术高度兼容。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号