DGSNA：动态生成式基于场景的噪声添加方法陈志豪（Zihao Chen）、林振涛（Zhentao Lin）、曾碧（Bi Zeng）、黄林毅（Linyi Huang）以及蔡佳（Jia Cai）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computation》：DGSNA: Dynamic Generative Scene-Based Noise Addition Method Zihao Chen, Zhentao Lin, Bi Zeng, Linyi Huang and Jia Cai

【字体：大中小】 时间：2026年05月10日 来源：Computation 1.9

编辑推荐：

　　摘要

摘要

为确保语音系统在各种环境中的可靠运行，噪声添加方法已成为标准解决方案。然而，现有方法对现实场景的覆盖范围有限，且依赖于预先存在的噪声库和场景元数据。本文提出了一种基于提示的动态生成场景噪声添加技术（DGSNA），这是一种由生成式语言模型驱动的新方法，它将基于场景信息的动态生成（DGSI）与用于语音的场景噪声添加（SNAS）相结合。DGSI模块采用BET（背景、示例、任务）提示框架，动态生成符合逻辑的场景信息，包括场景维度、声源和麦克风位置，从而解决了场景枚举和详细描述的问题。此外，SNAS模块使用基于时间-频率扩散（TFD）的文本到音频模型来合成特定场景的噪声。通过将这种噪声与经过房间冲激响应（RIR）滤波器处理的清晰语音结合，该模块简化了传统上耗时的多样声学环境复制过程。实验结果表明，DGSNA显著增强了语音识别和关键词检测模型的鲁棒性，相对提高了高达11.32%的性能。同时，DGSNA与现有的噪声添加技术高度兼容。

联系信箱：

粤ICP备09063491号

摘要

热点排行