TSIP-Net:在存在竞争性语音的情况下进行无参考语音可懂度预测
《Speech Communication》:TSIP-Net: No-reference speech intelligibility prediction in the presence of competing speech
【字体:
大
中
小
】
时间:2026年03月16日
来源:Speech Communication 3
编辑推荐:
提出无参考语音可懂度预测网络TSIP-Net,解决多说话人场景下竞争语音的干扰问题,无需干净参考或注册语音,基于心理声学能量对比原理和双分支WavLM架构实现鲁棒预测。实验验证其在非竞争噪声场景的优越性能及跨场景泛化能力。
语音智能度无参考预测技术研究进展及新模型分析
语音智能度(Speech Intelligibility, SI)作为衡量语音可懂性的核心指标,在助听设备开发、语音增强技术及说话人分离系统中具有重要应用价值。传统SI评估依赖主观听感测试,存在周期长、成本高的问题,推动研究者开发基于信号处理或深度学习的自动预测方法。早期预测模型多采用参考信号(Reference-based, RB-SIPA),这类方法需要干净参考语音与退化语音的对比分析,限制了实际应用场景。
随着深度学习技术的突破,无参考语音智能度预测(No-reference SIP, NR-SIPA)模型逐渐成为研究热点。这类模型直接从退化语音中提取特征,通过端到端训练实现智能度预测。但现有NR-SIPA普遍存在两大缺陷:其一,模型设计多针对单一语音退化类型(如噪声、回声),对多说话人竞争(Competing Speech, CS)场景处理能力不足;其二,传统模型依赖人工特征工程或有限标注数据,导致泛化能力受限。
针对上述问题,研究者提出多模态融合架构。基础模型采用预训练语音表征模型(Speech Foundation Model, SFM)作为特征提取主干,其优势在于能捕获丰富的声学-语言联合特征。但需解决两个关键挑战:首先,如何从混合语音中有效分离目标说话人信息;其次,如何构建不依赖 enrollment 语音的说话人嵌入系统。
在现有解决方案中,基于说话人嵌入的分离技术逐渐成熟。这类方法通过预训练模型提取说话人特征,但传统实现需要干净训练数据生成 enrollment 语音。新提出的TSIP-Net模型在以下方面实现突破:
1. **多说话人场景下的自适应分离机制**
基于心理声学研究的最新进展,模型创新性地将能量比作为关键判别标准。通过实时计算混合语音中各说话人能量分布,自动识别目标语音成分。当竞争语音能量超过目标语音时,系统触发增强型分离模块,通过改进的时频特征提取网络增强目标语音的辨识度。
2. **双分支特征融合架构**
主模型采用预训练的WavLM作为基础,构建双通道处理系统:
- ** speaker-blind 通道**:处理通用声学特征,包含频谱特征提取、短时平稳化处理模块
- ** speaker-aware 通道**:通过动态说话人嵌入模块实现特征增强
两通道的并行处理确保模型既能捕捉全局声学规律,又能针对特定说话人特征进行优化
3. **无 enrollment 语音的嵌入生成技术**
创新性地开发SS-ECAPA-TDNN嵌入提取器,该模块通过三阶段处理实现:
① 基于能量比的目标语音成分筛选
② 时空特征联合提取网络
③ 多尺度说话人特征聚合
实验表明,该嵌入系统在跨方言、跨语种场景下仍保持85%以上的特征相似度
4. **渐进式训练策略**
采用分阶段训练机制:
- 阶段1:预训练SFM模型,完成声学特征基础构建
- 阶段2:联合训练嵌入提取模块与智能度预测网络
- 阶段3:通过对抗训练优化分离效果,同时保持智能度预测的稳定性
这种训练策略有效解决了多任务训练中的目标冲突问题
实验验证部分采用九类典型退化场景测试,包括:
- 单一高斯噪声(SILK-2014)
- 复杂多频噪声(Noisy说话人数据集)
- 多说话人竞争场景(DCASE 2023挑战赛数据集)
- 混合退化类型(ASR-2022基准测试集)
关键实验结果:
1. **竞争语音场景突破**:在单竞争者条件下,TSIP-Net达到92.7%的SI预测准确率,较现有最佳模型提升8.2个百分点
2. **跨场景泛化能力**:非竞争场景测试中,模型在平均STOI指数达到88.4(基准模型82.1),在语言迁移任务中表现尤为突出
3. **计算效率优化**:通过动态稀疏激活机制,模型推理速度提升至传统架构的1.7倍,同时保持98%以上的预测精度
该模型在实际应用中的优势体现在:
- 无需干净参考语音,适用于直播、会议等实时场景
- 对多说话人环境具有自适应调节能力
- 支持增量学习框架,可动态扩展至新说话人场景
未来研究方向包括:
1. 开发多尺度竞争语音检测机制,应对多说话人复杂场景
2. 探索时域注意力机制与频域特征融合的新范式
3. 构建开放域动态说话人数据库,提升模型泛化能力
该研究为智能语音系统提供了新的技术路径,特别是在多人交互场景下的语音质量评估方面具有重要突破。其提出的双通道特征融合架构和渐进式训练方法,为后续多模态语音处理研究奠定了基础。实验数据表明,模型在保持高预测精度的同时,显著降低了对干净语音样本的依赖,这对实际部署具有重大意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号