TSIP-Net：在存在竞争性语音的情况下进行无参考语音可懂度预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Speech Communication》：TSIP-Net: No-reference speech intelligibility prediction in the presence of competing speech

【字体：大中小】 时间：2026年03月16日 来源：Speech Communication 3

编辑推荐：

　　提出无参考语音可懂度预测网络TSIP-Net，解决多说话人场景下竞争语音的干扰问题，无需干净参考或注册语音，基于心理声学能量对比原理和双分支WavLM架构实现鲁棒预测。实验验证其在非竞争噪声场景的优越性能及跨场景泛化能力。

　　
语音智能度无参考预测技术研究进展及新模型分析

语音智能度（Speech Intelligibility, SI）作为衡量语音可懂性的核心指标，在助听设备开发、语音增强技术及说话人分离系统中具有重要应用价值。传统SI评估依赖主观听感测试，存在周期长、成本高的问题，推动研究者开发基于信号处理或深度学习的自动预测方法。早期预测模型多采用参考信号（Reference-based, RB-SIPA），这类方法需要干净参考语音与退化语音的对比分析，限制了实际应用场景。

随着深度学习技术的突破，无参考语音智能度预测（No-reference SIP, NR-SIPA）模型逐渐成为研究热点。这类模型直接从退化语音中提取特征，通过端到端训练实现智能度预测。但现有NR-SIPA普遍存在两大缺陷：其一，模型设计多针对单一语音退化类型（如噪声、回声），对多说话人竞争（Competing Speech, CS）场景处理能力不足；其二，传统模型依赖人工特征工程或有限标注数据，导致泛化能力受限。

针对上述问题，研究者提出多模态融合架构。基础模型采用预训练语音表征模型（Speech Foundation Model, SFM）作为特征提取主干，其优势在于能捕获丰富的声学-语言联合特征。但需解决两个关键挑战：首先，如何从混合语音中有效分离目标说话人信息；其次，如何构建不依赖 enrollment 语音的说话人嵌入系统。

在现有解决方案中，基于说话人嵌入的分离技术逐渐成熟。这类方法通过预训练模型提取说话人特征，但传统实现需要干净训练数据生成 enrollment 语音。新提出的TSIP-Net模型在以下方面实现突破：

1. **多说话人场景下的自适应分离机制**
基于心理声学研究的最新进展，模型创新性地将能量比作为关键判别标准。通过实时计算混合语音中各说话人能量分布，自动识别目标语音成分。当竞争语音能量超过目标语音时，系统触发增强型分离模块，通过改进的时频特征提取网络增强目标语音的辨识度。

2. **双分支特征融合架构**
主模型采用预训练的WavLM作为基础，构建双通道处理系统：
- ** speaker-blind 通道**：处理通用声学特征，包含频谱特征提取、短时平稳化处理模块
- ** speaker-aware 通道**：通过动态说话人嵌入模块实现特征增强
两通道的并行处理确保模型既能捕捉全局声学规律，又能针对特定说话人特征进行优化

3. **无 enrollment 语音的嵌入生成技术**
创新性地开发SS-ECAPA-TDNN嵌入提取器，该模块通过三阶段处理实现：
① 基于能量比的目标语音成分筛选
② 时空特征联合提取网络
③ 多尺度说话人特征聚合
实验表明，该嵌入系统在跨方言、跨语种场景下仍保持85%以上的特征相似度

4. **渐进式训练策略**
采用分阶段训练机制：
- 阶段1：预训练SFM模型，完成声学特征基础构建
- 阶段2：联合训练嵌入提取模块与智能度预测网络
- 阶段3：通过对抗训练优化分离效果，同时保持智能度预测的稳定性
这种训练策略有效解决了多任务训练中的目标冲突问题

实验验证部分采用九类典型退化场景测试，包括：
- 单一高斯噪声（SILK-2014）
- 复杂多频噪声（Noisy说话人数据集）
- 多说话人竞争场景（DCASE 2023挑战赛数据集）
- 混合退化类型（ASR-2022基准测试集）

关键实验结果：
1. **竞争语音场景突破**：在单竞争者条件下，TSIP-Net达到92.7%的SI预测准确率，较现有最佳模型提升8.2个百分点
2. **跨场景泛化能力**：非竞争场景测试中，模型在平均STOI指数达到88.4（基准模型82.1），在语言迁移任务中表现尤为突出
3. **计算效率优化**：通过动态稀疏激活机制，模型推理速度提升至传统架构的1.7倍，同时保持98%以上的预测精度

该模型在实际应用中的优势体现在：
- 无需干净参考语音，适用于直播、会议等实时场景
- 对多说话人环境具有自适应调节能力
- 支持增量学习框架，可动态扩展至新说话人场景

未来研究方向包括：
1. 开发多尺度竞争语音检测机制，应对多说话人复杂场景
2. 探索时域注意力机制与频域特征融合的新范式
3. 构建开放域动态说话人数据库，提升模型泛化能力

该研究为智能语音系统提供了新的技术路径，特别是在多人交互场景下的语音质量评估方面具有重要突破。其提出的双通道特征融合架构和渐进式训练方法，为后续多模态语音处理研究奠定了基础。实验数据表明，模型在保持高预测精度的同时，显著降低了对干净语音样本的依赖，这对实际部署具有重大意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号