基于投影的深度迁移学习在语音传输指数预测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Projection-based deep transfer learning applied to Speech Transmission Index prediction

【字体：大中小】 时间：2026年02月20日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　语音传输指数（STI）预测研究提出基于NP-PAVM的深度迁移学习算法，结合一维卷积神经网络（1D CNN）有效解决传统方法依赖RT且测量成本高的问题。实验表明该方法在720个模拟教室数据集上的R2达0.975，MSE为0.002，显著优于传统RT模型。

Eriberto Oliveira Do Nascimento | Paulo Henrique Trombetta Zannin

巴拉那联邦大学（UFPR），环境与工业声学及声学舒适度实验室，巴西库里蒂巴市

摘要

语音清晰度可以通过语音传输指数（STI）来衡量，这是一种复杂且成本较高的评估方法。目前，基于混响时间（RT）的STI预测模型未能充分考虑房间脉冲响应（RIR）和背景噪声（BGN）的频谱效应。本研究旨在利用深度一维卷积神经网络（1D CNN）来预测STI值。为了解决现场STI测量的挑战，提出了一种名为非参数投影自适应变分最小化（NP-PAVM）的深度迁移学习（DTL）算法。该算法利用在模拟数据上训练的生成模型，并通过变分自编码器（VAEs）将其适配到实际测量数据中。这些编码器生成源域中的STI后验分布，用于参数化目标域，同时核主成分回归（KPCR）建立源域和目标域之间的映射。NP-PAVM算法使用来自13个教室的84个RT测量值和277个STI测量值进行了验证，并在包含720个模拟教室的测试集上评估了其性能。基于NP-PAVM的1D CNN评估显示出显著的准确性提升，训练期间的最佳预测指标为决定系数（R²）0.975、均方误差（MSE）0.002和平均绝对误差（MAE）0.033。对于10折交叉验证，R²和MSE分别为0.917 ± 0.023和0.007 ± 0.002。所提出的NP-PAVM作为一种实用的教室STI评估工具展现出巨大潜力，可以利用标准的RT测量仪器获取更丰富的声学数据。

引言

教室的声学质量是影响教学和学习过程的关键因素，直接关系到学生和教师的福祉，并带来社会经济负担。由于使用了吸音建筑材料及其整体设计，教室通常具有较长的混响时间。这种效应会放大背景噪声（BGN），使学生难以区分教师的声音和其他声音，从而严重损害语音感知和听力理解能力，而这些都是学习的基础（Mealings, 2023）。高噪声水平和长混响时间的结合会创造出不良的声学环境，对儿童的听觉理解、读写能力、认知能力、计算能力、行为以及健康产生负面影响。在嘈杂环境中持续听讲还会导致沮丧、疲劳和行为问题，以及整体身心健康状况的下降（Mealings和Buchholz, 2024）。不达标的教室声学条件会阻碍教育公平性，因为它们为弱势学生（包括非母语者和有注意力或听觉处理困难的学生）创造了不平等的学习障碍，从而加剧社会不平等。研究表明，不良的声学条件会直接损害注意力和记忆等基本认知功能，而这些功能对学术成就和长期社会经济流动性至关重要。因此，投资于优化教室声学环境是一项重要的社会经济干预措施，它能提高教育系统的效率，提升未来劳动力的潜力，并减轻与不良学习环境和学生福祉相关的更广泛公共卫生和社会成本（Mealings和Buchholz, 2024；Mercugliano等人, 2025）。然而，解决教室声学问题需要综合考虑学习空间的设计和改造，不仅要控制噪声，还要考虑其他声学参数。通过优先考虑这些因素，可以开发出更有效的学习环境，以支持学生的学术成功和健康（Shield等人, 2010）。混响时间（RT）在用于评估语音清晰度时存在多个缺点。作为一种心理生理学描述指标，这个因素可以有多种解释方式，限制了其客观性。相比之下，语音传输指数（STI）旨在克服这些缺点，提供了理论优势，包括在考虑混响和背景噪声效应的同时，评估声信号在源和接收位置之间的衰减情况。尽管许多模型使用RT来预测STI，但它们通常只使用部分RT频段（Escobar和Morillas, 2015；Nowo?wiat和Olechowska, 2016；Leccese等人, 2018；Liu等人, 2020）。此外，STI测量需要专用仪器，其高昂的成本对于发展中国家和资源有限的机构来说可能难以承受。

为了克服基于物理的模型的这些局限性，深度学习（DL）提供了一个有前景的替代方案。然而，在许多工程应用中，开发深度神经网络（DNN）模型并不现实，导致由于数据稀缺而泛化能力差和模型性能不佳。Zhuang等人（2021）指出，DNN模型在给定数据集上的表现不佳可能源于多种因素，其中缺乏足够的训练样本是最关键的问题。在声学领域测量和建模RT和STI声学描述符时，这种现象尤为明显（ISO, 2008；IEC, 2011）。在这种情况下，采用深度迁移学习（DTL）等替代训练方法往往更有优势，以克服训练数据有限的挑战（Weiss等人, 2016；Iman等人, 2023），这是一种非常有效的策略（Li等人, 2022；Fink等人, 2020）。本研究旨在开发一种新的DTL算法，利用DNN基于生成式人工智能来预测STI。具体而言，提出直接使用房间脉冲响应（RIR）和背景噪声（BGN）作为卷积DNN的输入变量，并通过迁移学习进行微调以预测STI。为此，开发了一个包含模拟RIR和实际测量BGN的数据集来模拟真实教室条件。然后根据获得的数据对一维卷积神经网络（1D CNN）模型进行了微调。

本研究的结构如下：第2节对DTL方法进行了全面的文献回顾，第3节介绍了所提出的DTL方法的数学公式，第4节描述了方法论，包括非参数投影自适应变分最小化（NP-PAVM）算法的验证、1D CNN架构和超参数调整。该节还详细介绍了数据集的创建，并定义了RT、BGN和STI。第5节展示了NP-PAVM算法的实验验证，第6节讨论了结果，最后第7节得出了结论。

深度迁移学习范式

深度迁移学习是一种学习策略，它重新利用DNN模型来执行新的、在统计上相似的学习任务（Himeur等人, 2023；Iman等人, 2023；Dos Santos, 2023）。这种重新利用的目的是提高未见样本的性能，即未包含在原始训练集中的样本。根据Zhuang等人（2021）的说法，DTL需要关于源域和目标域的正式表示法。源域由特征空间及其对应的...

NP-PAVM算法

基于第2节中的定义，提出了一种新的DTL算法，如算法1所示。该算法称为非参数投影自适应变分最小化，结合了基于投影的DTL和嵌入学习空间中的距离分布方法。

算法1

NP-PAVM算法的伪代码。

NP-PAVM从VAE的潜在空间中推断信息，然后使用KPCR预测目标域中的值。NP-PAVM的核心思想是...

NP-PAVM验证

采用了两种方法来验证NP-PAVM算法。第一种方法专注于生成和验证合成数据集的真实值。为此，使用了一种封闭形式的分析模型来生成合成RIR和BGN的真实STI值，如第4.1节所述。第二种方法是根据第5节设计了一个基准DNN模型。该DNN是一个在两种配置下训练的简单1D CNN，其中一种配置应用了NP-PAVM + MSE

VAE和1D CNN模型训练

为了应用NP-PAVM，需要编码器和一个基线深度学习模型。因此，本节重点介绍了这些模型的训练和验证过程。

声学数据处理

根据第4.2节，使用图像源方法（ISM）为源域生成了30,000个具有独特声学特性的虚拟房间。图6(a)展示了虚拟房间声学模型及其对相应RIR的响应，该RIR在接收位置（标识为麦克风1）处被捕获。

图6(b)展示了虚拟房间中的RIR信号。如图4.2所述，使用了声压级为60 dB的脉冲激励信号。

结论

训练了VAE并优化了其超参数。随后，实现了一种新的DTL方法NP-PAVM，用于确定每个源/目标数据集的表示状态。NP-PAVM作为DTL过程实施，并将相应的损失项纳入1D CNN训练目标中。然后使用所提出的损失函数计算评估了基本1D CNN的性能。

对数据进行了使用PCA投影的比较分析，...

CRediT作者贡献声明

Eriberto Oliveira Do Nascimento：撰写 – 审稿与编辑，撰写 – 原始草稿，验证，软件开发，形式分析，数据管理。Paulo Henrique Trombetta Zannin：监督，项目管理，数据管理，概念构思。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Eriberto Oliveira do Nascimento报告称获得了高等教育人员改进协调机构的财务支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究部分由巴西高等教育人员改进协调机构（CAPES）资助 - 财务代码001。

联系信箱：

粤ICP备09063491号

摘要

引言