基于缓冲区引导的表示插值方法，用于黑盒无监督领域自适应

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：Bumper-guided representation interpolation for black-box unsupervised domain adaptation

【字体：大中小】 时间：2026年01月30日 来源：Computer Speech & Language 3.4

编辑推荐：

　　无监督领域适应中的知识稳定迁移与源目标表示对齐研究，提出 bumper模型进行跨域表征插值，通过知识校准和代理模块蒸馏解决传统方法误差累积问题，在多语言多声学场景验证有效性。

Jin-Seong Choi | Jae-Hong Lee | Joon-Hyuk Chang

韩国首尔汉阳大学电子工程系

摘要

黑盒无监督领域适应（BUDA）面临一个具有挑战性的场景：只有未标记的目标数据可用，并且无法访问源模型的参数。最近依赖于一致性训练的BUDA方法由于源表示的固定性而难以处理错误累积问题。在本文中，我们提出了一种名为“缓冲引导表示插值”（BGRI）的新框架，该框架引入了一个缓冲模型，用于在源域和目标域表示空间之间进行插值。通过使用插值后的表示，缓冲模型能够提供通用的源信息，并实现稳定有效的知识传递到目标模型。在各种声学和语言领域的真实世界场景中进行的广泛实验表明，BGRI在适应性能和鲁棒性方面始终优于现有的BUDA方法。

引言

半监督学习（SSL）仅使用有限量的标记数据，就能够达到与全监督学习相当的性能。特别是，一致性正则化、熵最小化和伪标记等方法在自动语音识别（ASR）及相关序列任务中已被证明是有效的（Yu等人，2010年；Tarvainen和Valpola，2017年；Athywaratkun等人，2018年；Athywaratkun等人，2021年；Yang等人，2022b年；Yang等人，2024年）。然而，这些方法通常假设可以访问模型架构和参数，并且对预训练的质量和标签非常敏感。

黑盒无监督领域适应（BUDA）在日益受限的部署场景中受到了关注（Yang等人，2020年；Xu等人，2022年；Fang等人，2024年）。BUDA仅使用未标记的目标数据来适应目标领域，而无法访问源模型的权重。这种情况发生在模型仅通过API暴露，或者由于隐私或合规原因限制源数据/模型时。在这种限制下，源域和目标域之间的分布差异会阻碍传统SSL的直接应用，并可能导致目标模型过度拟合源模型的预测。

现有的BUDA方法主要采用一致性训练方法来缓解这些问题，但仍存在一些局限性。首先，由于源模型以固定状态提供，直接调整域之间的表示差异在本质上是有限的（Xia等人，2024年）。其次，如果源模型在目标域中始终生成错误的预测，这些不准确性会在训练过程中传播，可能导致目标模型过度拟合到误导性的或虚假的表示上（Yang等人，2022a年）。因此，需要一个新框架来有效减少源域和目标域之间的表示差异，同时防止错误累积。

为此，我们提出了“缓冲引导表示插值”（BGRI）这一新框架。该框架引入了一个中间缓冲模型来促进从源模型到目标域的知识传递。BGRI包括两个关键训练阶段：（i）知识校准，其中源表示校准（SRC）技术使缓冲模型与源输出对齐，同时鼓励对不同领域的泛化；（ii）知识传递，采用基于代理模块的知识蒸馏（PM-KD）机制将适应领域的表示传递给目标模型。由于目标模型直接从缓冲模型接收信息，而不是从源模型接收，因此可以实现更高效且稳定的知识传递。在一系列声学和语言多样化的场景中进行的广泛实验验证了我们的方法在适应性能和鲁棒性方面优于现有的BUDA方法（见图1）。

部分摘录

半监督学习

SSL通过利用大量未标记的数据，在性能上超过了监督学习。SSL方法包括一致性正则化（在输入扰动下强制预测稳定性，Tarvainen和Valpola，2017年；Xie等人，2020年；Sohn等人，2020年）、熵最小化（减少预测不确定性，Grandvalet和Bengio，2004年）以及伪标记（将高置信度预测视为临时标签用于训练，Lee等人，2013年）

缓冲引导表示插值框架

我们提出了BGRI框架，该框架引入了一个缓冲模型，用于插值源域和目标域之间的表示差异。该框架包括两个阶段：知识校准阶段，其中缓冲模型学习来自源模型的精细化信息；知识传递阶段，其中插值后的知识被高效且稳定地传递给目标模型。图2展示了整体架构，包括缓冲模型

实验设置

数据集 我们使用多个广泛使用的英语语音识别数据集来评估不同语音领域的泛化性能。对于源域训练，我们使用了LibriSpeech数据集（Panayotov等人，2015年）。对于目标域，我们基于现实世界场景中常见的两种领域类型进行了实验：声学领域和语言领域。为了研究声学领域的变化，我们使用了Libriadapt数据集

声学领域的整体性能

我们报告了BGRI与现有方法在各种声学领域中的鲁棒性比较结果。评估涉及在不同麦克风设备和说话者口音下收集的语音数据。不同麦克风设备的特性以及用于区分它们的数据集特定标识符在表1中进行了总结。对于口音比较，我们评估了美国英语、印度英语和英国英语的说话者录制的语音。＋SRC和＋PM-KD表示

结论

我们提出了BGRI，这是一个旨在解决BUDA挑战的新框架。BGRI利用缓冲模型在源域和目标域表示之间进行插值，从而实现源知识的有效泛化和向目标模型的稳定知识传递。我们还引入了SRC和PM-KD来减少对固定源表示的过度拟合并减少预测误差的累积。通过在多样化的声学和语言领域进行的实验，BGRI

CRediT作者贡献声明

Jin-Seong Choi：撰写 – 审稿与编辑，撰写 – 原始草稿。 Jae-Hong Lee：撰写 – 审稿与编辑。 Joon-Hyuk Chang：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言