用于无监督领域适应的目标自引导框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于无监督领域适应的目标自引导框架

《Pattern Recognition》：Target Self-Guided Framework for Unsupervised Domain Adaptation

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出目标自指导框架（TSGF），通过实例级对比学习和类别级伪标签策略，减少跨域特征对齐依赖，缓解目标域特征失真问题。结合Mamba架构的高效全局感受野特性，在四项基准数据集上验证其有效性和优越性。

李京尧|李占山|吕帅

吉林大学计算机科学与技术学院，长春，130012，吉林，中国

摘要

领域适应（Domain Adaptation，DA）在缓解不同领域之间的差异方面取得了实质性进展。然而，许多无监督的DA方法依赖于显式的跨领域特征对齐，这在缺乏真实标签的情况下可能会导致目标领域特征的失真。在本文中，我们提出了一个目标自引导框架（Target Self-Guided Framework，TSGF），该框架增强了目标领域对知识转移的引导作用，从而在无需显式跨领域特征对齐的情况下实现适应，从而减轻了目标领域中的特征失真问题。在TSGF中，目标领域通过对比学习和伪标记分别提供实例级和类别级的指导，通过特定于目标领域的监督来增强适应能力。此外，我们引入了一种补丁混合策略来弥合领域差距，从而促进跨领域共享知识的捕获。由于新兴的Mamba架构具有全局感受野和比卷积神经网络（CNN）和视觉Transformer（ViT）架构更优的线性复杂度，我们探索了将Mamba架构应用于领域适应。广泛的实验表明，我们的方法在具有挑战性的DA场景中比现有方法表现出更优的性能。

引言

深度学习通常依赖于大规模的标注数据集，并假设训练数据和测试数据之间的分布是一致的，这给实际应用带来了挑战。为了解决这个问题，无监督领域适应（Unsupervised Domain Adaptation，UDA）作为一种有前景的方法应运而生[1]、[2]、[3]、[4]，旨在通过利用源领域的标注数据和目标领域的未标注数据来弥合领域差距，其中两个领域相关但数据分布不同。

传统的UDA方法通过矩匹配[5]或对抗学习[6]来减少领域差距。基于矩匹配的方法使用指标来量化跨领域分布差异，并通过最小化这些差异来减少领域差距。基于对抗学习的方法使用领域判别器来评估两个领域之间的可分离性，并通过最小-最大训练过程来减少这种可分离性。尽管这些方法有效，但它们都依赖于显式的跨领域特征对齐，这种依赖性引入了几限制。首先，在目标领域没有真实标签的情况下，直接的特征对齐可能会导致目标领域特征的失真，从而可能降低模型的泛化能力。其次，严格的对齐约束可能会带来不必要的刚性，限制模型捕捉目标领域特定特征的灵活性（图1）。

为了解决上述限制，我们提出了一个目标自引导框架（TSGF），它消除了对显式跨领域特征对齐的需求。我们认为，一个领域内的信息可以分解为两个互补的部分：实例级信息，反映了单个样本的固有特征；以及类别级信息，捕捉了样本之间的相似性以及不相关样本之间的差异性。因此，我们的TSGF从目标领域提取实例级和类别级的信息线索，并利用它们来指导适应过程。具体来说，实例级指导是通过对比学习实现的，它以无监督的方式为每个样本提取区分性特征。类别级指导是通过基于记忆库的伪标记策略建立的，该策略利用了未标注目标领域内的局部结构信息，从而提高了伪标签的可靠性。通过放宽源领域和目标领域之间的严格对齐约束，TSGF减轻了特征失真并提高了适应的灵活性。

计算机视觉领域长期以来一直由卷积神经网络（CNN）[7]和视觉Transformer（ViT）[8]、[9]主导。为了克服CNN和ViT的局限性，它们的感受野有限且计算复杂度呈二次方增长，Mamba架构作为一个重要的进步出现了[10]、[11]、[12]。现有的领域适应（DA）方法主要利用了CNN[1]、[13]和ViT[2]、[14]、[15]、[16]、[17]。选择骨干网络确实是影响DA模型性能的关键因素。在这种情况下，Mamba架构的出现自然激发了我们研究其是否可以作为DA的骨干网络的兴趣。因此，我们开发了一个基于Mamba的TSGF来研究Mamba在DA中的有效性。此外，我们还构建了一个基于ViT的TSGF，以将我们的方法与最先进的UDA方法进行比较。

鉴于ViT和Mamba都作用于样本块，我们引入了一种补丁混合策略来构建一个连接源领域和目标领域的中间领域。值得注意的是，这个中间领域充当了知识转移的中继。从源领域到目标领域的直接知识转移受到跨领域差异的阻碍，而中间领域则实现了渐进式转移，并减少了由领域差距引起的信息损失。

总之，本文的贡献如下：（1）我们提出了TSGF，实现了无需显式跨领域特征对齐的适应。（2）我们提出在实例级和类别级加强目标领域的指导作用。（3）我们基于ViT和Mamba评估了TSGF，这是首批探索视觉Mamba在DA中应用的方法之一。（4）在四个UDA基准测试上的实验结果表明，我们的方法优于几种最先进的方法。

本文的其余部分组织如下：第2节回顾相关工作。第3节详细介绍了我们提出的方法。第4节展示了实验结果和讨论。最后，第5节总结了本文。

部分摘录

无监督领域适应

为了实现知识转移，现有的UDA方法侧重于构建一个领域不变的特征空间。早期的UDA方法使用统计指标，如最大均值差异（MMD）[5]和相关性对齐（CORAL）[18]，来衡量不同领域之间的特征分布差异。随着生成对抗网络的出现，对抗性UDA方法引入了领域判别器[19]，通过对抗训练来减少领域差距。一些方法进一步替换了

方法

本文关注UDA场景。带有n_s个标注样本的源领域表示为

D_{s} = {(x_{i}^{s}, y_{i}^{s})}_{i = 1}^{n_{s}}

，其中

y_{i}^{s}

是

x_{i}^{s}

的真正标签。而带有n_t个未标注样本的目标领域表示为

D_{t} = {x_{i}^{t}}_{i = 1}^{n_{t}}

。假设

D_{s}

和

D_{t}

具有不同的分布但共享相同的标签空间，UDA的目标是训练一个模型，使其在目标领域表现良好。

大多数UDA方法旨在创建一个领域不变的潜在空间以促进

实验设置

数据集。我们在四个广泛使用的UDA数据集上评估了我们的方法。Office-Home [40]包含来自4个领域的15,500张图片，共65个类别。DomainNet [41]是迄今为止最大且最难的UDA数据集，包含约600万张图片，分布在345个类别中。VisDA-2017 [42]构建了一个从合成到真实的任务，包含12个类别。Office-31 [43]包含3个领域，每个领域有31个类别。

实现细节。我们使用了ViT-B [9]和MambaVision