编辑推荐:
针对大型视觉模型跨域分类的适应性挑战,本文提出文本辅助域适应方法TADA,通过学习源域文本到目标域的转换函数,无需目标域图像即可适配视觉表示。实验表明TADA在DomainNet、PACS等基准测试及工业数据集上显著优于传统方法,提升分类准确率同时保持零样本特性。|文本辅助域适应|跨域分类|视觉表示学习|零样本适配|工业应用
Louis Hémadou | Héléna Vorobieva | Ewa Kijak | Frédéric Jurie
Safran Tech,数字科学与技术部门,法国
摘要
本文探讨了如何将大型视觉模型(如CLIP)适配到图像分类任务中的领域变化问题。虽然这些在LAION 2B等大规模数据集上预训练的模型能够提供强大的视觉表示能力,但当应用于与其训练数据差异较大的领域(如工业应用)时,它们可能会遇到挑战。我们提出了一种名为TADA的文本辅助领域适应方法,该方法无需目标领域图像即可将这些模型的视觉表示适应到新领域。TADA利用对领域变化的文字描述来捕捉预训练领域和目标领域之间的差异。我们的方法可以与微调策略(包括提示学习方法)无缝集成。我们证明了TADA在提高大型视觉模型在领域变化数据上的性能方面的有效性,在DomainNet等基准测试中取得了领先的结果。
引言
计算机视觉领域因CLIP(Radford等人,2021年)、BASIC(Pham等人,2023年)和ALIGN(Jia等人,2021年)等大型视觉模型的出现而发生了革命性变革。这些模型在庞大的图像-文本对数据集上预训练,具备了学习丰富多模态表示的能力,从而弥合了视觉信息和文本信息之间的差距。它们由视觉编码器和文本编码器组成,经过训练以最小化对比损失,在图像分类、目标检测和图像检索等多种视觉任务中表现出色。它们的优势在于能够从图像中提取语义丰富的特征,并将其与基于文本的描述对齐,从而实现零样本迁移和适应新任务。
然而,尽管这些模型功能强大,但在应用于与其预训练数据差异较大的领域时,其效果可能会大打折扣。这种“领域变化”现象在工业应用等专业领域尤为明显,因为这些领域的视觉特征往往与构成预训练数据集的主要网络抓取图像有很大不同。例如,工业组件的图像可能具有不寻常的照明条件、特定的传感器伪影(如红外图像)或非典型的视角(如航拍视图)。此外,这些领域中标记数据的有限性加剧了将大型视觉模型适配到特定工业任务的难度。许多现有的领域适应方法需要访问目标领域图像,而在许多实际工业场景中(如预测性维护或罕见事件检测),从目标分布中获取足够的标记数据往往成本高昂或根本不可能。传统的领域泛化技术虽然旨在提高对未见领域的鲁棒性,但往往难以捕捉各个目标领域的细微差别和特定特征,导致性能不佳。此外,尽管提示工程作为一种适应CLIP类模型的方法展现出潜力,但它通常缺乏处理复杂领域变化(如材料属性、表面纹理或制造过程的变化)所需的精细控制。基于风格的领域泛化方法(如对抗训练或风格迁移)可能会引入不希望出现的风格伪影,或无法保留与下游任务相关的重要语义信息。
为了克服这些限制,本文提出了TADA(文本辅助领域适应),这是一种新颖且高效的方法,专门用于无需访问目标领域图像即可将大型视觉模型零样本适配到新领域。TADA利用大型视觉模型对视觉和文本表示进行对齐的固有能力,通过易于获取的文本描述来学习视觉表示在语义空间中的目标转换。其核心思想是学习一个函数,将源图像特征映射到与目标领域更对齐的新表示空间,有效弥合领域差距。与通常依赖复杂架构修改或广泛微调的现有领域泛化技术不同,TADA直接作用于预训练模型学习的视觉特征,保持了其泛化能力和计算效率。此外,与可能无意中改变关键语义信息的基于风格的领域泛化方法不同,TADA的文本引导方法允许更可控且语义上更精确的转换。通过学习文本模态中的转换,TADA利用语言的语义丰富性来指导适应过程,使模型能够捕捉目标领域的细微差别和特征。
我们的贡献总结如下:
- 我们提出了TADA,这是一种基于文本的增强方法,用于大型多模态视觉模型,通过学习源领域和目标领域描述之间的转换来显式建模领域变化。
- 我们提出了一个框架,仅使用文本描述来学习将视觉表示适应到新领域,利用文本模态的语义丰富性来指导适应过程。即使在目标领域图像稀缺、昂贵或无法获取的情况下,该框架也能训练出适应模型,这在许多工业应用中是常见的情况。
- 我们全面评估了TADA在提高CLIP在领域变化数据上的性能方面的有效性,在PACS(Li等人,2017年)、OfficeHome(Venkateswara等人,2017年)和DomainNet(Peng等人,2019年)等标准基准测试中取得了领先结果。此外,我们还通过在其类似工业的数据集(包括RarePlanes(Shermeyer等人,2021年)和Aerial Vehicles)上的表现来证明TADA的实用性,其性能始终优于现有的领域适应和泛化技术。
相关工作
能够对齐文本和图像的大型语言模型的出现(Radford等人,2021年;Pham等人,2023年;Jia等人,2021年)彻底改变了领域泛化、领域适应和零样本学习的研究。由于这些模型在训练期间接触了大量图像数据,因此具有内在的泛化能力,这使得使用传统的领域适应方法(如Li等人,2018年;Ganin等人,2016年;Sun等人,2016年;Xu等人)的相关性降低。
方法
我们提出了TADA(文本辅助领域适应),这是一种用于图像分类的零样本领域适应方法,该方法利用多模态模型的文本-图像描述空间。如图1所示,其核心思想是学习一个函数,将源领域的文本表示转换为目标领域的文本表示。然后将该函数应用于源领域的图像特征,从而将其有效地传输到目标领域的表示空间。
实验
本节中的实验验证评估了所提出方法在标准领域泛化和领域适应基准测试(特别是DomainNet(Peng等人,2019年)、PACS(Li等人,2017年)和OfficeHome(Venkateswara等人,2017年)中遇到的领域变化方面的鲁棒性。其性能通过衡量其改进包括WiSE(Wortsman等人,2022年)和CoCoOp(Zhou等人,2022a)在内的最先进方法的能力来评估。
动机
学术基准测试和大规模多模态数据集(如LAION-2B)主要由互联网上容易获取的图像组成。因此,在这些数据集上训练的CLIP模型很可能对学术基准测试中出现的图像类型及其相关文本描述(例如绘画、草图)具有鲁棒的表示能力。此外,这些基准测试中代表的领域通常结构良好且具有一定程度的同质性。
讨论
需要注意的是,在某些情况下,将TADA与LP或CoOp结合使用可能会导致在某些目标领域上的性能略低于CLIP零样本模型。这一现象凸显了领域适应中的一个众所周知的挑战:在单个源领域上对CLIP的线性分类头(LP)进行微调有时会因过拟合而降低在未见目标领域上的性能(Radford等人,2021年;Wortsman等人,2022年;Dunlap等人)
结论
本研究提出了TADA,这是一种新颖的增强方法,能够通过文本描述有效地将图像适应到未见领域。结合强大的微调和提示学习策略使用,TADA在未见领域上始终能够提高准确性。在标准基准测试和类似工业的数据集上的结果证明了TADA在现实应用中的潜力,其中数据稀缺和领域变化带来了重大挑战。
与现有的领域
CRediT作者贡献声明
Louis Hémadou:撰写——审阅与编辑、撰写——初稿、验证、方法论、概念化。Héléna Vorobieva:撰写——审阅与编辑、监督。Ewa Kijak:撰写——审阅与编辑、监督。Frédéric Jurie:撰写——审阅与编辑、监督。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Louis Hemadou报告称获得了Safran SA的财务支持。Helena Vorobieva报告称获得了Safran SA的财务支持。Louis Hemadou拥有待授权给Safran SA的专利。如果还有其他作者,他们声明没有已知的可能影响所报告工作的财务利益或个人关系。