《Pattern Recognition》:Causality-inspired Latent Feature Augmentation for Single Domain Generalization
编辑推荐:
单域泛化中提出基于因果学习的潜在特征增强方法,通过元知识学习生成多样化隐式特征变换,减少对有限图像级变换的依赖,捕捉更稳定的领域不变因果特征,实验验证其优于现有方法。
Jian Xu|Chaojie Ji|Yankai Cao|Ye Li|Wei Zhao|Ruxin Wang
广东工程技术师范学院计算机科学学院,广州,510665,中国
摘要
单域泛化(Single-DG)旨在开发一个仅依赖于单一训练域的通用模型,以便在其他未知目标域上表现良好。在面对“领域饥饿”(domain-hungry)问题的情况下,如何扩展源域的覆盖范围并找到不同分布之间的内在因果特征是提高模型泛化能力的关键。现有方法主要依赖于对有限图像级变换技术的精心设计,以及基于源域中样本与标签之间统计相关性的跨域不变特征学习。这使得捕捉源域和目标域之间的稳定语义变得困难,从而阻碍了模型泛化性能的提升。在本文中,我们提出了一种新颖的基于因果关系的潜在特征增强方法,通过因果学习和干预来学习特征级变换的元知识。我们不再过度依赖有限的图像级变换,而是利用学到的元知识,在潜在空间中生成多样化的隐式特征级变换,这些变换基于因果特征的一致性和非因果特征的多样性,从而更好地弥补“领域饥饿”问题,并减少对初始有限图像级变换的依赖,捕捉更稳定的领域不变因果特征以实现泛化。在多个开放访问的基准测试上进行的大量实验表明,我们的模型性能优于其他最先进的单域泛化和多源域泛化方法。
引言
通常,深度学习模型的设计基于一个强烈的分布假设,即训练样本和测试样本是相同且独立分布的。然而,在现实世界场景中,由于源域(训练域)和目标域(测试域)之间存在不可避免的差异,当模型在未见过的场景上进行测试时,其泛化性能往往会显著下降。
单域泛化(Single-DG)旨在提高仅在单一域上训练的模型的跨域性能,由于其实际应用价值而受到了越来越多的关注[1]。现有的单域泛化方法通过数据增强和学习领域不变表示来提高模型的泛化性能。数据增强旨在通过各种图像级变换技术生成多样化样本,以扩展源域的覆盖范围。然而,图像级变换的数量是有限的,并且需要精心设计,因为它们不应损害图像本身的语义信息。因此,尽管最近的努力取得了更好的性能,但这些模型的泛化能力仍然与有限图像级变换的方式和数量紧密相关。图1展示了一个简单的对比:一方面,当图像级变换策略的数量从16^1减少到5^2时,ERM[3]在判别特征学习中表现出不稳定现象,并由于源域的多样性不足而做出错误识别;另一方面,获得的领域不变特征可能会在数据和标签之间建立虚假的联系,因为模型没有明确区分不同域之间的因果特征和非因果特征。训练数据中的非因果但具有判别性的特征取代了内在的语义特征作为预测任务的决策变量,导致泛化性能较差。例如,如图1所示,当变换策略的数量固定为16时,尽管模型能够做出正确预测,但它更倾向于选择非因果特征“树木”作为图像中“房屋”这一语义类别的线索。这可能是因为树木作为捷径特征经常出现在房屋周围。更多结果和分析将在第4.7节和第4.8节中讨论。
为了解决上述问题,我们提出了一种基于因果关系的学习模型,用于提取潜在特征并区分单域泛化中的因果因素和非因果因素。首先,我们提出了一个因果结构图,表示观测数据、数据的潜在表示、因果变量、非因果变量和类别标签之间的依赖关系。我们认为,在高维潜在空间上的增强提供了比有限图像级变换更大的多样性,也有助于探索因果关系。
其次,我们引入了两种基于因果不变性的元知识学习方法,在有限图像级变换的条件下,学习更多多样化的隐式特征级变换,同时保证因果特征的一致性和非因果特征的多样性。具体来说,对于解耦的因果和非因果因素,我们设计了两种编码器来学习潜在空间中特征级变换的两种元知识,并通过生成的多样化隐式特征级变换生成增强特征,从而减少对有限图像级变换的依赖。
最后,我们基于潜在特征空间中的初始/增强后的因果变量和非因果变量,设计了一种有效的干预方法,以获得足够的分布多样性并学习更稳定的因果特征。
本文的贡献总结如下:
•我们从因果关系的角度探讨了单域泛化问题,并提出了一种基于因果学习和干预的新颖潜在特征增强范式,这种范式与有限的初始图像级变换策略的耦合度较低。
•在特征层面上,我们通过学习两种元知识,对因果/非因果特征进行直接操作和干预,从而生成更多多样化的潜在特征空间,并捕捉更多对泛化至关重要的领域不变因果特征。
•我们在多个单域和多源域泛化基准测试上进行了广泛实验,始终取得了最先进的性能。
部分摘录
领域泛化
领域泛化(也称为分布外泛化[4])解决了源域和未见目标域之间的分布差异问题。与可以访问目标数据的领域适应[5]不同,领域泛化不依赖任何目标信息,因此在现实世界场景中更具适用性。多源域泛化(Multi-DG)考虑了多个源域,并基于领域对齐、元学习、表示学习和数据等方法提出了相关方法
单域泛化的因果视角
首先,我们借助结构因果模型(SCM)对单域泛化任务中的初始因果依赖关系进行了建模。然后,我们详细介绍了如何将其发展为关注特征级别的新型SCM。
SCM的初始版本如图2a所示,它是基于以下三个观察结果构建的:
•B?←?D?→?C:领域变量D由两部分组成,即忠实反映数据本质语义属性的因果(领域不变)成分C
数据集
PACS [31]包含4个领域(艺术绘画、卡通、照片、素描),共有9,991张图片,分为7个类别。我们使用其中一个领域作为源域,其余三个作为目标域。Digits包括5个数据集(MNIST、MNIST-M、SVHN、USPS、SYN),共10个类别[2],其中MNIST作为源域,其他四个作为目标域;根据[2],使用前10,000张MNIST图片进行训练。CIFAR10-C [32]是从CIFAR10测试集中生成的,包含19种损坏类型和5个严重程度级别;CIFAR10是
结论
在这项工作中,我们提出了一种新颖的潜在特征增强范式,通过对实例的潜在表示进行增强,显著提高了可观察领域变化的多样性。我们设计了一种有效的干预方法,以扩展分布的多样性并学习更稳定的因果特征以实现泛化。我们提出的方法可以减少对有限图像级变换的依赖。
在单域和多源域泛化方面进行了大量实验
CRediT作者贡献声明
Jian Xu:撰写——原始草稿、验证、软件、方法论、数据整理。Chaojie Ji:撰写——原始草稿、调查、概念化。Yankai Cao:调查、形式分析。Ye Li:调查、资金获取。Wei Zhao:验证、调查、形式分析。Ruxin Wang:撰写——审阅与编辑、验证、监督、方法论、资金获取。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本文得到了中国国家重点研发计划[2022YFA1008300]、国家自然科学基金[12471308]、广东省科技计划[2022B1515130009]以及深圳市优秀青年学者计划[RCYX20231211090247060]的支持。