机器学习方法在图像分类、语音识别、机器翻译等领域取得了显著进展。然而,这些方法通常假设训练数据和测试数据是独立同分布(i.i.d.)的,但在自动驾驶、医疗保健和金融预测等实际应用中这一假设可能不成立。依赖这一假设使得在这些关键应用中使用这些模型存在风险,因为测试时的性能可能会大幅下降,且失败的成本非常高(Geirhos, Jacobsen, Michaelis, Zemel, Brendel, Bethge, Wichmann, 2020; Shen, Liu, He, Zhang, Xu, Yu, Cui, 2021; Zhou, Liu, Qiao, Xiang, & Loy, 2021)。Arjovsky等人(2020)提出的不变风险最小化(IRM)方法解决了分布外(OOD)泛化问题,并引起了广泛关注。IRM的目标是找到一种数据表示方式,以确保分类器在所有环境中都保持一致,从而提高对新测试环境或分布的泛化能力。这种方法已在多种场景和数据集中取得了成功。基于IRM的原理,出现了其他几种不变学习方法(Ahmed, Bengio, van Seijen, Courville, 2020; Ahuja, Shanmugam, Varshney, Dhurandhar, 2020; Chattopadhyay, Balaji, Hoffman, 2020; Lu, Wu, Hernández-Lobato, Sch?lkopf, 2021; Rosenfeld, Ravikumar, Risteski, 2020),它们在OOD任务中表现出良好的性能。
为了应用这些不变学习方法,需要对训练集进行环境划分。现有方法通常依赖数据源或元数据来确定划分方式。然而,自然的环境划分并不总是存在,或者难以识别,这使得这些方法不适用于许多数据集(Sohoni等人,2020)。例如,在Colored MNIST(CMNIST)合成数据集中,环境是根据相关性和0.9来定义的,并且在训练过程中已知每张图像所属的具体环境。更现实的情况是环境信息是未知的。即使存在自然的环境划分,也需要质疑它是否是最适合开发泛化能力强的模型的方法,因为数据可以以多种方式被分割成不同的环境。
一些研究已经解决了环境划分的挑战。Creager等人(2021)提出了用于不变学习的环境推断(EIIL),该方法使用ERM训练的参考分类器Φ来识别最违反不变性原则的分割,从而最大化对Φ的IRMv1惩罚。类似地,Just Train Twice(JTT)(Liu等人,2021a)首先训练一个参考模型,然后训练一个对初始模型错误分类的样本给予更高权重的模型。然而,这两种利用错误的二步方法的有效性在很大程度上取决于参考模型的性能(Dagaev, Roads, Luo, Barry, Patil, Love, 2023; Nam, Cha, Ahn, Lee, Shin, 2020)。另一种直接的环境划分方法是聚类。Matsuura和Harada(2020)、Sohoni等人(2020)以及Thopalli等人(2021)使用了k-means等传统聚类技术根据特征空间对数据集进行划分,而Liu等人(2021b)则试图通过聚类来最大化输出分布P(Y|Φ(X))的多样性。
尽管在OOD设置中训练集和测试集不是独立同分布的,但它们应该具有一些有助于泛化的共同属性。一个广泛认可的OOD假设认为(Shen等人,2021),这意味着在给定X的情况下,训练集和测试集的结果分布是一致的。基于这一前提,可以推断出环境标签e_X,无论是基于X还是基于Φ(X)提取的特征,都应该与结果Y无关。这一基本假设使我们能够有效地解决训练环境和测试环境之间的差异。
然而,大多数环境划分方法都使用结果Y来进行分割。在信噪比较高的场景中,如图像数据,这种方法危害较小,因为X本身包含了关于Y的大部分信息。但在数据噪声较大的情况下,例如表格数据,这些方法可能会由于Y值的变化而错误地将相似或相同的特征分配到不同的环境中。例如,两个具有相同X的数据点可能仅仅因为Y值中的误差成分(不可减少且完全随机)不同而分属不同的环境。这导致不同环境中的结果分布不同,违反了协变量偏移假设。这些方法在高噪声环境中的有效性尚未得到充分探索。虽然k-means聚类不依赖于Y,仅依赖于特征空间,但其在这种应用中的合理性缺乏明确的解释或理论支持。
本文探讨了一种针对高噪声数据的环境划分方法,以提升IRM的OOD泛化性能。我们观察到,在具有不相关特征的数据集上训练的模型通常能够很好地应对相关性变化。IRM的目标是开发一个在各种环境中都能表现优异的不变预测器。受这些观察的启发,我们引入了Decorr方法,该方法旨在识别用于环境划分的低相关性特征子集。Decorr在计算上高效且不依赖于结果Y。通过合成数据和真实数据的实验,我们证明Decorr与IRM结合使用时,在我们设定的OOD场景中始终表现优于一些现有的划分方法。
总结来说,本文的贡献包括:
1.我们引入了Decorr方法,该方法手动将数据集划分为不同的环境,以增强与不变学习结合时的OOD泛化能力。Decorr通过识别具有低相关性的特征子集来缓解虚假相关性的问题,并帮助识别稳定的预测因子。
2.我们通过模拟研究证明,即使在模型设定错误的情况下,基于Decorr的不变学习也能实现良好的OOD泛化。
3.所提出的Decorr方法在包括表格数据和图像数据在内的多种数据集上表现出优异的性能。
4.当自然环境划分未知时,我们扩展了不变学习方法(IRM、REx等)的适用范围。当自然环境划分不理想时,我们提高了不变学习的性能。