Decorr:用于不变性学习和OOD泛化的环境分割技术

《Neural Networks》:Decorr: Environment Partitioning for Invariant Learning and OOD Generalization

【字体: 时间:2026年02月21日 来源:Neural Networks 6.3

编辑推荐:

  环境划分对不变学习在分布外泛化中的关键作用及低相关特征子集划分方法研究。提出Decorr方法通过隔离低相关特征子集实现数据集环境划分,有效缓解虚假相关性问题,提升稳定预测器识别能力。实验表明该方法结合IRM在图像和表格数据上均优于随机划分、EIIL和k-means等方法,尤其在高噪声场景下性能显著

  
廖宇凡|吴琦|吴云锦|严星
中国人民大学统计与大数据研究院,北京,中国

摘要

旨在识别在多种环境中始终有效的预测器的不变学习方法,在分布外(OOD)泛化方面越来越受到重视。然而,当数据中不存在环境信息时,从业者必须手动定义这些环境。这种环境划分——即算法将训练数据集分割成不同的环境——对不变学习的有效性至关重要,但相关研究仍然不足。适当的环境划分可以扩大不变学习的适用范围并提升其性能。在本文中,我们提出通过隔离低相关性数据子集来划分数据集。通过合成数据和真实数据的实验,我们的Decorr方法在与不变学习结合使用时表现出更优的性能。Decorr方法能够缓解虚假相关性的问题,帮助识别稳定的预测因子,并扩展不变学习方法的适用范围。

引言

机器学习方法在图像分类、语音识别、机器翻译等领域取得了显著进展。然而,这些方法通常假设训练数据和测试数据是独立同分布(i.i.d.)的,但在自动驾驶、医疗保健和金融预测等实际应用中这一假设可能不成立。依赖这一假设使得在这些关键应用中使用这些模型存在风险,因为测试时的性能可能会大幅下降,且失败的成本非常高(Geirhos, Jacobsen, Michaelis, Zemel, Brendel, Bethge, Wichmann, 2020; Shen, Liu, He, Zhang, Xu, Yu, Cui, 2021; Zhou, Liu, Qiao, Xiang, & Loy, 2021)。Arjovsky等人(2020)提出的不变风险最小化(IRM)方法解决了分布外(OOD)泛化问题,并引起了广泛关注。IRM的目标是找到一种数据表示方式,以确保分类器在所有环境中都保持一致,从而提高对新测试环境或分布的泛化能力。这种方法已在多种场景和数据集中取得了成功。基于IRM的原理,出现了其他几种不变学习方法(Ahmed, Bengio, van Seijen, Courville, 2020; Ahuja, Shanmugam, Varshney, Dhurandhar, 2020; Chattopadhyay, Balaji, Hoffman, 2020; Lu, Wu, Hernández-Lobato, Sch?lkopf, 2021; Rosenfeld, Ravikumar, Risteski, 2020),它们在OOD任务中表现出良好的性能。
为了应用这些不变学习方法,需要对训练集进行环境划分。现有方法通常依赖数据源或元数据来确定划分方式。然而,自然的环境划分并不总是存在,或者难以识别,这使得这些方法不适用于许多数据集(Sohoni等人,2020)。例如,在Colored MNIST(CMNIST)合成数据集中,环境是根据相关性corr(color, number)=0.8和0.9来定义的,并且在训练过程中已知每张图像所属的具体环境。更现实的情况是环境信息是未知的。即使存在自然的环境划分,也需要质疑它是否是最适合开发泛化能力强的模型的方法,因为数据可以以多种方式被分割成不同的环境。
一些研究已经解决了环境划分的挑战。Creager等人(2021)提出了用于不变学习的环境推断(EIIL),该方法使用ERM训练的参考分类器Φ来识别最违反不变性原则的分割,从而最大化对Φ的IRMv1惩罚。类似地,Just Train Twice(JTT)(Liu等人,2021a)首先训练一个参考模型,然后训练一个对初始模型错误分类的样本给予更高权重的模型。然而,这两种利用错误的二步方法的有效性在很大程度上取决于参考模型的性能(Dagaev, Roads, Luo, Barry, Patil, Love, 2023; Nam, Cha, Ahn, Lee, Shin, 2020)。另一种直接的环境划分方法是聚类。Matsuura和Harada(2020)、Sohoni等人(2020)以及Thopalli等人(2021)使用了k-means等传统聚类技术根据特征空间对数据集进行划分,而Liu等人(2021b)则试图通过聚类来最大化输出分布P(Y|Φ(X))的多样性。
尽管在OOD设置中训练集和测试集不是独立同分布的,但它们应该具有一些有助于泛化的共同属性。一个广泛认可的OOD假设认为Ptrain(Y|X)=Ptest(Y|X)(Shen等人,2021),这意味着在给定X的情况下,训练集和测试集的结果分布是一致的。基于这一前提,可以推断出环境标签e_X,无论是基于X还是基于Φ(X)提取的特征,都应该与结果Y无关。这一基本假设使我们能够有效地解决训练环境和测试环境之间的差异。
然而,大多数环境划分方法都使用结果Y来进行分割。在信噪比较高的场景中,如图像数据,这种方法危害较小,因为X本身包含了关于Y的大部分信息。但在数据噪声较大的情况下,例如表格数据,这些方法可能会由于Y值的变化而错误地将相似或相同的特征分配到不同的环境中。例如,两个具有相同X的数据点可能仅仅因为Y值中的误差成分(不可减少且完全随机)不同而分属不同的环境。这导致不同环境中的结果分布不同,违反了协变量偏移假设。这些方法在高噪声环境中的有效性尚未得到充分探索。虽然k-means聚类不依赖于Y,仅依赖于特征空间,但其在这种应用中的合理性缺乏明确的解释或理论支持。
本文探讨了一种针对高噪声数据的环境划分方法,以提升IRM的OOD泛化性能。我们观察到,在具有不相关特征的数据集上训练的模型通常能够很好地应对相关性变化。IRM的目标是开发一个在各种环境中都能表现优异的不变预测器。受这些观察的启发,我们引入了Decorr方法,该方法旨在识别用于环境划分的低相关性特征子集。Decorr在计算上高效且不依赖于结果Y。通过合成数据和真实数据的实验,我们证明Decorr与IRM结合使用时,在我们设定的OOD场景中始终表现优于一些现有的划分方法。
总结来说,本文的贡献包括:
  • 1.
    我们引入了Decorr方法,该方法手动将数据集划分为不同的环境,以增强与不变学习结合时的OOD泛化能力。Decorr通过识别具有低相关性的特征子集来缓解虚假相关性的问题,并帮助识别稳定的预测因子。
  • 2.
    我们通过模拟研究证明,即使在模型设定错误的情况下,基于Decorr的不变学习也能实现良好的OOD泛化。
  • 3.
    所提出的Decorr方法在包括表格数据和图像数据在内的多种数据集上表现出优异的性能。
  • 4.
    当自然环境划分未知时,我们扩展了不变学习方法(IRM、REx等)的适用范围。当自然环境划分不理想时,我们提高了不变学习的性能。
  • 章节片段

    不变风险最小化

    IRM(Arjovsky等人,2020)处理来自多个训练环境De={(xie, yie)的数据集eEt,旨在开发一个在广泛环境Eall中表现优异的模型,其中Et?Eall。其目标是最小化最坏情况风险Rood(f)=maxeEallRe(f),其中R(f)=Ee[l(f(x), y表示环境e内的风险。具体来说,IRM旨在找到一个数据表示Φ和一个分类器w,使其在所有训练环境Et中都保持最优。

    提出的方法

    方程(1)中概述的IRM目标是在一组环境Et中最小化风险,同时对权重w施加不变性约束。IRM假设环境划分是预先确定的。然而,在现实世界中,数据可以以多种方式划分。例如,在从个人数据预测收入时,这种划分可以基于性别、年龄或教育水平等个人特征。

    实验

    我们评估了四种不同的环境划分方法:纯随机、EIIL(Creager等人,2021)、k-means和Decorr,以及在某些实验中还使用了异构风险最小化(HRM,Liu等人,2021b)的完整流程。此外,我们在真实数据实验中还使用了原始的IRM(以及V-REx),其中环境是预先定义的,并且也应用了ERM进行比较分析。我们使用了IRM的原始实现或广泛使用的实现1

    结论

    不变学习是一种强大的分布外(OOD)泛化框架,环境划分在IRM的有效性中起着关键作用。尽管现有的划分方法在某些情况下表现良好,但它们的有效性存在差异,并且缺乏明确的解释或理论支持。受到低相关性训练集优势的启发,我们开发了Decorr算法,该算法将数据划分为多个环境,同时将内部噪声降到最低

    CRediT作者贡献声明

    廖宇凡:撰写——原始草稿、方法论、调查、形式分析、概念化。吴琦:监督、资源管理、项目管理、形式分析、概念化。吴云锦:可视化、验证、软件开发、调查、形式分析。严星:撰写——审稿与编辑、监督、项目管理、方法论、概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    吴琦感谢The CityU-JD Digits Joint Laboratory在金融科技和工程领域的支持;香港研究资助委员会[一般研究基金11219420/9043008和11200219/9042900]以及香港数据科学研究所的支持。本文所述的工作部分得到了InnoHK计划、香港特别行政区政府和AI驱动的金融技术实验室的支持。
    严星表示,这项工作部分得到了Young
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号