协变量偏移下机器学习系统性能影响的决策支持框架:估计、监控与模型生命周期管理

《Decision Support Systems》:A decision support framework for estimating the impact of covariate shift in machine learning systems

【字体: 时间:2026年02月16日 来源:Decision Support Systems 6.8

编辑推荐:

  本篇综述针对机器学习部署中的协变量偏移(Covariate Shift)问题,提出了一种数据驱动的决策支持系统(DSS)框架。该框架旨在无需目标(Target)集标签或重新训练模型的情况下,估计模型性能、监测偏移危害性,并指导模型维护决策,从而应对动态环境中因数据分布变化带来的预测偏差风险。

  
亮点(Highlights)
  • 我们提出了一个决策支持系统(DSS)框架,用于在协变量偏移(Covariate Shift)下估计机器学习模型的性能。
  • 我们评估了用于估计目标(Target)集性能的多种加权方法。
  • 在单一协变量偏移下,最近邻匹配(Nearest Neighbor Matching)的性能优于密度比拟合(Density Ratio Fitting)。
  • 我们的方法能够在不依赖目标(Target)集标签的情况下,识别有害的(Malignant)偏移。
  • 在模拟和真实世界的客户流失预测(CCP)研究中,该框架都得到了验证。
1. 引言
预测模型正越来越多地被集成到教育数据挖掘、制造业和客户流失预测(CCP)等领域的决策支持系统(DSS)中。然而,模型一旦部署,往往运行在数据分布随时间演变的动态环境中。尽管这些模型具有重要的实践意义,但大多数决策支持系统(DSS)缺乏系统性的部署后模型维护(Post-deployment Model Aftercare)——即在模型部署后,对模型进行监控和更新以适应变化条件的过程。最近的报告强调了这种对模型维护认知的缺乏:只有15%至45%的公司了解其模型需要更新的频率,只有三分之一的公司建立了调查模型“可信度”的实践。即使公司意识到模型维护的必要性,大多数也是基于直觉(或简单的启发式方法)来重新训练模型,而不是考虑时间、成本或决策框架的变化等因素。这是令人担忧的,因为最近的研究将分布偏移确定为部署机器学习模型的主要风险之一。从商业角度来看,识别模型性能的变化也很重要,因为诸如十分位提升(Top Decile Lift, TDL)等模型评估指标直接与客户流失预测(CCP)等场景的盈利能力挂钩。因此,我们提出了一种可以添加到决策支持系统(DSS)中的部署后步骤,该步骤能在没有目标(Target)标签的情况下估计模型在未见数据上的性能,以确定模型再训练的必要性。
从理论角度看,部署后维护的需求与可能发生的几种偏移类型有关。从数学上定义,协变量偏移(Covariate Shift)是指输入数据S(x) ≠ T(x)的底层分布从源(Source)数据集变为将应用模型的目标(Target)数据集,但预测模型S(y|x) = T(y|x)保持不变(参见公式(1));标签偏移(Label Shift)是指输出分布(y)发生变化,但(x|y)保持不变(参见公式(2));概念漂移(Concept Drift)是指(y|x)发生变化,但(x)保持不变。在下文中,我们重点关注协变量偏移或输入数据的非平稳性。正如多项研究所指出的,如果没有相同后验分布(y|x)的假设,仅使用标记的源(Source)数据来校正协变量偏移是不可能的,因为真实的目标(Target)标签是未知的。
在决策支持系统(DSS)中处理协变量偏移有几种方式,主要分为三大类:(1)创建更稳健的训练模型,例如通过对抗学习寻找域不变空间,或使用更稳健或保守的算法;(2)基于未标记y数据的目标(Target)分布,通过加权过程来适应或重新训练模型;或(3)使用标记的y数据在目标(Target)分布上重新训练模型。考虑到y的标记数据通常不可用,并且预先找到稳健的度量可能很困难,大多数文献都集中在选项2上,即通过根据目标(Target)集分布重新加权源(Source)观测值来训练模型。然而,协变量偏移本身并不一定意味着性能恶化,决策支持系统(DSS)应考虑可能根本不需要重新估计。事实上,偏移可能发生在不太相关的输入变量上,从而使危害性降低,或者发生在模型预测性能更强的区域。关于协变量偏移危害性的研究很少,需要更多关于决定偏移影响先验估计的不同因素的见解,因为这一研究方向才刚刚开始出现。因此,我们提出了一个决策支持系统(DSS),以扩展和形式化检测偏移危害性的方法,定义该方法何时有效,并指导建模者在二进制预测问题中决定何时更新模型。我们使用几种加权机制,通过估计目标(Target)集上的性能来深入了解协变量偏移的危害性。总体而言,本研究旨在回答以下研究问题:
RQ1: 我们如何建立一个决策支持系统(DSS)来监控偏差并检测在协变量偏移下部署的机器学习模型中的有害(Malignant)偏移?
RQ2: 在不同类型的协变量偏移下,估计目标(Target)集性能的最佳加权方法是什么?
RQ3: 所提出的方法能够更准确地逼近协变量偏移下目标(Target)集性能的边界条件是什么?
通过回答这些问题,我们提供了若干贡献。首先,我们是第一个提出用于模型评估的决策支持系统(DSS),使我们能够跟踪可能有害的协变量偏移,这将分布偏移的监控扩展到对模型在目标(Target)数据上预期性能的监控(即估计源(Source)数据和目标(Target)数据性能之间的“差距”)。这种方法允许在不必要时不重新估计机器学习模型,但仅在学术界受到少量关注。其次,我们通过评估多种现有分布加权方法对不同类型协变量偏移的影响,比较了它们在性能和速度方面的表现(第4节)。这种方法的整体比较为我们如何建立决策支持系统(DSS)提供了信息。第三,我们通过在大规模模拟中研究协变量偏移的数量和严重性(与数据集特征相结合)的影响,扩展了先前关于偏移危害性的有限研究(第5节)。这是一个重要的扩展,因为现实情况通常涉及同时发生的多个偏移。最后,我们不仅使用了模拟,还在客户流失预测(CCP)背景下的五个大型真实世界数据集中展示了我们提出的框架的适用性和性能。这证明了所提出的决策支持系统(DSS)在大型复杂数据集上的适用性,与以往使用变量数量有限的相对较小数据集的研究形成对比。
2. 文献综述
我们将在下文及表1的A组中讨论与校正协变量偏移相关的文献,而表1的B组展示了一些与估计协变量偏移下目标(Target)性能相关的具体论文。该表显示了校正发生的时间(在模型构建期间还是评估期间),是否评估了目标(Target)集上估计性能与实际性能之间的差距,是否应用了稳健性检验,使用了哪种协变量偏移校正方法等。
3. 方法论
在本节中,我们将解释我们提出的决策支持系统(DSS)框架,并介绍用于测试我们方法论的不同研究。
3.1. 设置
模拟基于一个包含10,000个观测值的源(Source)数据集,该数据集由两个随机生成的特征A和B(服从正态分布)组成,这些特征将受到协变量偏移的影响:dS~ N([0, 0]T, [[1, 0], [0, 1]]),以及第三个特征C,其分布为N(0, 3)。第三个特征不会受到协变量偏移的影响。因变量是从伯努利分布中抽取的,概率 = 1 / (1 + e-(2A+2B+C))。这些数据将用作后续研究的训练(Training)集和参考(Reference)集。
4. 模拟研究1:单一协变量偏移下的方法比较
4.1. 设置
模拟基于一个源(Source)数据集...
4.2. 结果
我们在四种场景下考虑我们提出的框架。也就是说,我们将为参考(Reference)数据集中的观测值估计一个重要性分数,并使用它来加权评估指标。重要性分数仅取决于协变量x的输入向量及其边缘分布,并确保给予参考(Reference)集观测值的权重根据目标(Target)集输入分布进行系统调整。我们比较了文献中发现的不同加权方案...
5. 模拟研究2:多重协变量偏移下的边界条件
5.1. 设置
模拟研究1表明,我们的决策支持系统(DSS)在不同类型的协变量偏移下都有效,但每个场景仅包含一个偏移变量和一种协变量偏移类型。在本节中,我们研究当多个偏移同时发生时,我们的决策支持系统(DSS)是否仍然有效。我们设置了一个模拟研究,允许多个参数一起变化(所有参数概述见表5)。首先,我们生成1000个包含10,000个观测值的源(Source)数据集,将其分为训练(Training)集和...
6. 案例研究:真实世界客户流失预测
模拟研究1和模拟研究2的结果表明,基于加权参考(Reference)集的模型性能估计,比基于未加权参考(Reference)集的估计效果更好。现实应用通常更为复杂,因为底层的偏移是无法观测的。因此,我们在现实世界情境中评估了我们所提出框架的实用性,特别是在客户流失预测(CCP)中。客户流失预测(CCP)是客户关系管理的关键组成部分...
7. 结论与讨论
在本文中,我们研究了二进制预测问题中的协变量偏移现象,并构建了一个决策支持框架来估计偏移的严重性和危害性。我们为相关领域的研究做出了贡献,这些研究探讨了如何在协变量偏移下估计目标(Target)性能。我们通过评估估计协变量偏移危害性及其对目标(Target)性能估计影响的方法,扩展了先前的工作,研究了...
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号