基于逆概率加权的可再生惩罚线性回归在含缺失协变量流数据中的应用

《Computational Statistics & Data Analysis》:Renewable Penalized Linear Regression via Inverse Probability Weighting for Streaming Data with Missing Covariates

【字体: 时间:2026年01月25日 来源:Computational Statistics & Data Analysis 1.6

编辑推荐:

  本文提出了一种针对含缺失协变量流数据的可再生加权估计方法,通过两步估计策略实现:首先建立倾向性评分参数的可再生形式,进而构建基于当前数据与历史摘要统计量的加权优化目标。该方法采用局部自适应Majorize-Minimization(LAMM)算法进行求解,结合在线滚动验证选择惩罚参数,在保证估计效率的同时显著提升计算效能并降低存储需求,为流数据分析提供了创新解决方案。

  
亮点
本文提出了一种针对含缺失协变量流数据的可再生加权估计方法,通过创新的两步估计策略实现高效分析。具体贡献包括:(i)建立基于逆概率加权(IPW)的可再生估计框架;(ii)开发结合LAMM算法和在线滚动验证的优化方案;(iii)突破传统限制条件B=O(ntk)(k<1/3)的理论约束。
含缺失协变量的加权回归
本节回顾传统加权回归处理缺失协变量的方法基础。通过逆概率加权机制,对观测数据赋予权重以校正由缺失机制引起的偏差,为后续流数据场景的扩展提供理论基础。
非凸正则化的可再生加权回归
针对连续到达的流数据特性,我们构建了包含速度层和摘要层的可再生估计框架(图1)。当新数据批次到达时,系统仅需当前数据、可再生逆概率权重和历史摘要统计量即可更新模型,有效规避全数据存储需求。该框架通过加权目标函数Q(β)的迭代优化,实现参数估计的在线更新。
理论性质
我们建立了可再生估计量β?b的一致性、变量选择相合性和渐近正态性。通过设定正则化参数满足λb→0且√Nbλb→∞的条件,证明估计量具有oracle性质,其渐近方差与完整数据情形下的最优方差一致。
数值模拟
通过与传统方法对比验证本文方法的优势:
• Oracle:基于完整数据的惩罚回归基准
• Offline:全数据惩罚IPW方法
• 所提方法在均方误差和变量选择精度方面均表现优异,同时计算效率提升显著
实际数据分析
基于UCI空气质量数据集(含PM2.5、PM10、SO2等监测指标)的实证研究表明,本方法能有效处理传感器故障导致的数据缺失问题,在流式场景下保持稳定的预测性能。
结论与展望
本文提出的可再生加权回归框架为流数据缺失值问题提供了有效解决方案。未来研究方向包括扩展至广义线性模型、考虑非随机缺失机制,以及开发更高效的分布式计算算法。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号