用于具有缺失响应的空间自回归模型的迁移学习

《Spatial Statistics》:Transfer learning for spatial autoregressive models with missing responses

【字体: 时间:2026年02月11日 来源:Spatial Statistics 2.5

编辑推荐:

  空间自回归模型缺失响应与样本量小的联合优化方法,基于EM算法实现缺失数据填补,提出两阶段转移学习框架,创新性设计交叉验证源检测算法有效识别未知可迁移源,显著提升参数估计精度和模型鲁棒性。

  
王永奇|宋云泉
中国石油大学理学院,青岛 266580,中华人民共和国

摘要

迁移学习是一种机器学习方法,它通过利用源领域的知识来提高目标领域的性能。尽管这种方法已在回归问题中得到广泛应用,但在目标领域存在部分缺失响应数据的情况下,相关研究仍然有限。本研究通过提出一种基于EM算法的迁移学习框架,解决了空间依赖回归问题中响应数据缺失和样本量小的双重挑战。该框架首先使用EM算法处理空间自回归模型中的缺失响应数据,然后为已知源领域开发了一种两步迁移学习方法,并为未知的可迁移源开发了一种基于交叉验证的检测算法。数值模拟表明,所提出的方法在参数估计精度和模型鲁棒性方面表现出色。

引言

近年来,普通的回归模型仅能简单描述变量之间的回归关系,已不足以解决具有空间依赖性的回归问题。空间自回归模型(SAR)不仅描述了变量之间的回归关系,还考虑了数据之间的空间依赖性,因此被广泛应用于各个领域的实际问题中。该模型最初由Cliff和Ord(1970年)提出。然而,大多数关于空间模型的研究都是基于没有缺失数据的前提进行的,针对存在缺失数据情况的研究极为稀少。因此,我们专注于具有缺失数据的空间自回归模型的研究问题。
到目前为止,Horvitz和Thompson(1952年)提出了插补方法和逆概率加权方法来解决经典线性回归模型中的数据缺失问题。然而,对于包含空间滞后项的SAR模型,这两种方法可能导致参数估计不一致。为了解决空间效应带来的挑战,Wang和Lee(2013年)提出了三种在缺失数据情况下估计SAR模型的鲁棒方法,即广义矩方法(GMM)、非线性最小二乘法(NLS)和基于插补的两步最小二乘法(I2SLS)。Luo等人(2021年)在响应变量随机缺失的假设下,开发了一种结合I2SLS估计器和逆概率加权(IPW)方法的一致估计器。此外,LeSage和Pace(2004年)提出了一种最大似然方法,可以处理空间模型中的缺失响应,并可以使用期望最大化(EM)算法进行优化。Suesse和Zammit-Mangion(2017年)进一步发展了这种方法。
缺失数据的分析方法通常与缺失数据机制密切相关。Little和Rubin(1987年)将缺失数据机制分为三种类型:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)。具体来说,MCAR表示数据由于随机因素而缺失,并且与任何变量无关;MAR表示数据仅依赖于可观测变量,与不可观测变量无关;NMAR表示缺失数据受到可观测变量和不可观测变量的共同影响。鉴于MAR机制在实际应用中的普遍性和易处理性,本文重点讨论在MAR假设下的缺失数据分析。
迁移学习作为一种先进的机器学习方法,能够有效地在源领域和目标领域之间传递知识,从而显著提高目标任务的性能。其理论基础可以追溯到早期的机器学习研究。Pratt(1992年)的开创性工作首次引入了基于神经网络的迁移学习方法。该方法通过调整源任务网络的权重来加速目标问题的学习过程,建立了第一个系统化的跨任务知识传递框架,有效提高了学习效率。
最近的研究在高维统计建模方面取得了关键进展,提出了一系列先进的迁移学习方法。Li等人(2022年)创新性地提出了Trans-Lasso框架,用于线性回归,通过整合目标模型和相关辅助样本的数据。该框架首先仅使用源数据估计参数,然后进行目标数据驱动的偏差校正。值得注意的是,它包含了一种自动识别可迁移源数据集的机制。在此基础上,后续研究在扩展这种两步方法方面取得了实质性进展。Sun和Zhang(2023年)为广义线性模型开发了自适应方法,设计了针对已知源和需要源识别的情况的专用算法。随后,Tian和Feng(2023年)修改了核心架构,在初始参数估计阶段整合了源数据和目标数据。这些共同进展牢固地确立了迁移学习作为回归分析中的强大方法,两步框架成为推动当代研究的主要范式。
迁移学习和缺失数据插补研究都取得了显著进展,但将这两种方法结合起来的综合研究仍然很少。为了解决样本量有限时SAR模型参数估计性能差的问题,本研究提出了一种创新的迁移学习解决方案。该方法首先使用EM算法对缺失响应值进行插补,以构建完整的目标领域数据集。在此基础上,它通过迁移学习技术有效利用源领域信息,显著提高了目标领域的模型性能。
图1提供了本文提出的算法概念框架的总体概述。我们提出方法的创新点和优势体现在以下三个方面:
(1) 我们提出了一种专门为具有缺失响应的SAR模型设计的EM算法,通过迭代优化实现数据插补。
(2) 针对SAR模型中缺失数据和样本量小的双重挑战,我们开发了一种“插补-然后迁移”的算法。
(3) 为了解决未知可迁移源领域的实际问题,我们设计了一种源检测算法,以有效识别可迁移源并防止因负迁移导致的性能下降。
本文的结构如下。第2节提出了一种创新的混合建模框架,首先使用EM算法解决空间自回归模型中的缺失数据问题,然后结合迁移学习技术应对小样本挑战。特别是对于具有未知迁移源的复杂情况,我们开发了一种基于交叉验证的源领域检测算法。第3节进行了系统的蒙特卡洛模拟和实证研究,全面评估了所提方法与其他算法在不同维度参数空间下的性能差异。第4节总结了方法论贡献,并深入讨论了缺失数据背景下迁移学习理论的未来研究方向。

小节片段

具有缺失响应的空间自回归模型

我们考虑以下SAR模型 y=ρWy+Xβ+?, 其中 yRn×1 是响应变量, ρ 是空间参数, WRn×n 是空间参数矩阵, XRn×p 是自变量, βRp×1 是回归系数向量, ? 是均值为0、协方差矩阵为 的随机误差项。 与普通线性回归模型相比,SAR模型可以直接捕捉空间依赖性,从而实现更准确的参数估计并提高预测精度。

仿真研究

在本节中,我们对两种情况进行了仿真实验:一种是迁移源已知的情况,另一种是迁移源未知的情况。目的是全面评估基于EM算法的SAR模型中缺失响应数据的迁移学习算法的性能。我们的验证框架结合了模拟数据集和真实数据集。所有实验都在R语言中实现。本文关注的是涉及高维稀疏数据的情况。

结论

本研究提出了一种创新解决方案,用于解决具有空间依赖性的小样本场景中的缺失数据问题。首先,我们创造性地将EM算法与迁移学习结合,开发了一种新颖的两步处理算法:第一步使用EM算法进行缺失数据的迭代插补,第二步利用可迁移的源领域信息在小样本条件下提高参数估计的准确性。

CRediT作者贡献声明

王永奇:数据分析、解释以及手稿的准备和编辑。 宋云泉:研究构思和设计、方法论的开发。

资助

他们的研究得到了国家重点研发计划(2021YFA1000102)、山东省自然科学基金(ZR2024MA074)、教育部人文社会科学项目(24YJA910003)以及中央高校基本科研业务费(编号23CX03012A)的支持。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号