空间数据错位下的协同解聚与不确定性量化:一种贝叶斯框架

《Environmetrics》:Coherent Disaggregation and Uncertainty Quantification for Spatially Misaligned Data

【字体: 时间:2026年02月16日 来源:Environmetrics 1.7

编辑推荐:

  空间数据常因收集尺度或方式不同而错位,传统聚合或对齐方法会损失点级信息并引入偏差。本文提出了一个创新的贝叶斯解聚框架,利用集成的嵌套拉普拉斯近似(INLA)和迭代线性化积分方案,将错位数据与连续域模型连接。该框架包含四种处理观测数据的变体,并为不完整协变量场重构提出了三种策略,其中两种可传播不确定性。仿真研究表明,传播不确定性的方法优于值插件法,且在模型设定错误时依然稳健。该框架尤其适用于滑坡易发性建模等空间制图任务,并能与基于INLA的工具无缝集成。

  
本文针对空间数据错位问题,即数据集以不同空间尺度(如点、面)被聚合或收集,导致信息丢失和推断困难,发展了一个贝叶斯解聚框架。该框架旨在通过一个迭代线性化的积分方案,将错位的数据链接到一个连续域模型,此方案通过集成嵌套拉普拉斯近似(INLA)实现。框架的核心是处理四种不同观测数据类型的变体,体现了对空间信息平均程度不断增加的考量。针对不完整的协变量场情况,研究比较了三种重构策略。研究通过一个受滑坡建模启发的案例进行演示,重点关注方法论而非具体的地质过程解释。仿真结果表明,能够传播不确定性的方法在表现上优于简单的值插件法,并且在模型设定错误的情况下仍保持稳健。因此,研究得出结论,点模式的观测数据和全分辨率的协变量是更可取的,而当协变量场不完整时,具备不确定性感知的方法最为可靠。
1 Introduction
空间数据错位是一个普遍问题,源于数据在不同地点和尺度上的测量,导致支持度变更问题(COSP)。传统方法通常将数据对齐到选定的空间分区,并使用克里金法进行建模,但这会损失点级信息,并受限于所选区块结构。早期研究通过贝叶斯层次框架融合面和点参考数据,但计算负担重。近年来,越来越多的应用依赖INLA进行近似贝叶斯推断,它产生一个连续强度场,刻画了整个域上事件期望密度的空间变化。在空间点过程和连续域模型中,基于区块的推断需要对每个区块内的错位数据进行平均,这导致了聚合偏差和设定偏差。本研究的一个关键动机是与滑坡易发性建模相关,其中滑坡面常被简化为质心,然后聚合到区块计数中。这种做法丢弃了位置信息,并使不确定性传播难以处理。实践中,通常只观测到协变量场的一个有限子集,这需要与强度场联合重建或分步估计。本文旨在解决如何通过线性化在计算和模型准确性之间取得平衡、如何对聚合计数和不完整协变量场建模并纳入其不确定性、以及如何处理不完整协变量场的非线性变换带来的模型设定错误。
2 Definition of Poisson Point and Count Processes
本章节为模型建立了理论基础。研究考虑一个无标记点过程和一个有界域,但框架可扩展到有标记点过程及时空设置。首先定义了泊松点过程和泊松计数过程,分别对应点模式观测和区域上的聚合计数观测。随后给出了泊松点过程和泊松计数过程的对数似然定义。为了高效计算,研究通过三角剖分和基函数展开来近似空间随机效应,构建了一个线性预测器。在理论上,空间随机效应被定义为一个具有Matérn协方差函数的平稳高斯随机场(GRF),并通过随机偏微分方程(SPDE)方法进行评估,采用了惩罚复杂度(PC)先验进行重新参数化。
3 Computation
本章详细阐述了计算框架。为了通过解聚解决空间错位问题,研究构造了强度贡献的泰勒近似。首先,将样本空间划分为不相交的子集,并对每个子集内的强度函数对数积分进行一阶泰勒级数近似。在给定稳定积分方案的前提下,用离散的节点和权重对积分进行离散化。定理1展示了连续和离散线性化的泰勒近似公式。因此,域贡献可以被近似计算。3.1.1节讨论了在inlabru包中实现的离散线性化方法,该方法需要进行一系列INLA运行以找到最优线性化点,并需要界定域贡献以避免数值不稳定。定理1表明,随着离散化细化,雅可比矩阵和海塞矩阵项会收敛。
接着,3.2节讨论了域划分。子集定义了结果预测中强度场的分辨率,其体积必须小于相应的聚合区域。子集是使用用户指定的网格定义的,该网格是用于通过有限元法(FEM)求解SPDE的计算工具。网格元素的质量控制了离散化空间场表示与连续域模型的接近程度。3.2.1节讨论了网格元素的形状,指出正六边形网格由于近乎圆形且能很好地拟合曲线边界,是各向同性随机场设置下的较优选择。3.2.2节讨论了数据分辨率和网格元素大小。为了准确表示相关性结构,网格元素的直径应小于相关长度。网格分辨率的选择是计算时间和近似误差之间的折衷。可以使用非均匀网格来使网格分辨率适应地理特征或数据密度。积分方案的节点密度与全分辨率栅格匹配,但其分辨率可以比网格本身更精细。
最后,3.3节评估了线性化的影响。如果预测变量是非线性的,则需要对预测变量进行进一步展开。在引入INLA的层次模型结构后,研究旨在通过比较真实模型的对数密度与线性化模型的对数密度,并计算二者之间的Kullback-Leibler(KL)散度来评估线性化的效果。定理2给出了线性化对观测对数密度差异的期望公式。定理3则给出了基于一阶和二阶泰勒展开的KL散度公式。这些散度为偏差提供了见解,非线性可能由聚合和/或预测变量表达式引起。前者可以通过针对聚合结构的网格构建来缓解,而对于后者,可以在预测变量表现出更大非线性的区域自适应地增加网格分辨率。
4 Model and Method
本章介绍了模型和方法。真实模型遵循线性预测器,观测数据可以是点模式或定义在域分区上的聚合计数。首先,4.1节阐述了使用观测插件(OP)的模型,其中线性预测器使用了在位置观测到的协变量。当线性预测器中的协变量是在域分区上聚合的协变量场时,它只是被部分观测到。此时,除了OP,可以通过联合不确定性(JU)方法将连续协变量场估计并纳入线性预测器,或者通过两步法:值插件(VP)和不确定性插件(UP)方法。具体假设是,连续协变量场被无偏地聚合,观测到的平均值是真实场在聚合区域上的积分加上高斯噪声。将协变量场视为随机变量,用先验分布建模,得到后验分布,其后验均值可作为该场的连续估计。当协变量是散落在域中的点时,估计方式类似,只是用点观测替代区域平均值。
4.3节详细描述了联合不确定性(JU)方法,它同时建模协变量场和参数。这可能带来可识别性或 multimodal 问题,但如果对协变量系数的符号有先验信息,可以通过引入指数先验分布来避免。4.4节描述了值插件(VP)和不确定性插件(UP)方法。在估计步骤中,计算协变量场的后验分布。VP方法将后验均值预测值作为已知量输入完整模型。UP方法则在第二步中纳入后验均值和空间不确定性项。从建模角度看,将噪声项视为独立同分布会导致可识别性问题,因此需要显式提供估计的精度矩阵。VP方法将不确定性转移到Matérn场噪声中,从而加快计算。而UP方法中的和不可避免地相互混淆,需要足够精细的网格来最小化非线性。对于不确定性量化,目标是在第二步中推断并纳入。
4.5节讨论了非线性(NL)设定错误下的模型失配。这是通过将线性预测器替换为非线性函数来实现的。非线性设定错误可被视为模型失配,即真实模型在协变量场上不是线性的。研究重用JU、UP和VP方法的框架,使其适应非线性设定错误,以检验这些框架在失配的非线性预测变量下的稳健性。
5 Simulation Study
本章通过模拟研究探讨网格设计、数据分辨率和模型公式如何影响计算成本和模型精度。模拟研究的灵感来源于一个简化的滑坡发生模型,其中滑坡面由其质心表示。模拟了尼泊尔上空的点模式观测。构建了两个网格进行比较,网格(i)由等边三角形组成,网格(ii)的边长约为网格(i)的1.961倍。积分方案考虑了与全分辨率栅格密度匹配的三角形网格的积分点。
研究考虑了多种模拟场景。首先是聚合场景,包括:全分辨率栅格(RastFull)、聚合栅格(RastAgg)和多边形聚合(PolyAgg)。在这些场景下,协变量输入方法称为观测插件(OP)。其次是不完整协变量场场景,针对点值(PointVal)和PolyAgg,考虑了三种方法:JU、VP和UP。最后,将场景(3)和(4)扩展到场景(5),引入非线性设定错误。具体而言,在数据生成机制中,通过非线性函数转换协变量场,然后相应地模拟点模式和聚合计数观测。
在展示二维案例结果之前,5.3节首先使用一维示例和轮廓似然法评估了JU、VP和UP方法的稳健性,注意到JU和UP包含了不确定性传播。虽然未找到导数为零的最优值的封闭形式表达式,但数值优化显示,随着样本量增加,所有方法的轮廓后验众数都收敛于真实值。
6 Results
通过适当的评分规则比较预测准确性。研究了聚合场景下模型的性能。结果表明,点模式模型在两种评分上均优于相应的聚合计数模型。RastFull点模式模型获得了最佳评分。随着聚合尺度和不规则性的增加,每个观测类别下的评分都在变差。由于方差估计合理,RastFull和RastAgg模型的MDS评分相似。在评分分布图中,大多数平方误差集中在观测点较多的中部地区,而聚合计数模型在较小的省份由于平均效应表现出更好的DS评分。
对于不完整协变量场场景,在点模式观测下,JU方法在PolyAgg上取得了最佳MSE,而UP方法在PointVal上取得了最佳MSE。在聚合计数观测下,UP方法在PolyAgg上取得了最佳MSE,而JU方法在PointVal上取得了最佳MSE。总体而言,对于点模式,UP和JU方法表现最佳;对于聚合计数,UP方法表现最佳。这表明,在点观测下,联合建模或传播不确定性是有益的;而在聚合计数下,纳入不确定性至关重要。在非线性设定错误下,与不完整协变量场景相比,所有模型的评分都有所下降,但UP和JU方法仍然优于VP方法,展现了其稳健性。对于点模式,UP方法在PolyAgg上表现最好,JU方法在PointVal上表现最好。对于聚合计数,UP方法在两种协变量类型上都表现最好。这表明,即使存在模型失配,传播不确定性的方法依然更可靠。
7 Discussion and Conclusion
点模式观测通常优于聚合计数数据。当无法获得全分辨率协变量时,推荐使用传播不确定性的方法。非线性设定错误会降低所有模型的性能,但UP和JU方法相对更稳健。所提出的贝叶斯解聚框架通过INLA实现,有效处理了空间错位、聚合计数、不完整协变量场及其不确定性传播问题,适用于滑坡易发性建模等多种空间制图任务,并能与现有INLA工具无缝集成,为空间数据分析提供了强有力的方法论支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号