空间数据错位下的协同解聚与不确定性量化：一种贝叶斯框架

《Environmetrics》：Coherent Disaggregation and Uncertainty Quantification for Spatially Misaligned Data

【字体：大中小】 时间：2026年02月16日 来源：Environmetrics 1.7

编辑推荐：

　　空间数据常因收集尺度或方式不同而错位，传统聚合或对齐方法会损失点级信息并引入偏差。本文提出了一个创新的贝叶斯解聚框架，利用集成的嵌套拉普拉斯近似(INLA)和迭代线性化积分方案，将错位数据与连续域模型连接。该框架包含四种处理观测数据的变体，并为不完整协变量场重构提出了三种策略，其中两种可传播不确定性。仿真研究表明，传播不确定性的方法优于值插件法，且在模型设定错误时依然稳健。该框架尤其适用于滑坡易发性建模等空间制图任务，并能与基于INLA的工具无缝集成。

本文针对空间数据错位问题，即数据集以不同空间尺度（如点、面）被聚合或收集，导致信息丢失和推断困难，发展了一个贝叶斯解聚框架。该框架旨在通过一个迭代线性化的积分方案，将错位的数据链接到一个连续域模型，此方案通过集成嵌套拉普拉斯近似(INLA)实现。框架的核心是处理四种不同观测数据类型的变体，体现了对空间信息平均程度不断增加的考量。针对不完整的协变量场情况，研究比较了三种重构策略。研究通过一个受滑坡建模启发的案例进行演示，重点关注方法论而非具体的地质过程解释。仿真结果表明，能够传播不确定性的方法在表现上优于简单的值插件法，并且在模型设定错误的情况下仍保持稳健。因此，研究得出结论，点模式的观测数据和全分辨率的协变量是更可取的，而当协变量场不完整时，具备不确定性感知的方法最为可靠。

1 Introduction

空间数据错位是一个普遍问题，源于数据在不同地点和尺度上的测量，导致支持度变更问题(COSP)。传统方法通常将数据对齐到选定的空间分区，并使用克里金法进行建模，但这会损失点级信息，并受限于所选区块结构。早期研究通过贝叶斯层次框架融合面和点参考数据，但计算负担重。近年来，越来越多的应用依赖INLA进行近似贝叶斯推断，它产生一个连续强度场，刻画了整个域上事件期望密度的空间变化。在空间点过程和连续域模型中，基于区块的推断需要对每个区块内的错位数据进行平均，这导致了聚合偏差和设定偏差。本研究的一个关键动机是与滑坡易发性建模相关，其中滑坡面常被简化为质心，然后聚合到区块计数中。这种做法丢弃了位置信息，并使不确定性传播难以处理。实践中，通常只观测到协变量场的一个有限子集，这需要与强度场联合重建或分步估计。本文旨在解决如何通过线性化在计算和模型准确性之间取得平衡、如何对聚合计数和不完整协变量场建模并纳入其不确定性、以及如何处理不完整协变量场的非线性变换带来的模型设定错误。

2 Definition of Poisson Point and Count Processes

本章节为模型建立了理论基础。研究考虑一个无标记点过程和一个有界域，但框架可扩展到有标记点过程及时空设置。首先定义了泊松点过程和泊松计数过程，分别对应点模式观测和区域上的聚合计数观测。随后给出了泊松点过程和泊松计数过程的对数似然定义。为了高效计算，研究通过三角剖分和基函数展开来近似空间随机效应，构建了一个线性预测器。在理论上，空间随机效应被定义为一个具有Matérn协方差函数的平稳高斯随机场(GRF)，并通过随机偏微分方程(SPDE)方法进行评估，采用了惩罚复杂度(PC)先验进行重新参数化。

3 Computation

本章详细阐述了计算框架。为了通过解聚解决空间错位问题，研究构造了强度贡献的泰勒近似。首先，将样本空间划分为不相交的子集，并对每个子集内的强度函数对数积分进行一阶泰勒级数近似。在给定稳定积分方案的前提下，用离散的节点和权重对积分进行离散化。定理1展示了连续和离散线性化的泰勒近似公式。因此，域贡献可以被近似计算。3.1.1节讨论了在inlabru包中实现的离散线性化方法，该方法需要进行一系列INLA运行以找到最优线性化点，并需要界定域贡献以避免数值不稳定。定理1表明，随着离散化细化，雅可比矩阵和海塞矩阵项会收敛。

接着，3.2节讨论了域划分。子集定义了结果预测中强度场的分辨率，其体积必须小于相应的聚合区域。子集是使用用户指定的网格定义的，该网格是用于通过有限元法(FEM)求解SPDE的计算工具。网格元素的质量控制了离散化空间场表示与连续域模型的接近程度。3.2.1节讨论了网格元素的形状，指出正六边形网格由于近乎圆形且能很好地拟合曲线边界，是各向同性随机场设置下的较优选择。3.2.2节讨论了数据分辨率和网格元素大小。为了准确表示相关性结构，网格元素的直径应小于相关长度。网格分辨率的选择是计算时间和近似误差之间的折衷。可以使用非均匀网格来使网格分辨率适应地理特征或数据密度。积分方案的节点密度与全分辨率栅格匹配，但其分辨率可以比网格本身更精细。

最后，3.3节评估了线性化的影响。如果预测变量是非线性的，则需要对预测变量进行进一步展开。在引入INLA的层次模型结构后，研究旨在通过比较真实模型的对数密度与线性化模型的对数密度，并计算二者之间的Kullback-Leibler(KL)散度来评估线性化的效果。定理2给出了线性化对观测对数密度差异的期望公式。定理3则给出了基于一阶和二阶泰勒展开的KL散度公式。这些散度为偏差提供了见解，非线性可能由聚合和/或预测变量表达式引起。前者可以通过针对聚合结构的网格构建来缓解，而对于后者，可以在预测变量表现出更大非线性的区域自适应地增加网格分辨率。

4 Model and Method

本章介绍了模型和方法。真实模型遵循线性预测器，观测数据可以是点模式或定义在域分区上的聚合计数。首先，4.1节阐述了使用观测插件(OP)的模型，其中线性预测器使用了在位置观测到的协变量。当线性预测器中的协变量是在域分区上聚合的协变量场时，它只是被部分观测到。此时，除了OP，可以通过联合不确定性(JU)方法将连续协变量场估计并纳入线性预测器，或者通过两步法：值插件(VP)和不确定性插件(UP)方法。具体假设是，连续协变量场被无偏地聚合，观测到的平均值是真实场在聚合区域上的积分加上高斯噪声。将协变量场视为随机变量，用先验分布建模，得到后验分布，其后验均值可作为该场的连续估计。当协变量是散落在域中的点时，估计方式类似，只是用点观测替代区域平均值。

4.3节详细描述了联合不确定性(JU)方法，它同时建模协变量场和参数。这可能带来可识别性或 multimodal 问题，但如果对协变量系数的符号有先验信息，可以通过引入指数先验分布来避免。4.4节描述了值插件(VP)和不确定性插件(UP)方法。在估计步骤中，计算协变量场的后验分布。VP方法将后验均值预测值作为已知量输入完整模型。UP方法则在第二步中纳入后验均值和空间不确定性项。从建模角度看，将噪声项视为独立同分布会导致可识别性问题，因此需要显式提供估计的精度矩阵。VP方法将不确定性转移到Matérn场噪声中，从而加快计算。而UP方法中的和不可避免地相互混淆，需要足够精细的网格来最小化非线性。对于不确定性量化，目标是在第二步中推断并纳入。

4.5节讨论了非线性(NL)设定错误下的模型失配。这是通过将线性预测器替换为非线性函数来实现的。非线性设定错误可被视为模型失配，即真实模型在协变量场上不是线性的。研究重用JU、UP和VP方法的框架，使其适应非线性设定错误，以检验这些框架在失配的非线性预测变量下的稳健性。

5 Simulation Study

本章通过模拟研究探讨网格设计、数据分辨率和模型公式如何影响计算成本和模型精度。模拟研究的灵感来源于一个简化的滑坡发生模型，其中滑坡面由其质心表示。模拟了尼泊尔上空的点模式观测。构建了两个网格进行比较，网格(i)由等边三角形组成，网格(ii)的边长约为网格(i)的1.961倍。积分方案考虑了与全分辨率栅格密度匹配的三角形网格的积分点。

研究考虑了多种模拟场景。首先是聚合场景，包括：全分辨率栅格(RastFull)、聚合栅格(RastAgg)和多边形聚合(PolyAgg)。在这些场景下，协变量输入方法称为观测插件(OP)。其次是不完整协变量场场景，针对点值(PointVal)和PolyAgg，考虑了三种方法：JU、VP和UP。最后，将场景(3)和(4)扩展到场景(5)，引入非线性设定错误。具体而言，在数据生成机制中，通过非线性函数转换协变量场，然后相应地模拟点模式和聚合计数观测。

在展示二维案例结果之前，5.3节首先使用一维示例和轮廓似然法评估了JU、VP和UP方法的稳健性，注意到JU和UP包含了不确定性传播。虽然未找到导数为零的最优值的封闭形式表达式，但数值优化显示，随着样本量增加，所有方法的轮廓后验众数都收敛于真实值。

6 Results

通过适当的评分规则比较预测准确性。研究了聚合场景下模型的性能。结果表明，点模式模型在两种评分上均优于相应的聚合计数模型。RastFull点模式模型获得了最佳评分。随着聚合尺度和不规则性的增加，每个观测类别下的评分都在变差。由于方差估计合理，RastFull和RastAgg模型的MDS评分相似。在评分分布图中，大多数平方误差集中在观测点较多的中部地区，而聚合计数模型在较小的省份由于平均效应表现出更好的DS评分。

对于不完整协变量场场景，在点模式观测下，JU方法在PolyAgg上取得了最佳MSE，而UP方法在PointVal上取得了最佳MSE。在聚合计数观测下，UP方法在PolyAgg上取得了最佳MSE，而JU方法在PointVal上取得了最佳MSE。总体而言，对于点模式，UP和JU方法表现最佳；对于聚合计数，UP方法表现最佳。这表明，在点观测下，联合建模或传播不确定性是有益的；而在聚合计数下，纳入不确定性至关重要。在非线性设定错误下，与不完整协变量场景相比，所有模型的评分都有所下降，但UP和JU方法仍然优于VP方法，展现了其稳健性。对于点模式，UP方法在PolyAgg上表现最好，JU方法在PointVal上表现最好。对于聚合计数，UP方法在两种协变量类型上都表现最好。这表明，即使存在模型失配，传播不确定性的方法依然更可靠。

7 Discussion and Conclusion

点模式观测通常优于聚合计数数据。当无法获得全分辨率协变量时，推荐使用传播不确定性的方法。非线性设定错误会降低所有模型的性能，但UP和JU方法相对更稳健。所提出的贝叶斯解聚框架通过INLA实现，有效处理了空间错位、聚合计数、不完整协变量场及其不确定性传播问题，适用于滑坡易发性建模等多种空间制图任务，并能与现有INLA工具无缝集成，为空间数据分析提供了强有力的方法论支持。

热点排行

新闻专题