《Spatial Statistics》:Geographically weighted Poisson–Tweedie model for count data
编辑推荐:
地理加权泊松-特威德模型(GWPTM)通过整合泊松-特威德分布族,解决了传统方法分布假设 restrictive 的问题,可灵活处理空间异质性计数数据中的过分散布、零膨胀和长尾行为,并已在台湾登革热数据中验证其优越性。
Vivian Yi-Ju Chen | Yi-Jin Li
国立成功大学统计系,台湾台北文山区芝南路2段64号
摘要
地理加权回归(GWR)已被积极扩展以适应计数结果,但现有方法通常依赖于限制性分布假设(例如,泊松分布、负二项分布)或两部分混合模型(例如,零膨胀模型),这些假设使估计和解释变得复杂。在这项研究中,我们提出了一种地理加权泊松-特威迪模型(GWPTM),该模型将泊松-特威迪分布族整合到GWR框架中,为空间计数数据分析提供了一种灵活的方法。通过将方差指定为均值的幂函数,GWPTM在单一框架内统一了泊松分布、负二项分布及相关计数过程。这使得模型能够自然地解释广泛的离散模式以及过多的零值和尾部行为,同时允许回归系数和分布参数在空间上变化。我们开发了一种估计函数方法用于局部参数估计和推断。模拟研究表明,GWPTM能够准确恢复空间变化的关系,有效适应异质性离散模式,并且与基准方法相比表现出有竞争力的性能以及良好的有限样本行为。将GWPTM应用于台湾登革热数据进一步展示了其实际优势,该模型在解释力和预测能力方面表现优异,并揭示了竞争方法未能捕捉到的协变量效应和分布特征的显著空间非平稳性。总体而言,所提出的GWPTM为分析空间异质性计数数据提供了一个有用且简洁的框架。
引言
空间回归技术已被广泛用于各个领域,以研究变量在地理背景下的相互关系。在这些分析中,主要关注的是数据关系中的空间异质性——即解释变量对响应的影响在空间上是不同的(Fotheringham等人,2002年;McMillen,2010年;Harris,2019年)。认识到这种空间非平稳性促进了局部建模方法的发展,这些方法允许回归参数随地理位置变化。其中,地理加权回归(GWR)是最突出和流行的方法之一,最初是为连续响应变量设计的(Brunsdon等人,1998年;Fotheringham等人,2002年)。GWR采用非参数框架,通过基于核的加权方案纳入空间邻近性,从而有效地捕捉空间变化的关系。
由于其直观的公式和可解释性,研究人员已将GWR框架扩展到适应各种结果类型,特别是计数结果。空间计数数据常见于多个领域,包括公共卫生(例如,疾病发病率)、犯罪学(例如,报告的犯罪数量)、环境监测(例如,濒危物种的目击)和交通(例如,事故频率)。此类数据由与特定空间单元相关联的非负整数组成,通常显示出大量零值和极大的正值。例如,在空间流行病学中,某些地区可能记录到零病例,而其他地区则经历重大疫情。这可能导致具有异质离散度、零膨胀和重尾行为的不对称分布,从而带来重大的建模挑战。为了解决计数数据中的分布复杂性和空间异质性问题,已经开发了几种地理加权计数回归模型。Nakaya等人(2005年)引入了地理加权泊松回归(GWPR),作为经典泊松回归的局部扩展,用于检查计数响应变量与预测变量之间潜在的空间变异性。Da Silva和Rodrigues(2014年)通过开发地理加权负二项回归(GWNBR)推广了GWPR的工作,以适当地探索具有过度离散性的计数结果,这是泊松假设(要求均值和方差相等)的常见违反。随后,Kalogirou(2016年)将零膨胀泊松建模与GWR原理相结合,提出了地理加权零膨胀泊松回归(GWZIP),以处理空间计数结果中的过多零值。最近,Da Silva和De Sousa(2023年)提出了地理加权零膨胀负二项(GWZINB)回归。这种扩展模型为分析具有额外过度离散性的数据集提供了全面的解决方案。
上述GW计数模型(GWPR、GWNBR、GWZIP、GWZINB)构成了一个用于分析具有不同特征的空间计数数据的空间异质性的工具包。所有这些技术都已在R包gwzinbr 中实现(Da Silva和De Sousa,2023年)。尽管这些技术很有用,但在将其应用于空间计数数据分析时仍存在一些问题。首先,分布结构通常是事先 固定的。GWPR继承了泊松等离散度限制,而GWNBR依赖于具有二次均值-方差结构的负二项分布。GWZIP和GWZINB分别是ZIP和ZINB族的扩展,两者都在泊松或负二项抽样过程之上施加了两部分混合结构。当离散度、偏度、过多零值或尾部行为在空间上平滑变化且不符合单一制度时,这样的预先指定结构可能不够充分。其次,GWZIP和GWZINB的两部分性质需要分别对组件进行建模,通常使用不同的线性预测变量和协变量。这增加了规范负担和解释复杂性,并且在有效局部样本量有限时可能导致局部估计不稳定。第三,由于抑制机制或底层过程的更大规律性,空间计数数据可能显示出欠离散性(Lee等人,2016年;Bonat等人,2018年),导致变异小于泊松模型所暗示的变异。虽然这一方面在生态学和流行病学研究中已有充分记录,但在GW建模文献中却鲜有关注。
除了这些特定于模型的考虑之外,一个更根本的问题是,GW计数建模仍然分散,因为不同的分布假设通常涉及不同的似然公式和估计程序。这种分散性可能会使实际实施变得复杂,尤其是在软件支持有限或基于似然的估计在数值上不稳定时(Bonat等人,2018年;Saha等人,2020年)。此外,底层数据生成机制很少事先已知,这就提出了哪个模型最适合分析给定的空间计数数据集的问题。分析师通常被迫拟合多个候选GW计数模型,并使用模型选择标准进行比较。然而,这种策略计算要求高,而且当竞争指标不一致或区分度较低时,仍可能得出模糊的结论。不同的GW计数模型也可能产生不同的结果,导致对空间变化效应的解释出现冲突。综上所述,一种灵活且统一的建模方法在实践中将非常吸引人,无需拟合多个模型并进行后续模型选择。这样的方法应保持GWR的可解释性,以探索空间变化的关系,同时为异质空间计数数据提供一致的分布基础。
泊松-特威迪(PT)分布族(Bonat和J?rgensen,2016年;Bonat等人,2018年)是一类三参数的计数分布,其中方差是均值的幂函数。这种幂均值-方差公式支持广泛的方差结构,并能适应连续的离散模式和尾部行为。另一个优点是PT族包括几种离散分布作为特例,包括负二项分布、Neyman Type A分布和泊松逆高斯分布;所有这些分布都经常用于异质计数数据分析(J?rgensen和Kokonendji,2016年;Bonat等人,2018年)。基于这个族,泊松-特威迪模型(PTM)提供了一个统一且单阶段的回归框架,无需显式的两部分潜在结构。还表明,PTM的拟合效果与传统的两部分计数模型(例如ZIP、ZINB)相当,同时简化了模型规范和解释,并提高了数值稳定性(Bonat等人,2018年)。这些属性对于地理加权计数建模特别有吸引力,因为在这些模型中,分布特征可能在空间上逐渐变化,不必符合单一的预先指定制度。
PTM的实际效用已在多个应用领域得到证明。例如,Esnaola等人(2013年)表明,基于PT的规范可以比仅基于负二项分布的模型更好地捕捉RNA-seq计数的表达动态。Signorelli等人(2021年)进一步开发了基于PT的混合效应模型,用于纵向RNA-seq数据。在交通安全研究中,Debrabant等人(2018年)和Saha等人(2020年)分别将PTM应用于黑点识别和事故频率建模。尽管对PTM的兴趣日益增加,但据我们所知,很少有研究将PT框架整合到GWR中,用于空间计数数据分析和探索空间变化的关系。
本研究的主要目标是通过将PTM扩展到GWR框架来填补方法上的空白。我们提出了一种新的建模技术,称为地理加权泊松-特威迪模型(GWPTM),它将泊松-特威迪族的分布灵活性与GWR的空间适应性结合起来。具体而言,GWPTM不仅旨在表征回归结构中的空间非平稳性,还以连贯的方式处理空间计数数据中常见的关键特征(包括过度离散、欠离散、零膨胀、重尾)。本文的其余部分组织如下:第2节介绍GWPTM框架,包括估计和推断程序。第3节我们进行模拟实验以评估GWPTM的模型性能。第4节展示了对台湾登革热数据的实证应用。最后,我们在第5节进行讨论。
模型规范
GWPTM的模型规范
非空间(全局)PTM提供了一个灵活的框架,将几种离散分布统一在广义方差结构下。设Y i 是一个计数值随机变量,i ,X i 是一个( 1 × q 预测变量向量。PTM假设Y i 来自一个名为Poisson–Tweedie的复合分布,其中给定潜在变量Y i 的条件分布是泊松分布,而Z i 遵循特威迪分布(El-Shaarawi等人,2011年;Bonat等人,2018年)。
模拟
本节评估了所提出的GWPTM在不同数据机制下的性能。我们进行了以下两个主要模拟实验。
真实数据应用
为了实证评估所提出的GWPTM并展示其实际效用,我们分析了2015年台湾台南市的登革热数据。这个数据集特别有趣,因为该市经历了数十年来最严重的登革热疫情,导致超过20,000例确诊病例,并引起了全国范围内的公共卫生关注。台湾的登革热疫情已知具有空间异质性,理解这种异质性对于设计有针对性的
讨论与结论
本研究将GWPTM引入地理加权计数建模技术工具包,作为一项新颖的补充。GWPTM通过在GWR框架内将方差表示为均值的函数(通过离散度和幂参数)来推广泊松-特威迪模型。这种公式可以适应各种均值-方差关系。因此,该模型可以灵活地捕捉计数数据的多种特征,如过度离散、欠离散、不对称性和尾部
CRediT作者贡献声明
Vivian Yi-Ju Chen: 概念化、方法论、正式分析、软件、验证、撰写——原始草稿。Yi-Jin Li: 正式分析、软件、可视化、验证。
致谢
作者感谢匿名审稿人的建设性评论和建议。本研究得到了台湾国家科学技术委员会(NSTC 113-2121-M-004-001) 的支持。