家庭调查是衡量贫困和制定分配政策的关键工具,但在一些国家由于统计能力不足、冲突或缺乏资源而无法进行。此外,即使收集到了家庭调查数据,也往往不与研究人员和政策制定者共享(Dang等人,2019年;Ekhator-Mobayode和Hoogeveen,2022年)。数据的缺失对贫困国家的影响尤为严重,这会导致全球或跨国分析结果的偏差。
我们通过开发一种方法来克服这些挑战,该方法能够利用简单的回归分析为每个国家预测出具有可信分布特征的年收入和消费(即福利)分布。该方法利用了在国家层面广泛可用的社会经济指标,且无需任何特定国家的相关家庭调查数据。我们专注于寻找一个易于应用且适用于数据最匮乏国家的简单模型。为此,我们利用了世界银行贫困与不平等平台(PIP)中168个国家1991至2020年的近2000份家庭调查数据,这些数据涵盖了人均每日福利(以购买力平价美元表示)的分布情况。
我们依次从样本中剔除一个国家,然后利用剩余的167个国家及各种预测变量来预测该国的福利分布。作为潜在的预测变量,我们筛选了来自多个数据库的1000多个候选变量,其中包括遥感数据。通过对每个有数据的国家重复这种留一法交叉验证,我们比较了预测分布与基于调查的分布结果,选择那些预测误差最小的模型。
研究发现,一个基于人均GDP、5岁以下儿童死亡率、预期寿命和农村人口比例的简单模型能够很好地预测福利水平,而且增加更多变量并不会带来显著的提升。人均GDP被证明是预测福利的最佳指标,即使在数据匮乏的国家也是如此。尽管调查数据与国民账户数据之间存在差异(Deaton,2005年;Pinkovskiy和Sala-i-Martin,2016年;Deaton和Schreyer,2022年;Prydz等人,2022年),以及专制国家中GDP测量存在的问题(Martinez,2022年),但在缺乏家庭调查数据的情况下,GDP仍能提供有关福利的重要信息。然而,大约一半没有基于调查的贫困估计数据的国家也缺乏GDP数据。对于这些国家,我们使用世界银行的收入分组作为替代指标,从而形成了两种不同层次的模型。
除了GDP之外,预测福利水平的关键变量还反映了人类发展的基本指标。这些指标通常与货币发展指标相对比,或作为其补充,例如在人类发展指数或多维贫困与福祉指标中。尽管人类发展和经济福祉的衡量标准确实反映了不同的概念,但我们的分析表明,在全球范围内,它们能够较好地反映平均收入水平。
相比之下,人均GDP和人类发展指标都无法预测福利分配的不平等程度。实际上,只有国家所属的区域才能预测不平等情况。这可能令人惊讶。例如,一个在免疫政策上投入巨大的国家可能会提高最落后人群的发展水平,从而减少整体不平等。然而,我们的研究结果表明,要么这些政策对其他收入水平的群体有正面影响,要么实施这些政策的国家整体增长率较高,从而惠及整个社会。也有可能是福利汇总数据中的测量误差扭曲了不平等程度,使得从数据中提取有意义的信息变得困难。
我们提出的两种模型相比基于遥感数据(如夜间灯光、植被等)的模型表现更好,后者在模型中添加后并未显著降低样本外误差。总体而言,遥感数据在国家层面的福利预测能力不如GDP,这与研究表明遥感数据得出的家庭福利估计可能与基于调查的数据有很大差异(Van der Weide等人,2024年)一致。这表明,使用容易获取的简单模型往往优于使用复杂模型的方法,尤其是对于某些政策制定者来说,复杂模型可能在技术和时间上更具挑战性。
我们推荐的模型用于预测收入或消费的平均绝对偏差误差约为30%。虽然这个误差较大,但需要将其与适当的基准进行比较。对所有1000多个潜在预测变量进行随机森林分析并未降低样本外误差,说明剩余误差可能是不可减少的。此外,在全球范围内,30%的误差相对于巨大的福利差异来说并不显著:
我们样本中最富裕国家的福利中位数是最贫穷国家的100多倍,第75百分位数的中位数是最贫穷国家的5倍。
我们对所有国家应用推荐的模型来估计全球贫困情况,并将结果与世界银行发布的贫困估计数据进行对比。总体而言,这些模型在预测贫困率方面表现良好,但也存在一些例外。这些误差部分是由于各国之间以及同一国家不同时期的贫困估计值不可比造成的,但也与建模误差有关。
我们的模型有多种实际应用场景。首先,研究全球贫困或其他福利统计数据需要所有国家的数据。其次,各国发展机构(如英国国际发展部(Department for International Development,2016年)和USAID(Crosswell,2015年)在分配援助时需要全球各国的贫困估计值。第三,研究人员或数据生产者经常使用快速估计的贫困数据来验证新估计值或基于旧数据的预测。然而,如果需要准确估计某个没有调查数据的国家的贫困情况,那么一个更复杂、更详细的模型显然更为合适。
长期以来,学者们一直在尝试克服数据缺失的问题,并在信息有限的情况下预测分布情况。当某个时间点的福利调查数据不可用时,可以使用调查间的插补方法(Roy和Van der Weide,2025年;Stifel和Christiaensen,2007年)。或者,可以利用国民账户数据将过去的福利数据向前推算(Mahler等人,2022年;Angrist等人,2021年)。当有分组数据或汇总统计信息时,也可以估计完整的分布情况(Chen,2018年;Chotikapanich等人,2012年;Eckernkemper和Gribisch,2021年;Jorda和Ni?o-Zarazúa,2019年;Hajargasht等人,2012年)。对于缺乏消费或收入数据但有人口与健康调查(Demographic and Health Survey)数据的国家,可以使用财富指数来预测完整分布(Filmer和Prichett,2001年;Dang等人,2019年)。然而,所有这些方法至少需要一个基于调查的福利数据,因此不适用于完全没有调查数据的国家。
在缺乏调查数据的情况下,遥感数据和手机数据被用来预测平均福利水平、贫困率和其他分配统计指标(Blumenstock等人,2015年;Pinkovskiy和Sala-i-Martin,2016年;Pokhriyal和Jacques,2017年;Lee和Braithwaite,2022年;Engstrom等人,2022年)。然而,这些方法无法预测完整分布。鉴于跨国研究中使用的多种贫困线和福利衡量标准(Jorda等人,2023年;Decerf和Ferrando,2022年;Kanbur等人,2022年;Jolliffe和Prydz,2021年;Kraay等人,2023年),预测完整分布的优势在于它们可以应用于所有这类研究。此外,遥感数据的时间跨度有限,无法反映长期趋势,且并不总是公开可用,因此实际应用较为困难。
本文的其余部分结构如下:第2节介绍数据和方法,第3节介绍模型,第4节展示结果,第5节进行稳健性检验,第6节将模型应用于全球贫困测量,第7节总结。