一种简约的方法用于预测收入分布

《Journal of Development Economics》：A parsimonious approach to predicting income distributions

【字体：大中小】 时间：2026年02月03日 来源：Journal of Development Economics 4.6

编辑推荐：

　　收入与消费分布的全球预测模型研究。本文提出一种基于GDP、婴儿死亡率、预期寿命和农村人口比例等简单国家变量的回归模型，通过leave-one-out交叉验证和误差分析，验证其预测全球168个国家收入与消费分布的准确性。结果显示，该模型预测误差（MAE约30%）虽较大，但优于复杂机器学习模型，且在数据匮乏国家仍保持较高适用性。研究证实基础人类发展指标能有效解释跨国收入分布差异，并成功应用于全球贫困测算。

丹尼尔·格尔斯松·马勒（Daniel Gerszon Mahler）| 玛尔塔·肖赫（Marta Schoch）| 克里斯托夫·拉克纳（Christoph Lakner）| 明聪·阮（Minh Cong Nguyen）

世界银行，美国

摘要

本文提出了一种方法，通过简单的回归分析，利用少量国家级变量来预测世界上所有国家的收入和消费分布。为了拟合模型，分析使用了来自世界银行贫困与不平等平台（Poverty and Inequality Platform）的168个国家的约2000份家庭调查数据。我们采用了来自多个数据库的1000多个经济、人口和遥感预测变量来测试这些模型。最终选出的模型在样本外准确性、简洁性以及适用国家数量方面取得了平衡。研究发现，一个基于人均国内生产总值（GDP）、5岁以下儿童死亡率、预期寿命和农村人口比例的简约模型，其预测准确性与使用1000个指标的复杂机器学习模型几乎相当。这组与人类发展相关的基本指标能够解释大多数国家间的收入分布差异，即使在数据极度匮乏的情况下也能有助于进行分配分析。

引言

家庭调查对于衡量贫困状况和制定分配政策至关重要，但在许多国家，由于统计能力不足、冲突或资源缺乏，这些调查并未进行。在其他情况下，虽然收集了家庭调查数据，但并未与研究人员和政策制定者共享（Dang等人，2019年；Ekhator-Mobayode和Hoogeveen，2022年）。数据的缺失对较贫穷的国家影响尤为严重，因此在全球或跨国分析中忽视这些国家或未能充分考虑其情况会导致结果偏差。

我们通过开发一种方法来填补这一空白，该方法通过简单的回归分析，能够为每个国家预测出具有可信分布特征的年收入和消费（即福利）分布。该方法利用了在国家层面广泛可用的社会经济指标，且无需任何特定国家的相关家庭调查数据。我们明确寻找一个易于应用且适用于数据最匮乏国家的简单模型。通过利用世界银行贫困与不平等平台（PIP）中168个国家1991至2020年的近2000份家庭调查数据，我们发现这样的模型几乎可以达到与复杂机器学习模型相同的预测精度。这组基本指标解释了大多数国家间的收入分布差异，即使在数据严重不足的情况下也能辅助进行分配分析。

引言（续）

家庭调查是衡量贫困和制定分配政策的关键工具，但在一些国家由于统计能力不足、冲突或缺乏资源而无法进行。此外，即使收集到了家庭调查数据，也往往不与研究人员和政策制定者共享（Dang等人，2019年；Ekhator-Mobayode和Hoogeveen，2022年）。数据的缺失对贫困国家的影响尤为严重，这会导致全球或跨国分析结果的偏差。

我们通过开发一种方法来克服这些挑战，该方法能够利用简单的回归分析为每个国家预测出具有可信分布特征的年收入和消费（即福利）分布。该方法利用了在国家层面广泛可用的社会经济指标，且无需任何特定国家的相关家庭调查数据。我们专注于寻找一个易于应用且适用于数据最匮乏国家的简单模型。为此，我们利用了世界银行贫困与不平等平台（PIP）中168个国家1991至2020年的近2000份家庭调查数据，这些数据涵盖了人均每日福利（以购买力平价美元表示）的分布情况。

我们依次从样本中剔除一个国家，然后利用剩余的167个国家及各种预测变量来预测该国的福利分布。作为潜在的预测变量，我们筛选了来自多个数据库的1000多个候选变量，其中包括遥感数据。通过对每个有数据的国家重复这种留一法交叉验证，我们比较了预测分布与基于调查的分布结果，选择那些预测误差最小的模型。

研究发现，一个基于人均GDP、5岁以下儿童死亡率、预期寿命和农村人口比例的简单模型能够很好地预测福利水平，而且增加更多变量并不会带来显著的提升。人均GDP被证明是预测福利的最佳指标，即使在数据匮乏的国家也是如此。尽管调查数据与国民账户数据之间存在差异（Deaton，2005年；Pinkovskiy和Sala-i-Martin，2016年；Deaton和Schreyer，2022年；Prydz等人，2022年），以及专制国家中GDP测量存在的问题（Martinez，2022年），但在缺乏家庭调查数据的情况下，GDP仍能提供有关福利的重要信息。然而，大约一半没有基于调查的贫困估计数据的国家也缺乏GDP数据。对于这些国家，我们使用世界银行的收入分组作为替代指标，从而形成了两种不同层次的模型。

除了GDP之外，预测福利水平的关键变量还反映了人类发展的基本指标。这些指标通常与货币发展指标相对比，或作为其补充，例如在人类发展指数或多维贫困与福祉指标中。尽管人类发展和经济福祉的衡量标准确实反映了不同的概念，但我们的分析表明，在全球范围内，它们能够较好地反映平均收入水平。

相比之下，人均GDP和人类发展指标都无法预测福利分配的不平等程度。实际上，只有国家所属的区域才能预测不平等情况。这可能令人惊讶。例如，一个在免疫政策上投入巨大的国家可能会提高最落后人群的发展水平，从而减少整体不平等。然而，我们的研究结果表明，要么这些政策对其他收入水平的群体有正面影响，要么实施这些政策的国家整体增长率较高，从而惠及整个社会。也有可能是福利汇总数据中的测量误差扭曲了不平等程度，使得从数据中提取有意义的信息变得困难。

我们提出的两种模型相比基于遥感数据（如夜间灯光、植被等）的模型表现更好，后者在模型中添加后并未显著降低样本外误差。总体而言，遥感数据在国家层面的福利预测能力不如GDP，这与研究表明遥感数据得出的家庭福利估计可能与基于调查的数据有很大差异（Van der Weide等人，2024年）一致。这表明，使用容易获取的简单模型往往优于使用复杂模型的方法，尤其是对于某些政策制定者来说，复杂模型可能在技术和时间上更具挑战性。

我们推荐的模型用于预测收入或消费的平均绝对偏差误差约为30%。虽然这个误差较大，但需要将其与适当的基准进行比较。对所有1000多个潜在预测变量进行随机森林分析并未降低样本外误差，说明剩余误差可能是不可减少的。此外，在全球范围内，30%的误差相对于巨大的福利差异来说并不显著：

我们样本中最富裕国家的福利中位数是最贫穷国家的100多倍，第75百分位数的中位数是最贫穷国家的5倍。

我们对所有国家应用推荐的模型来估计全球贫困情况，并将结果与世界银行发布的贫困估计数据进行对比。总体而言，这些模型在预测贫困率方面表现良好，但也存在一些例外。这些误差部分是由于各国之间以及同一国家不同时期的贫困估计值不可比造成的，但也与建模误差有关。

我们的模型有多种实际应用场景。首先，研究全球贫困或其他福利统计数据需要所有国家的数据。其次，各国发展机构（如英国国际发展部（Department for International Development，2016年）和USAID（Crosswell，2015年）在分配援助时需要全球各国的贫困估计值。第三，研究人员或数据生产者经常使用快速估计的贫困数据来验证新估计值或基于旧数据的预测。然而，如果需要准确估计某个没有调查数据的国家的贫困情况，那么一个更复杂、更详细的模型显然更为合适。

长期以来，学者们一直在尝试克服数据缺失的问题，并在信息有限的情况下预测分布情况。当某个时间点的福利调查数据不可用时，可以使用调查间的插补方法（Roy和Van der Weide，2025年；Stifel和Christiaensen，2007年）。或者，可以利用国民账户数据将过去的福利数据向前推算（Mahler等人，2022年；Angrist等人，2021年）。当有分组数据或汇总统计信息时，也可以估计完整的分布情况（Chen，2018年；Chotikapanich等人，2012年；Eckernkemper和Gribisch，2021年；Jorda和Ni?o-Zarazúa，2019年；Hajargasht等人，2012年）。对于缺乏消费或收入数据但有人口与健康调查（Demographic and Health Survey）数据的国家，可以使用财富指数来预测完整分布（Filmer和Prichett，2001年；Dang等人，2019年）。然而，所有这些方法至少需要一个基于调查的福利数据，因此不适用于完全没有调查数据的国家。

在缺乏调查数据的情况下，遥感数据和手机数据被用来预测平均福利水平、贫困率和其他分配统计指标（Blumenstock等人，2015年；Pinkovskiy和Sala-i-Martin，2016年；Pokhriyal和Jacques，2017年；Lee和Braithwaite，2022年；Engstrom等人，2022年）。然而，这些方法无法预测完整分布。鉴于跨国研究中使用的多种贫困线和福利衡量标准（Jorda等人，2023年；Decerf和Ferrando，2022年；Kanbur等人，2022年；Jolliffe和Prydz，2021年；Kraay等人，2023年），预测完整分布的优势在于它们可以应用于所有这类研究。此外，遥感数据的时间跨度有限，无法反映长期趋势，且并不总是公开可用，因此实际应用较为困难。

本文的其余部分结构如下：第2节介绍数据和方法，第3节介绍模型，第4节展示结果，第5节进行稳健性检验，第6节将模型应用于全球贫困测量，第7节总结。

数据

我们的主要数据来源是世界银行贫困与不平等平台（PIP）中提供的关于可支配收入或消费的家庭调查数据。我们使用了1991至2020年间168个国家的1989份调查数据。由于20世纪90年代之前的数据质量较差（尤其是对于低收入和中等收入国家），我们排除了这些数据。数据已尽可能标准化，但在数据收集方法和福利汇总是基于收入还是消费方面存在差异。

分布假设

为了确保预测的累积分布函数（CDF）表现良好，设定一个分布假设是有帮助的。尽管对应用研究中常用的分布是双参数的对数正态分布（例如Bergstrom，2022年；Kraay和Van der Weide，2022年；Soergel等人，2021年），但我们发现对数逻辑分布（也称为Fisk分布，Fisk，1961年）的拟合效果略好（见第5.1节）。

结果

我们的首要目标是选择用于第一层模型的主要变量。为此，我们根据方程（4）依次使用一个候选协变量进行分位数回归，替换方程中的

\ln (G D P) 。图3展示了由此产生的误差。

稳健性检验

本节进行了五项稳健性检验。首先，我们使用其他分布方法预测福利分布；其次，我们使用机器学习预测贫困率；第三，我们利用收集到的所有指标灵活预测分布；第四，我们讨论了预测变量的可操控性可能对结果产生的影响；最后，我们考察了首选模型在相关子样本中的表现，以探讨是否存在特殊情况。

应用于全球贫困测量

我们将模型应用于1991至2020年间全球所有国家，以测量全球贫困情况。我们使用了国际贫困线（每天2.15美元，即低收入国家的中位贫困线）、中高收入国家的中位贫困线（6.85美元）和高收入国家的中位贫困线（24.35美元，Jolliffe等人，2024年）。在某些变量数据缺失的情况下，我们找到了替代值。

结论

本文提出了一种在数据匮乏情况下估计福利分布的方法。在较贫穷和脆弱的国家，数据缺失问题更为严重，这些国家可能由于冲突、资源缺乏或制度不完善而难以进行数据收集，但监测生活条件变化的工作至关重要。尽管全面的家庭收入和消费调查仍是衡量家庭福利的最佳方式，但我们提供了一种替代方法。

CRediT作者贡献声明

丹尼尔·格尔斯松·马勒（Daniel Gerszon Mahler）：负责写作、审稿与编辑、可视化、方法论研究和正式分析。玛尔塔·肖赫（Marta Schoch）：负责撰写初稿、项目管理、调查、正式分析及数据整理。克里斯托夫·拉克纳（Christoph Lakner）：负责监督、资源获取和概念构建。明聪·阮（Minh Cong Nguyen）：负责写作、审稿与编辑、软件开发和数据整理。

摘要

引言

引言（续）

数据

分布假设

结果

稳健性检验

应用于全球贫困测量

结论

CRediT作者贡献声明

热点排行