机器学习在灾害影响、数据稀缺环境下估计灾难性卫生支出的方法研究

《Progress in Disaster Science》:Machine learning for estimating catastrophic health spending in disaster-affected, data-scarce settings

【字体: 时间:2026年05月22日 来源:Progress in Disaster Science 3.8

编辑推荐:

  自然灾害可导致自付医疗费用增加,使脆弱家庭陷入贫困。缓解措施需要利用灾前和灾后数据理解卫生支出模式的变化,但此类数据在灾害影响环境中往往缺失,导致无法构建福利分析所需反事实量。为应对这一测量难题,研究人员开发了一种混合机器学习方法,利用印度尼西亚纵向调查数据估

  
自然灾害可导致自付医疗费用增加,使脆弱家庭陷入贫困。缓解措施需要利用灾前和灾后数据理解卫生支出模式的变化,但此类数据在灾害影响环境中往往缺失,导致无法构建福利分析所需反事实量。为应对这一测量难题,研究人员开发了一种混合机器学习方法,利用印度尼西亚纵向调查数据估计未观测的家庭卫生支出。研究人员首先围绕2006年日惹地震(数据完整可用)构建模型,使模型学习收入、灾害强度及其他特征维度的支出模式,在嘈杂复杂领域实现超过70%的准确率。经模型可迁移性检验后,将其应用于2004年印度洋海啸后的印度尼西亚数据,预测合理的基线卫生支出。这些预测用于评估海啸对卫生支出的影响,揭示若无针对性援助,灾难性卫生支出占比将从4.5%上升至29.4%,且中度受灾家庭比重度受灾家庭经历更大幅度的成本增加。通过将人工智能与家庭调查数据相结合,该框架为构建未观测福利基线提供了概念验证,可扩展至利用多模态数据的基础模型方法。
该研究发表于《Progress in Disaster Science》,旨在解决灾害影响环境中缺乏灾前基线数据、导致反事实福利分析不可行的核心经济测量问题。研究人员将可解释深度学习方法与纵向家庭调查数据相结合,重建特定经济数量——即灾前家庭卫生支出,弥补了现有文献在灾害经济学中对此问题关注不足的空白。

研究背景方面,自然灾害如海啸和地震通过伤害、疾病和心理创伤对健康造成显著损失,影响自付医疗费用。当卫生支出超过消费或收入的10%时,即达到"灾难性卫生支出"阈值,可能使家庭陷入贫困且难以摆脱。理解自付卫生支出如何响应灾害事件对于设计有效的社会保护和灾害缓解策略至关重要。但在许多中低收入国家,灾前和灾后家庭卫生支出数据稀缺,限制了准确量化这些影响的能力。

目前研究存在以下关键问题:第一,灾害影响环境中缺乏基线数据,导致无法构建反事实分析;第二,现有灾害风险评估工具主要关注基础设施和财产损害,因缺乏社会经济数据而忽视微观层面的福利影响;第三,传统预测模型多为"黑箱",缺乏透明度和可信度,限制了其在高风险政策制定中的应用。因此,开展此项研究对于填补数据缺口、推动灾害经济学方法论创新具有重要必要性。

研究方法与数据来源方面,研究使用印度尼西亚家庭生命调查(Indonesia Family Life Survey, IFLS)和海啸后果与恢复研究(Study of Tsunami Aftermath and Recovery, STAR)数据集。IFLS是1993年启动的全国性纵向研究,覆盖11个省约83%人口,研究使用2000年和2007年两期数据捕捉2006年日惹地震前后状况。STAR调查于2004年印度洋海啸后5-12个月开展,涵盖亚齐省和北苏门答腊省13个地区,基于2004年国家社会经济调查抽样框架,包含585个枚举区的525个村庄。

模型构建采用九种机器学习架构:线性回归(Linear Regression)、随机森林(Random Forest)、XGBoost、轻梯度提升机(Light Gradient Boosting Machine, LGBM)、前馈神经网络(Feedforward Neural Networks, FNN)、TabNet、孪生自注意力变换器(Siamese Self-Attention Transformer),以及两种混合模型(Hybrid FNN-LGBM和Hybrid TabNet-LGBM)。最终选定混合前馈神经网络-轻梯度提升机(FNN-LGBM)为最优模型,该模型采用堆叠泛化框架,利用FNN提取非线性和高阶特征交互,再由LGBM进行高效稳健的回归预测。

模型验证方面,研究人员采用标准化均值差异分析和倾向得分重叠检验评估模型从地震情境向海啸情境的可迁移性(Transportability)。经济计量分析使用倾向得分加权回归估计海啸对卫生支出的因果影响,处理组为遭受不同程度海啸损害的家庭,对照组为未受损害家庭。

研究结果部分,"机器学习模型开发与验证"显示,在IFLS地震数据中,FNN-LGBM模型表现最优,均方根误差(Root Mean Squared Error, RMSE)为0.056,中位绝对误差(Median Absolute Error)为0.022,识别灾难性支出家庭(卫生支出份额>10%)的灵敏度为5.5%。各模型比较表明,虽线性回归RMSE略低(0.055),但其中位误差较高(0.030)且灵敏度极低(0.9%);树模型灵敏度较高但存在过拟合;而FNN-LGBM在各分位数上表现均衡(QLoss0.25=0.498;QLoss0.75=0.507)。

"IFLS数据预地震卫生支出份额估计"利用Shapley加性解释(Shapley Additive Explanation, SHAP)分析揭示驱动因素:更高卫生支出份额的主要驱动因素为震前资产、健康状况、财富、户主受教育程度(完成高等教育或中等教育);更低卫生支出份额的主要驱动因素为家庭规模和转移支付。收入虽重要,但其效应非线性且异质。

"可迁移性评估"表明,协变量平衡分析显示64%的协变量标准化均值差异<0.25,农村位置(标准化均值差异=0.81)和农业职业(标准化均值差异=0.51)存在显著情境差异;但倾向得分分析显示99.9%的共同支持度,核心变量(教育、财富、健康状况)平衡良好。约40%的STAR家庭处于IFLS分布的农村-农业尾部,但近乎完全的倾向得分重叠支持对大多数案例的可靠预测。

"STAR数据分析:海啸前卫生支出估计"中,FNN-LGBM模型预测海啸前平均卫生支出份额为0.0481(标准差=0.0263),低于STAR观测到的海啸后均值0.0563(标准差=0.0884),预测分布范围合理(接近零至0.1462)。与世界银行基于2004年国家社会经济调查的独立估计(平均卫生支出份额3.7%)相比,模型预测值4.8%存在1.1个百分点的差异,研究人员认为在情境差异下属合理范围。预测结果也符合当时印度尼西亚农村家庭自付卫生支出高于城市家庭的一般模式。

"海啸对卫生支出影响"显示,排除海啸专项援助后,平均卫生支出份额从海啸前4.8%升至17.0%;灾难性卫生支出(卫生支出份额>0.1)家庭占比从4.5%激增至29.4%,纳入援助后降至18.3%。按财富分组,最贫困20%家庭灾难性支出占比从29.4%升至46.4%(无援助),最富裕20%家庭从0%升至17.7%(无援助)。中等损害地区家庭无论是否获得援助,其灾难性卫生支出概率均高于重度损害地区,这可能源于生存者偏差(重伤者更易溺亡)和重度损害区集中了更多间接援助(如流动诊所和免费服务)。

因果效应估计表明,无援助时,重度损害和中度损害家庭卫生支出份额分别比无损害地区高5和8个百分点;有援助时,重度损害地区与海啸前无显著差异,中度损害地区仅高1个百分点。中度损害地区家庭发生灾难性卫生支出的概率比无损害地区高6个百分点(无援助),针对性援助使该概率降低约一半。

研究结论部分指出,该研究提出的方法论框架结合预测性机器学习、可解释性方法和纵向家庭调查数据,解决了数据稀缺环境中重建未观测灾前基线数据的核心经济测量问题。研究通过灾后解释性方法确保模型透明可信,发现驱动正向自付卫生支出的因素为健康状况、教育水平和家庭财富(资产)而非收入,收入效应呈异质性非线性,提示健康干预应以实物形式而非现金转移交付更为有效。

海啸情境基线估计揭示:第一,尽管非专门针对健康,但直接面向家庭的援助能显著缓解灾后自付卫生支出增加;第二,更好的援助协调分配若聚焦于高损毁区周边区域,可改善更广泛受影响地区的卫生支出结果,同时不使重度损害家庭境况恶化。但中等损害地区更强的表面效应需谨慎解读,因生存者偏差和间接援助集中存在局限性。

该研究对全球灾害风险削减工作具有重要启示:当前灾害和气候风险模型主要由物理科学主导,经济测量若被纳入也多使用宏观指标,而本方法为填补社会脆弱性和微观经济洞察的数据空白开辟路径。框架原则上可扩展至食品安全、教育支出或劳动力市场参与等其他福利结果,以及超越高影响低概率事件的更广泛情境,但实现这一潜力需要构建跨灾害类型和情境的更大量证据基础。最终约束非机器学习方法本身,而是跨情境可比数据集的可用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号