基于随机森林与分位数回归森林模型的宾夕法尼亚州室内氡暴露均值、变异性与不确定性量化

《Scientific Reports》：Quantifying mean, variability, and uncertainty in indoor radon exposure in Pennsylvania using random forest and quantile regression forest models

【字体：大中小】 时间：2026年03月06日 来源：Scientific Reports 3.9

编辑推荐：

　　本文聚焦室内氡暴露评估精度不足的难题。研究人员运用随机森林与分位数回归森林模型，整合地质、气象与建筑数据，在邮编区划水平上预测了氡浓度的均值、变异性及高暴露分位数。结果揭示，平均暴露水平中等的地区仍可能存在极端高值点，为精准风险评估与干预策略制定提供了新框架。

在公共健康与环境暴露科学领域，氡（Radon）是一种天然产生的放射性气体，它无色无味，却潜伏在无数的住宅和建筑中。作为非吸烟者罹患肺癌（lung cancer）的首要致病因，氡对健康的威胁早已被科学界证实。然而，尽管风险明确，公众和决策者面对的实际挑战是：我们并不确切知道风险“藏”在哪里。长久以来，对氡暴露的评估大多停留在州、县等行政区划的平均水平。这种“一锅端”的平均值地图，如同一幅分辨率极低的照片，抹平了社区内部、甚至邻里之间的巨大风险差异。一个县的平均氡浓度“安全”，是否意味着县内每个家庭的暴露水平都安全？答案很可能是否定的。这种评估方法的局限，使得我们可能错失识别“热点”区域的机会，也让基于人群的健康研究难以建立精确的暴露-反应关系。为了绘制一幅更清晰、更精细的氡暴露风险地图，来自宾夕法尼亚州的研究团队进行了一项开创性的研究。

研究人员开展了一项旨在精细量化室内氡暴露的研究。他们核心要回答的问题是：能否超越传统的平均值估计，在更小的地理尺度上（邮编区划，ZCTA），同时捕捉氡暴露的典型水平（均值）、内部差异（变异性）以及极端高暴露风险（高分位数）？为了解决这个问题，他们采用了两种先进的机器学习模型：随机森林（Random Forest, RF）和分位数回归森林（Quantile Regression Forest, QRF）。研究团队收集并处理了超过71.8万条（n = 718,111）室内氡气测试数据作为基础，并整合了地质结构、气象条件以及建筑特征（如房屋类型、建造年代）等多源数据，构建预测模型。这项研究不仅估算了每个ZCTA的平均氡浓度，还首次系统性地评估了每个区域内部暴露水平的波动性，并利用QRF模型预测了如第90分位数（即只有10%的测试值会高于此水平）的高暴露水平。研究发现，许多地区虽然平均暴露值处于中等或较低范围，但其内部变异性很高，且存在被平均值掩盖的极端高值点位。这意味著，仅依赖平均值的风险评估策略是不充分的，可能会低估局部地区居民面临的真实健康风险。这项成果为制定更具靶向性的氡缓解策略和开展更精准的环境流行病学研究提供了关键的工具和见解。相关论文发表在《Scientific Reports》期刊上。

为开展此项研究，作者主要应用了以下几种关键技术方法：首先，研究基于大规模室内氡测试数据（样本量n = 718,111）构建分析队列。其次，采用了机器学习中的集成学习算法，包括用于预测平均暴露水平的随机森林（RF）模型，以及用于估计暴露分布不同分位数（如中位数、第90百分位数）的分位数回归森林（QRF）模型。再者，研究引入了波动性分析（volatility analyses）来识别与室内氡暴露高变异性相关的特征。最后，所有预测和评估均在邮编区划（ZCTA）这一精细地理尺度上进行，实现了暴露评估的空间细化。

模型构建与评估

研究人员整合了多维数据集，构建了RF和QRF模型。通过模型拟合优度评估，他们发现用于估算ZCTA水平平均氡暴露的模型能够取得良好的预测效果。这证实了机器学习模型利用地质、气象和建筑特征来预测区域平均氡浓度的可行性。

平均估计的局限性

然而，研究明确指出，仅提供平均暴露估计的模型存在重大缺陷：它们无法捕捉一个ZCTA内部室内氡暴露的底层变异性。这意味着，两个平均估计值相同的区域，其内部每家每户暴露水平的波动范围和分布形态可能截然不同，而这一点对风险评估至关重要。

暴露变异性的识别

为了解决上述局限，研究者进行了波动性分析。该分析成功识别出那些指示室内氡暴露具有高变异性的特征。这表明，通过特定的地质或建筑因素组合，可以预测哪些地区更可能出现暴露水平的巨大差异，即使其平均浓度并不突出。

高分位数暴露的揭示

研究进一步展示，QRF模型能够被用来估计住宅氡暴露的上分位数（如较高的百分位数）。这一方法的应用，揭示了许多在平均估计中并不明显的局部高暴露区域。换言之，QRF模型像一台“探针”，发现了那些被“平均主义”地图所掩盖的潜在风险“热点”。

综合风险评估的意义

结果强调，需要对暴露风险进行深度表征。研究表明，那些平均暴露水平处于中等的区域，仍然可能“ harbors”极端的高浓度异常值，这对评估健康风险具有重要影响。因此，单独使用平均暴露水平可能会严重低估这些“平静”地区内部分居民实际面临的风险。

研究的结论与讨论部分系统性地总结了上述发现。首先，研究证实，结合随机森林（RF）与分位数回归森林（QRF）等多种模型，可以对一个地理区域内的氡风险进行更深层次的表征，从而能更好地识别真正的高风险区域。平均估计模型虽有价值，但不足以全面评估风险，必须辅以对变异性和极端值的分析。

其次，这项研究的结果为在精细空间尺度上制定缓解策略和检验氡暴露与健康结局之间的关联奠定了坚实基础。公共卫生部门可以依据更精细、更全面的风险地图（包含均值、变异范围和热点信息）来优化资源分配，优先对高风险“热点”进行干预和公众教育。

最后，研究者展望了未来方向。他们认为后续研究应扩展地理范围，并纳入更多环境风险因素，以建立一个更全面的风险评估框架。同时，将这种精细化的暴露评估与健康数据（如癌症发病率）进行关联，有望更准确地量化氡暴露带来的疾病负担。

总之，这项研究通过创新性地应用机器学习模型，突破了传统氡暴露评估的瓶颈，提供了同时刻画均值、变异性和不确定性的新范式。它警示我们，在环境健康风险地图上，平均值可能只是一个“平静的假象”，其下潜藏着需要被特别关注的波动与极端风险。这项成果标志着向更精准、更公平的环境公共卫生干预迈出了关键一步。

热点排行

新闻专题