《Aeolian Research》:Feature contributions and predictive modeling of aeolian sand transport detection in the atmospheric surface layer
编辑推荐:
本研究开发了基于高频风和沙粒通量测量的可解释机器学习框架,用于风沙运输事件的预测。通过对比原始风速分量、一阶统计量、脉动风速及摩擦速度(u*)和湍流强度(TI)等特征,结合SHAP解释方法量化各因子贡献,发现沿流速度分量(u)在近地表和空中高度均表现主导作用。滚动窗口分析表明30秒窗口的一阶统计量特征效果最优,而摩擦速度和湍流强度在300秒窗口中更具预测力。研究验证了该框架在提升预测精度(超越传统阈值方法)、保持物理可解释性及指导监测策略等方面的优势。
Sai Li | Wenyong Ma | Junxiang Ma | Zhibo Zhang | Kang Yang
教育部石家庄铁道大学道路与铁路工程安全控制重点实验室,中国石家庄 050043
摘要
预测大气表层(ASL)中的风沙输送过程十分困难,因为湍流驱动的间歇性会导致滞后现象和突发性的风沙跃移。本研究开发了一个可解释的机器学习框架,利用高频风速和风沙跃移通量测量数据来检测风沙输送事件。分析比较了原始速度分量、一阶统计量、波动速度以及包括摩擦速度(u?)和湍流强度(TI)在内的二阶矩导数。通过在不同平均窗口和高度上对模型性能进行基准测试,并使用SHapley Additive exPlanations(SHAP)方法来量化各个特征对模型预测的贡献。结果显示,顺流速度是最强的预测因子,在地表附近其重要性最高;而在高空由于耗散减少,信号更加清晰。一阶统计量的滚动窗口聚合方法比原始输入和时频等效方法(TFEM)具有更高的准确性,30秒的窗口长度与速度去相关时间尺度相匹配。单独使用波动速度得到的结果较差,但与一阶统计量结合使用时可以提高预测能力,其中扫动运动和向外相互作用在风沙跃移的起始过程中起主导作用。基于u?和TI的模型也能达到相当的准确率,但需要更长的窗口时间(300秒)。SHAP分析表明,来自近地面风的数据特征(包括u?、TI和波动分量)的重要性最高。总体而言,该框架提高了预测精度,保持了物理可解释性,并为风沙过程的特征选择、测量策略和大气监测提供了宝贵的见解。
引言
风沙输送是指风在大气表层(ASL)中驱动沙粒和尘埃的运动,是干旱和半干旱地区的主要地貌过程。其发生和强度主要受大气条件控制,包括风速、湍流和气候变率,这些因素影响地形演变、推动沙丘迁移和尘埃排放,并对基础设施和生态系统产生影响(Kok等人,2012年)。风沙输送的起始通常取决于一个阈值条件,通常表现为阈值摩擦速度或近地面风速(Sherman和Li,2012年)。
然而,由于颗粒运动的随机性和间歇性以及其与湍流ASL动力学的非线性耦合,现场估计这一阈值非常困难,导致不确定性很大(Lindhorst和Betzler,2016年)。这些挑战凸显了开发预测模型和进行系统特征评估的必要性,以改善我们对易受影响环境中风沙事件的理解和预测能力,包括交通走廊(Deng等人,2023年)、能源设施(Sahouane等人,2023年)和农业用地(Miri等人,2019年)。
早期关于风沙输送起始的研究主要基于受控实验室实验,其中颗粒的卷入由单一阈值摩擦速度表示。基于这一假设的典型边界层模型与风洞数据吻合良好(Creyssels等人,2009年),但这种公式往往无法捕捉自然大气表层的变异性。在野外条件下,粗糙度和地形的空间异质性改变了流动动力学,产生了与湍流通量相当的动力量平流和压力梯度。因此,单一阈值方法难以解释观测到的输送行为(Gillies等人,2018年)。
后续研究引入了流体阈值和冲击阈值之间的区别,以反映风沙跃移的滞后现象。流体阈值对应于在静止床面上的起始条件,而冲击阈值较低,反映了风沙输送一旦开始后维持输送所需的条件。尽管在概念上很有价值,但在预测模型中选择阈值的问题仍未解决,且湍流的间歇性进一步增加了复杂性(Sherman和Li,2012年)。风沙跃移是间歇性的,有效阈值会随输送强度和时间变化(Paterna等人,2016年)。这种变异性使得确定性推断变得复杂,并对模型假设的现场验证提出了挑战,尤其是在需要准确测量阈值时(Barchyn和Hugenholtz,2011年)。为了解决这种间歇性问题,开发了统计方法(如时频等效方法TFEM),从风速统计和输送活动之间的短期关系中推断有效阈值(Davidson-Arnott等人,2012年)。这些方法有所改进,但仍受限于对低频(LF)沙粒捕集器的依赖,它们能捕捉到总体通量,但无法解析对亚分钟级阈值动态至关重要的湍流驱动波动。
最近在观测和计算方面的进展为克服这些长期存在的挑战提供了条件。在观测方面,高频(HF)传感器已广泛普及,能够解析之前无法获取的湍流驱动的波动。光学门、压电板和声学麦克风等仪器可以检测单个颗粒的撞击(Martin等人,2018年),而混合系统则将HF计数器与LF捕集器结合,生成连续的高分辨率通量记录(Tan等人,2023年)。这些能力使得实时估计有效阈值成为可能,并为研究事件尺度上的间歇性提供了合适的数据集。
在建模方面,人工智能的快速发展促进了机器学习(ML)方法在环境科学中的广泛应用。ML算法非常适合处理复杂的多变量数据,可以提高阈值估计的准确性和特征贡献的清晰度(Kazemi等人,2023年)。然而,许多高性能ML模型作为黑箱运行,对其预测背后的物理过程提供的洞察有限。
为了解决这一限制,可解释的ML框架旨在通过明确将模型输出归因于各个输入特征来揭示预测是如何生成的,从而将预测性能与过程理解联系起来(Lundberg和Lee,2017年)。现有的解释技术大致可以分为模型特定方法和模型不可知方法(Molnar,2020年)。模型特定方法(如线性回归中的系数分析)与特定算法紧密耦合,因此不适用于复杂的非线性模型。相比之下,模型不可知方法将预测模型视为黑箱,并从其输入-输出关系中推导解释,特别适用于集成模型,如XGBoost。
在模型不可知方法中,部分依赖图(PDP)通过平均剩余特征的联合分布来可视化一个或两个预测因子的边际效应(Zhang等人,2022年)。然而,PDP隐含地假设特征独立性,而在大气和边界层数据集中,由于变量、高度和时间尺度之间的强相关性,这一假设经常不成立。局部可解释的模型不可知解释(LIME)通过在单个样本附近拟合替代模型来近似模型行为(Ribeiro等人,2016年)。虽然LIME提供了直观的实例级解释,但其结果受邻居定义、核宽度和数据扰动策略的影响,并不适用于在整个概率空间中对特征行为进行连续的全球分析(Molnar,2020年)。
在这种情况下,SHapley Additive exPlanations(SHAP)提供了一个统一且基于理论的框架,用于可解释的ML,它提供了在局部和全局尺度上都有效的、可加性的特征效应归因(Lundberg和Lee,2017年)。由于这些特性,SHAP在环境易感性和灾害相关研究中得到了越来越多的应用,其中预测准确性和物理可解释性至关重要(Zhao等人,2025年)。
这些发展为系统化、基于物理的风沙输送特征评估奠定了基础。然而,尽管有HF观测数据和高性能ML解释工具可用,大多数风沙阈值事件尺度的分析仍依赖于概率密度函数分析(Zhang等人,2023年)、双阈值公式(Martin和Kok,2018年)或经验参数化(Han等人,2025年)。这一差距表明在推进预测建模方面还有很大的空间。
本研究引入了一个改进的ML框架,用于风沙输送事件的检测,该框架将预测建模与物理解释相结合。与传统基于阈值或经验的方法不同,我们的框架利用高频风速和风沙跃移测量数据,建立了一个无需固定阈值或预设参考高度的可解释检测器。具体目标是:(a) 系统地在不同高度和时间尺度上对比原始特征、统计特征和湍流衍生特征;(b) 应用SHAP归因方法来阐明各个特征的贡献及其与边界层过程的联系。这些努力提高了风沙输送的预测能力,同时提供了基于物理的可解释性。
数据来源
本研究使用了公开可获取的同步测量的大气表层(ASL)高频(HF)风速和风沙跃移质量通量数据库,网址为:
https://doi.org/10.5061/dryad.rn8pk0p5n(Martin等人,2018年)。该数据库在最近的风沙研究中得到了广泛应用(Han等人,2025年;Chamecki和Kok,2023年;Rana等人,2021年),为研究风沙输送的阈值提供了坚实的基础。该数据库包含了来自三个沿海站点的测量数据,包括Jericoacoara站。
机器学习模型
对于风沙输送事件的预测,采用了极端梯度提升(XGBoost)算法。作为梯度提升的优化扩展,XGBoost提高了效率、泛化能力和训练速度,在分类任务中表现出强大的预测性能(Chen和Guestrin,2016年)。它依次构建决策树(DT)的集成,每棵树纠正前一棵树的残差误差,并对误分类样本赋予更大的权重。
模型性能
根据上一节的比较评估,在综合Oceano数据集上训练的XGBoost模型被确定为风沙输送事件预测的最佳框架。在比较不同原始特征子集的模型性能之前,进行了特征选择分析,以评估各个预测因子的相对重要性并识别有信息量的特征。
为此,使用了Boruta算法作为包装器。
结论
本研究开发了一个基于高频现场测量的可解释机器学习框架,用于风沙输送事件的检测。通过系统地比较原始风速变量、统计聚合量和湍流衍生特征,并使用SHAP解释模型行为,该框架将预测性能与物理意义上的控制因素联系起来。在三个沿海现场站点,XGBoost始终获得了最高的准确率和F1分数,提供了物理意义上的解释。
CRediT作者贡献声明
Sai Li:撰写——初稿、可视化、方法论、调查、数据整理。
Wenyong Ma:撰写——审稿与编辑、验证、资金获取、概念化。
Junxiang Ma:撰写——审稿与编辑、形式分析。
Zhibo Zhang:验证、监督、资源协调。
Kang Yang:资源协调、项目管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究得到了国家自然科学基金(项目编号:52278511)和河北省教育厅的研究生创新能力发展计划(项目编号:CXZZBS2025166)的支持。
术语表
- ASL
大气表层
- uit
冲击阈值
- uft
流体阈值
- TFEM
时频等效方法
- LF
低频
- HF
高频
- ML
机器学习
- SHAP
Shapley Additive exPlanations
- u
顺流速度分量
- v
横流速度分量
- w
垂直速度分量
- T
| 温度 |
- q
| 风沙跃移质量通量 |
- BSNEBig Springs Number Eight
- PDF概率密度函数
- z/LMonin-Obukhov稳定性参数
- CDF累积分布函数
- XGBoost极端梯度提升
- DT决策树
- RF随机森林
- LR