一种结合DBSCAN聚类和时空跟踪的机器学习冰雹识别方法
《Atmospheric Research》:A machine learning hail recognition method integrating DBSCAN clustering and spatiotemporal tracking
【字体:
大
中
小
】
时间:2026年05月11日
来源:Atmospheric Research 4.4
编辑推荐:
关云农|尹春风|吴斌|龚海星|朱思宇|朱家凯|史瑞|孙浩
中国上海,上海气象信息与技术支持中心
**摘要**
冰雹对长江三角洲构成了严重威胁。现有的预报方法往往受到固定阈值算法和高分辨率雷达数据局限性的影响,而静态闪电分析也难以捕捉雷暴的动态发展过程。为此,本研究提
关云农|尹春风|吴斌|龚海星|朱思宇|朱家凯|史瑞|孙浩
中国上海,上海气象信息与技术支持中心
**摘要**
冰雹对长江三角洲构成了严重威胁。现有的预报方法往往受到固定阈值算法和高分辨率雷达数据局限性的影响,而静态闪电分析也难以捕捉雷暴的动态发展过程。为此,本研究提出了一种以闪电为中心的新框架,该框架在运行时无需雷达输入,并能在有雷达支持的系统中起到互补作用。该框架结合了对雷暴群的空间时间追踪、雷达独立框架和机器学习冰雹识别技术,以提高预报能力。以2024-2025年上海大都会地区的6月至9月洪季为例,采用改进的DBSCAN算法将同步的闪电定位数据聚类为风暴单元,并通过空间时间协同方法追踪其生命周期以及分裂和合并过程。基于追踪结果,提取了动态和静态闪电参数,并通过结合气象预警和社交媒体灾难报告(共32个冰雹天气日)构建了冰雹数据集。选取了六个关键特征(总闪电次数、平均强度、正云对地(+CG)比率、总闪电跳跃(LJ)、+CG跳跃以及最大强度增量)来训练LightGBM冰雹识别模型。该模型的整体准确率为83.3%,曲线下面积(AUC)为0.95。SHAP分析表明,动态参数(尤其是+CG跳跃和LJ)是提高预报准确性的关键。
**引言**
冰雹作为一种全球普遍存在的气象灾害,对农业生产、基础设施和社会经济稳定性构成严重威胁,每年造成数十亿美元的经济损失,并危及航空安全和人类生命(Prein和Holland, 2018; Wallace等, 2020; Allen等, 2020)。特别是在中美洲、中欧和东亚等对流活动强烈的中纬度大陆,严重冰雹事件频繁发生,使得冰雹研究成为强风暴气象学的研究重点(Stasenko等, 2024)。在东亚地区,长江三角洲是经济最活跃和人口最密集的地区之一,因此特别容易受到对流灾害的影响。上海位于这一三角洲的核心地带,是一个深受陆地-海洋温差、城市热岛效应和修正边界层动态影响的沿海大都市,这些因素共同导致了春季和夏季频繁且强烈的冰雹天气,这些天气通常发生在有组织的对流系统或超级单体中。此外,上海及其周边城区的人口密集、高价值资产和关键基础设施的集中导致了显著的“灾害放大效应”,即使中等强度的冰雹事件也会引发严重的经济中断和社会影响。因此,研究上海地区的冰雹天气不仅解决了当地的紧迫预报问题,还为了解受季风影响下的沿海大都市环境中的冰雹过程提供了宝贵案例。
闪电活动是冰雹预报的重要遥感指标,因为这两种现象都与强上升气流和深对流风暴中的强大微物理过程密切相关(Lund等, 2009; Ni等, 2023a, Ni等, 2023b)。促进冰雹增长的共同驱动力和热力学环境,如强烈的垂直速度、过冷水滴的存在以及混合相区域中的雨夹雪和冰晶,也推动了强烈的电离过程和闪电的产生(Mecikalski等, 2015; Liu等, 2023)。这种内在联系使得闪电数据能够作为冰雹有利条件的代理指标。早期基础研究证实,闪电密度中心通常与冰雹区域重合或略在其前方。在业务临近预报方面的一个重大进步是识别“闪电跳跃”(LJ),即闪电总速度的快速增加。这一现象已被证实是冰雹的可量化前兆(Gatlin和Goodman, 2010; Miller等, 2015; Farnell, 2020; Nisi等, 2020)。国际研究一致表明,LJ通常在冰雹出现前15至30分钟发生(Schultz等, 2009; Tian等, 2019; Vermi等, 2025),为早期预警提供了关键时间窗口。除了闪电频率的趋势外,云对地(CG)闪电的极性还提供了进一步的诊断能力(Williams等, 1999)。在强风暴的成熟阶段和冰雹出现阶段,通常观察到正云对地闪电(+CG)的比例增加(Wapler, 2017)。这是由于冰雹风暴中的强上升气流使主要的中部电荷区向上水平移动,改变了云的电荷结构,使正电荷区更接近云底,从而更容易形成正地闪。它为高影响事件提供了独特特征。尽管闪电数据提供了无与伦比的时间分辨率和对对流强度的直接洞察,但将其与雷达和卫星图像等补充观测结果结合使用将进一步增强其预报能力(Chronis等, 2014; Tian等, 2022)。这种多参数方法专注于数据融合,代表了改进检测算法、减少误报和提高全球冰雹临近预报系统可靠性的前沿尝试(Carey等, 2019)。
与这些技术进步并行的是,闪电数据处理方法本身也在不断进化(Mondal等, 2022)。传统分析通常采用固定阈值方法(如网格方法),这些方法简单易实现(Gao等, 2016; Shi等, 2025)。然而,这些方法人为地打破了闪电群在空间上的自然连续性和物理完整性,难以准确对应实际的对流单元。因此,引入了基于密度的空间聚类算法(如DBSCAN)。其核心优势在于不需要预设形状或数量,可以根据数据本身的空间分布密度客观识别任何形式的闪电群,从而更自然地描述单个雷暴的空间组织和范围。这是向闪电数据分析中的自动化和客观性迈出的重要一步。然而,目前大多数空间聚类研究仍然局限于对某一时刻的“静态快照”分析(Agresto等, 2024; Pustovalov等, 2025)。雷暴本质上是在演变中,其完整的生命周期包括移动、分裂和合并等关键动态过程(Matthews & Trostel, 2005)。当前主流范式未能有效地在时间序列中关联和追踪这些空间聚类结果,从而系统性地忽略了闪电活动时间演变中可能用于区分风暴强度或类型的电学特征(如识别强冰雹事件)。建立一个能够连贯描述闪电群的生成和消散、移动和形态演变的完整动态追踪框架,从而揭示其与对流发展的内在物理联系,是当前领域亟需突破的关键挑战。为解决这些差距,本研究提出了一种以闪电为中心的新框架,该框架将闪电群的空间时间追踪与机器学习相结合用于冰雹风暴识别(Gong等, 2025a; Gong等, 2025b)。该框架仅在初始优化闪电聚类参数时使用雷达数据;一旦调整完毕,系统就可以独立于雷达输入运行。以上海大都会地区为例,使用改进的DBSCAN算法将每个时间步长的总闪电数据聚类为离散的风暴单元,然后利用空间时间协调方法追踪这些单元的整个生命周期。从追踪的群组中提取了静态和动态闪电参数,并通过融合官方预警和社交媒体真实报告构建了全面的冰雹数据集(Czernecki等, 2019)。在六个统计上显著的特征(包括关键动态演变参数如LJ和+CG跳跃)上训练的LightGBM模型,获得了0.95的AUC和100%的冰雹召回率。SHAP分析证实,动态演变参数是提高预报准确性的主要因素。该框架为冰雹即时预报提供了有效的、基于物理的工具。其核心模型仅依赖于闪电数据,特别适用于雷达信号稀少的地区,而其生成的雷暴单元也可以集成到仪器完备地区的基于雷达的分析工作中,以提高情境意识。
**研究区域**
本研究聚焦于上海大都会地区,其空间范围为东经120.5°至122.5°、北纬30.5°至32.1°(图1)。该区域涵盖了整个上海市(如浦东新区和徐汇区),并延伸至江苏省的一些县市(如苏州和南通)、浙江省的某些地区(如嘉兴和湖州),以及东海北部海岸。该地区位于典型的陆海过渡带。
**聚类和追踪框架的演示**
为了定量和可视化验证所提出的空间时间聚类和追踪算法的有效性,分析了2024年8月8日14:00至17:00发生的一次典型冰雹产生对流事件。利用固定的6分钟分析窗口,该算法成功识别并追踪了整个事件期间的六个离散雷暴单元。图4显示了闪电群的空间时间演变(用彩色填充的多边形表示)。
**讨论**
本研究提出了一种以闪电为中心的冰雹识别框架,该框架结合了DBSCAN聚类、空间时间追踪和LightGBM。通过捕捉动态风暴生命周期,它不同于传统的静态闪电分析和固定阈值方法。以往的研究通常依赖于基于网格的静态聚类或人工风暴 delineation,这难以保持对流系统的物理连续性(如分裂/合并过程)。
**总结**
本研究开发并验证了一种以闪电为中心的冰雹风暴识别新框架,通过结合闪电群的空间时间追踪和机器学习来实现。以2024年和2025年上海大都会地区的洪季为研究对象,该框架捕捉了单个雷暴的完整动态生命周期,超越了静态闪电分析的局限。该框架的唯一依赖性使其具有主要优势。
**作者贡献声明**
关云农:撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、软件、方法学、调查、正式分析、数据整理。
尹春风:撰写 – 审稿与编辑、验证、监督、方法学、资金获取、正式分析、概念化。
吴斌:方法学、调查、数据整理。
龚海星:撰写 – 审稿与编辑、方法学、调查。
朱思宇:撰写 – 审稿与编辑、调查。
朱家凯:撰写 –
**未引用的参考文献**
Farnell, 2015
Matthews和Trostel, 2010
Ye等, 2019
**利益冲突声明**
作者声明没有利益冲突。
**致谢**
我们非常感谢国家自然科学基金(授权编号42575069)、中国强降雨研究基金(授权编号BYKJ2025Z12)和上海市气象局启明星项目(授权编号QM202509)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号