HSDL：一种利用混合浅层和深度学习技术改进自动地震目录的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Geosciences》：HSDL: A novel and practical method to refine automatic earthquake catalog using hybrid shallow and deep learning

【字体：大中小】 时间：2026年03月02日 来源：Computers & Geosciences 4.4

编辑推荐：

　　地震监测中假警报问题，提出混合浅层与深度学习（HSDL）方法，结合深度学习相位检测器（EQCCT）与XGBoost分类器，通过物理特征（P/S picks数量、概率均值、S/P比等）实现高精度分类（200数据集100%准确，1500数据集F1>0.99）。

Daniel Siervo

德克萨斯大学奥斯汀分校经济地质学系，University Station，Box X，奥斯汀，TX 78713-8924，美国

摘要

大多数地震检测工作流程都基于优化的短期平均值/长期平均值（STA/LTA）比率，尤其是在站点分布稀疏且速度模型不准确的地区。随着震级阈值的降低，以便进行更全面的地震分析，地震监测中每天都会出现更多的误报。在这里，我们提出了一种高保真度的方法，称为混合浅层和深度学习（HSDL），用于自动将优化后的STA/LTA工作流程检测到的潜在地震分类为真阳性或假阳性。为了便于分类，我们利用了一种先进的深度学习相位选择器——地震紧凑卷积变换器（EQCCT），它提供了多种分类特征。这些特征包括P波和S波检测的数量、P波和S波概率的平均值、最小值、最大值和标准差，以及S波和P波检测数量比。在一个包含200个真实地震和200个虚假地震波形的中等规模数据集上，随机森林和XGBoost方法的准确率均达到了100%。在包含1500个事件的大型数据集上，随机森林和XGBoost方法的精确度仍达到1.0，召回率超过0.99，F1分数超过0.99，其中XGBoost的准确率略高。我们还分析了特征的重要性，发现最大S波概率和S波和P波检测数量比在分类中起着最关键的作用。所提出的方法提供了一种高效且有效的方法，利用优化的STA/LTA方法和现有的工具（如基于深度学习的相位选择器和XGBoost）来微调自动地震目录。

引言

地震监测对于检测地震活动至关重要，从而减少潜在的地震相关自然灾害（Hutton等人，2010年；Earle等人，2011年）。实时地震监测使得地震预警系统能够在远距离发生破坏性地震后立即发出警报，并在几秒钟内提供关键的信息（震源、震中位置、震级）。总体而言，地震监测有助于科学家更好地理解地震成核机制和板块构造的趋势。此外，地震监测还支持地震活跃地区的准备、减缓和应对破坏性震动危害，例如加利福尼亚沿海、日本、阿拉斯加和地中海地区。然而，精确的地震监测依赖于准确检测关键地震相位（例如P波和S波），以便进行可靠的后续处理，包括关联、定位、重新定位和地震活动的因果分析（Zhang等人，2019年）。

短期平均值/长期平均值比率（STA/LTA）方法（Allen，1978年）长期以来一直是从三分量地震图中检测P波和S波到达时间的行业标准。为了应对噪声问题和选择权衡参数（例如检测阈值）的不确定性，已经出现了多种STA/LTA的变体，包括优化的STA/LTA方法（Lomax等人，2012年；Zhang等人，2018年）。利用机器学习技术来辅助到达时间检测也已经被研究了一段时间。Murat和Rudman（1992年）开发了最早的神经网络相位选择器之一，设计了一些基于物理的特征输入神经网络。这些特征包括：（1）半个周期的峰值幅度；（2）半个周期前后较长窗口（例如0.3秒）内的RMS幅度比；（3）附近迹线中较短窗口（例如0.06秒）内的RMS幅度；以及两个连续半个周期的峰值幅度比。Zhao和Takano（1999年）针对宽带地震数据提出了类似的方法，结合了较低的误报率和较高的短期准确性。许多深度学习方法致力于提高地震监测性能。其中，PhasNet（Zhu和Beroza，2019年）是一种基于卷积神经网络（CNN）的方法，SCALODEEP（Saad等人，2021年）是一种以P波为导向的CNN方法，EQTransformer（Mousavi等人，2020年）是一种基于变换器架构的方法，而EQCCT（Saad等人，2023年）是最新的基于紧凑卷积变换器（CCT）的方法。最近，Cui等人（2025年）提出了一种基于多尺度通道注意力机制的地震检测和选择多任务框架。所有这些方法在宽带三分量地震波形数据上都取得了成功且高度泛化的性能。

由于德克萨斯州西部的石油和天然气生产，自21世纪初以来，该地区的地震活动就一直受到研究（Frohlich等人，2016年；Frohlich等人，2020年）。近年来，地震活动显著增加，促使通过德克萨斯地震网络（TexNet）（Savvaidis等人，2019年；Chen等人，2024a）进行了综合的数据分析和管理工作。虽然先进的深度学习相位选择器EQCCT已在德克萨斯州西部特拉华盆地部署用于近实时监测（Chen等人，2024b），但其在德克萨斯州其他地区以及世界各地的应用仍然有限，尤其是在站点分布稀疏和速度模型不太准确的地区。在这些情况下，当站点覆盖范围稀疏且EQCCT性能不高时，我们仍然主要依赖优化的STA/LTA方法（Lomax等人，2012年）来部署地震监测系统。然而，当震级阈值较低时（例如

<

<

1.5 Ml），STA/LTA方法会产生大量误报。在这里，我们提出了一种高度可靠的方法，通过开发混合浅层和深度学习（HSDL）方法来减少误报，该方法结合了深度学习的EQCCT和浅层学习的XGBoost方法（Chen和Guestrin，2016年）。我们首先提取一些与物理相关的特征和基于EQCCT的特征，然后应用XGBoost方法进行二分类。结果表明，在中等规模的数据集上，准确率可以接近100%。XGBoost和随机森林方法的比较显示，在此类分类问题中，XGBoost的表现略好。本文的主要贡献是HSDL框架的开发。结合浅层和深度学习可以更有效地解决复杂的实际问题。浅层学习方法，如决策树、XGBoost或线性模型，在结构化或小型数据集上提供了可解释性、效率和强大的性能。另一方面，深度学习擅长捕捉复杂的非线性关系，并从大型和非结构化数据中自动提取层次化特征。将两者结合起来，可以创建既强大又可解释的模型——提高泛化能力，增强训练稳定性，并弥合数据驱动的洞察力和领域知识之间的差距。

数据集和研究区域

本文的分析集中在米德兰地区（见图1），在该地区，使用自动STA/LTA检测方法观察到了较高的误报率。在图1中，我们展示了德克萨斯州整个州的一个重点区域（见插图）。事件和站点分别用圆圈和三角形表示。研究区域米德兰盆地的地震活动强度较低，站点分布也比德克萨斯州西部（米德兰盆地以西）更为稀疏。

问题陈述

像STA/LTA这样的自动相位选择器已知会产生较高的误报率。这些虚假的检测可能会导致自动地震目录中创建虚假的地震事件。在地震活动频繁或站点覆盖密集的地区，自动检测系统可能会生成大量的事件，但由于分析师能力有限，其中许多事件未被审查。结果，相位较少或信号模糊的事件往往未被分析，在某些情况下，还会产生错误的

训练/测试数据1

首先，我们在一个包含200个真实地震和200个虚假地震的小型训练数据集上应用了所提出的方法。我们将400个地震数据分为280个用于训练，120个用于测试。

为了探索上述特征之间的相关性，我们在图3中绘制了相关性热图，显示了数据集中变量之间的成对相关性。很明显，p_n和s_n显示出最强的相关性，表明它们可能是可互换的。我们还将

主要特征分析

鉴于所有八个特征对准确分类的潜在贡献，可以应用主成分分析（PCA）来进一步提高分类性能。在PCA方法中，八个特征被简化为两个没有已知物理意义的特征，然后用于两特征二分类，就像我们在前两个测试中所做的那样。PCA方法可以通过去除特征观测值中的噪声来进一步提高性能。图15，图16

结论

我们开发了一种实用的方法来减少日常地震监测框架中的误报，称为混合浅层和深度学习（HSDL）方法。该方法需要使用深度学习EQCCT选择器获得的概率值计算一些基于物理的特征。一旦计算出特征，就可以使用浅层学习方法（如XGBoost）自动且稳健地实施所提出的方法。XGBoost优于同类方法

CRediT作者贡献声明

Daniel Siervo：撰写——原始草稿，验证，软件，方法论，概念化。Yangkang Chen：撰写——审阅与编辑，撰写——原始草稿，验证，监督，软件，正式分析，概念化。

利益冲突声明

作者声明没有记录到利益冲突。

致谢

作者感谢Alexandros Savvaidis、Dino Huang、Chao Li和Camilo Munoz在项目初期的讨论。数据集和所有可复制的脚本可在https://github.com/chenyk1990/hsdl（最后访问时间2024年10月）获取。作者感谢德克萨斯地震网络和地震研究（TexNet）以及德克萨斯州的支持，该机构在德克萨斯大学奥斯汀分校的奖项#201503664下提供了对此出版物的支持。

联系信箱：

粤ICP备09063491号

摘要

引言