基于新闻文本挖掘与大型语言模型的中国滑坡事件高精度目录构建

《Scientific Data》:A high-precision catalogue of landslide events in China based on news text mining with large language model

【字体: 时间:2026年03月21日 来源:Scientific Data 6.9

编辑推荐:

  为解决中国缺乏高精度公开滑坡事件目录的问题,研究人员利用大型语言模型(LLM)对新闻报道进行信息提取,构建了2008-2024年中国大陆的滑坡事件数据集。该研究共识别了1,582个事件,提供了更精细的时空属性,为滑坡灾害评估、预警模型开发及灾害风险管理提供了重要数据资源。

  
滑坡,作为一种主要的地质灾害,每年都会在全球范围内造成重大的人员伤亡和经济损失。对于中国这样一个地形复杂、地质灾害多发的国家而言,对其进行可靠的风险评估和有效的风险管理显得尤为重要。然而,一个核心的挑战在于数据的匮乏——要准确评估风险,首先需要高质量、高精度的滑坡事件历史数据。遗憾的是,尽管已有一些滑坡目录存在,但对于中国大陆,目前仍缺乏一个公开可用的、具备精细时空精度的事件目录。这个“数据缺口”长期以来制约着相关研究的深入,也影响着预警模型和防灾减灾策略的优化。为了填补这一空白,一项新颖的研究应运而生,并发表在国际知名期刊《Scientific Data》上。
这项研究独辟蹊径,将目光投向了海量的互联网新闻报道。研究人员设想,既然每一次重大的滑坡灾害几乎都会被媒体所记录和传播,那么这些新闻报道本身就可能成为一个潜在的、未被充分挖掘的“数据金矿”。然而,从非结构化的文本中自动、准确地提取出结构化的灾害信息(如精确的时间、地点、触发因素等),是一项极具挑战性的任务。为此,研究团队采用了一种前沿的技术路径:利用大型语言模型(LLM)来自动化处理这一过程。他们的核心目标是:通过大规模的网络爬取、基于开源大型语言模型的信息提取、事件去重、地理编码以及多阶段验证,最终构建一个覆盖中国大陆、时间跨度从2008年到2024年的高精度滑坡事件目录。
为了完成这项宏大的数据工程,研究人员部署了一套关键技术方法。首先,他们进行了大规模的网络新闻爬取,以收集原始的报道文本。随后,核心步骤是利用一个开源的大型语言模型来自动化地从非结构化的新闻文本中,提取出滑坡事件的关键结构化属性,如发生时间、具体地点、触发因素和伤亡情况等。接着,通过事件去重算法,合并来自不同新闻源的同一事件报道,确保每个事件的唯一性。之后,对文本中描述的地点信息进行地理编码,将其转换为可用的经纬度坐标,并尽可能精确到县级、村级或具体报告地点。最后,整个生成的数据集经过了多阶段的验证,以确保其质量。
研究团队成功地构建了这个名为“基于新闻文本挖掘与大型语言模型的中国滑坡事件高精度目录”的数据集,并对其内容与质量进行了详细的分析。
数据概览:最终生成的目录共包含了1,582个独立的滑坡事件,时间覆盖2008年至2024年。这为研究中国大陆近十余年的滑坡灾害时空分布格局提供了坚实的基础数据。
时空精度评估:评估表明,该数据集在时空精度上具有显著优势。许多事件记录了精确到分钟级的发生时间,空间分辨率则细化到了县级、村级甚至具体的报告地点(如某条公路段)。这种精细程度超过了许多现有的滑坡目录。
信息提取可靠性分析:研究人员对大型语言模型提取不同属性信息的可靠性进行了评估。结果发现,对于时间、地点和触发因素等关键属性,大型语言模型展现出了可靠的捕获能力,能够较为准确地将这些信息从新闻文本中结构化地提取出来。这证明了利用大型语言模型从新闻报道中提取关键滑坡数据的可行性。
数据局限性:同时,评估也指出了数据集存在的局限性。与时空信息相比,涉及伤亡情况的相关信息在提取准确性上相对较低。这可能是由于新闻报道对伤亡人数的描述本身存在动态更新、不一致或模糊性所致。
在结论与讨论部分,本研究强调了其重要的科学与应用价值。首先,它成功构建了目前公开可用的、关于中国滑坡事件数量较多且时空精度较高的目录,直接解决了该领域长期存在的数据缺口问题。其次,研究实证了利用大型语言模型从非结构化新闻文本中自动化提取地质灾害信息的可行性,为类似灾害(如地震、洪水)的数据构建提供了可借鉴的技术范式。这种方法相较于传统的人工收集或简单规则提取,在效率和自动化程度上是一大进步。
该数据集作为一个宝贵的资源,具有广泛的应用前景。它可以被直接用于中国区域的滑坡灾害风险评估,为风险评估模型提供更高质量的输入数据。同时,高精度的时空数据有助于开发和验证更准确的滑坡早期预警模型。最终,所有这些都将服务于更科学的灾害风险管理和防灾减灾决策,为保护人民生命财产安全提供数据支撑。尽管在伤亡数据准确性上存在不足,但本研究无疑为地质灾害研究领域的数据驱动范式开辟了一条新的道路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号