基于所上传的文档内容，针对您的5个问题，依次回答如下：中文标题评估基于本体的AI术语抽取在环境证据合成中的有效性：OntoGPT的应用与展望

《Environmental Evidence》：Assessing the effectiveness of ontology-grounded AI term extraction using OntoGPT for environmental evidence synthesis

【字体：大中小】 时间：2026年02月24日 来源：Environmental Evidence 5.2

编辑推荐：

　　本研究评估了利用大语言模型（LLM）结合本体（Ontologies）进行自动化数据提取的新方法（OntoGPT），以应对环境证据合成（Evidence Synthesis）中人工成本高、耗时长的挑战。研究通过对比人工与OntoGPT从80篇海岸湿地修复文献中提取信息的性能，发现该方法在提取标准化信息时与人工的一致性可达65%，其精确度（Precision）和召回率（Recall）分别为58%和57%。结果表明，LLM在辅助证据合成的数据提取阶段具有减少部分人工劳动的潜力，但在处理复杂信息和主观判断时仍需进一步发展和人类监督。这为加速环境科学领域的证据合成提供了一种值得关注的半自动化工具路径。

内容归纳总结

引言

证据合成是环境决策与研究的基石，能识别研究空白并支撑基于证据的决策制定。然而，传统的证据合成过程劳力密集、耗时且昂贵，面对不断增长的文献体量是一个巨大挑战。大语言模型（LLM）作为一种人工智能，具备总结和合成文本的能力，为自动化证据合成提供了可能，但其存在产生幻觉、编造信息的问题。OntoGPT是一个结合了LLM和本体（即结构化的领域术语机器可解释词汇表）的开源Python包，旨在通过将数据提取限制在预定义的本体概念内，来提高信息提取的结构化程度和准确性。本研究旨在填补评估此类新方法性能的空白，通过对比OntoGPT与人工在海岸湿地修复文献数据提取上的表现，来验证并探讨其在环境证据合成中的应用潜力。

OntoGPT概述

OntoGPT是一个设计用于从非结构化文本中提取结构化信息的Python软件包。其工作原理是，用户通过创建YAML模板来定义需要提取的信息字段、相关的本体以及输出格式。用户提供源文本后，OntoGPT会根据模板生成结构化提示，指令LLM从文本中提取相关术语。接着，提取出的术语会通过一个称为“扎根”（Grounding）的过程，与本体中的词条进行匹配和关联。这种方法使得LLM能够在无需特定任务训练数据的情况下，提供有用且准确的响应。本研究采用了基于结构化提示询问和递归语义提取（SPIRES）的方法，开发了提取模板，并利用OpenAI的GPT-4o作为默认LLM进行数据提取。

方法

本研究在一个包含80篇海岸湿地修复成果学术文章的源文献样本上，测试并验证了这种LLM辅助数据提取的新方法。研究比较了两种方法提取的数据：（1）人工评审员提取；（2）OntoGPT提取。比较的维度包括：（1）人工评审员对一致性的评估；（2）精确度（Precision）、召回率（Recall）、准确度（Accuracy）和F₁分数等量化指标。这些指标能够全面评估OntoGPT提取正确信息的能力（精确度）以及捕捉所有所需信息的能力（召回率）。

研究开发了11个属性作为数据提取的目标，包括研究地点、修复地点的地理坐标、生态系统类型、修复行动、修复开始日期、修复结束日期、采样与监测方法、监测开始日期、监测结束日期、焦点物种和响应变量。人工提取由多位评审员独立完成。AI驱动的提取则使用OntoGPT，并选用了包括环境本体（ENVO）、环境词库本体（ENVTHES）等在内的八个与环境、生物学和生态学相关的本体。

结果

人工与OntoGPT数据提取的一致性

提取一致性从最高94%（纬度/经度）到最低50%（修复结束日期）不等，所有属性的平均一致性分数为65%。通常，对于复杂性较低的属性（如纬度/经度、生态系统类型），一致性得分较高；而对于更复杂的属性（如采样/监测方法、修复行动、响应变量），一致性得分较低。复杂性高的属性在人工与自动化提取之间具有更大比例的部分一致性。在评估OntoGPT是否产生幻觉（即提取源文献中不存在的信息）时，研究发现所有提取结果均基于文本，未发现无中生有的情况。此外，OntoGPT甚至能从表格中准确提取地理坐标信息。

性能指标：精确度、召回率、准确度和F₁分数

从性能指标分析来看，OntoGPT提取的宏观平均值为：精确度58%、召回率57%、准确度44%、F₁分数56%。加权微观平均值则更低。就单个属性而言，指标范围差异较大：精确度37%-83%，召回率24%-100%，准确度18%-87%，F₁分数31%-91%。除了修复结束日期外，数值型属性（如坐标、日期）的精确度普遍高于术语型属性。通常，具有较多人工提取记录的属性在召回率和准确度上得分较低，反映出这些属性存在较高比例的假阴性结果。

提取数据量

OntoGPT平均每篇源文献提取的词条数量比人工评审员多2.5倍，并且在除采样/监测方法和监测起止日期外的每个属性上都提取了更多词条。响应变量、焦点物种和采样/监测方法的提取条目数合计占两种方法总条目数的一半以上。这种差异部分源于OntoGPT倾向于提取单个词语，而人工评审员更倾向于识别多词术语和短语。

OntoGPT的本体使用情况

在非日期属性的提取中，ENVTHES是使用最多的本体，占所有基于本体提取的50%。其次是国家生物技术信息中心分类学本体（NCBITaxon, 20%）和地名本体（GAZ, 11%）。有16%的提取值是自我生成的，未在任何指定本体中“扎根”。部分本体（如SWEET、OBI、PDO_CAS）在本研究中未产生任何提取结果，这可能与其更新频率或术语覆盖范围有关。

讨论

研究结果表明，OntoGPT在提取格式标准化的数据（如地理坐标）时表现更佳，而与人工评审员的一致性在复杂、需要解释的属性上较低。性能指标验证进一步揭示了OntoGPT提取的信息往往包含不相关的内容，导致高比例的假阳性和假阴性结果，从而影响了其精确度和召回率。这一发现与之前的研究类似，即LLM倾向于从文献中提取过多信息。

OntoGPT在本体扎根方面的依赖既是其核心功能，也可能是一种技术限制。当前环境领域的本体在涵盖生态研究概念（如生态系统分类、修复行动、监测方法）方面尚不充分。例如，本研究中使用最多的ENVTHES可能最贴近该领域作者的写作方式，而其他本体则利用率较低。提高本体的质量，例如系统性地增加同义词和术语，可以显著提升术语提取的效果。此外，通过更精细的提示工程（Prompt Engineering）策略，如“思维链”、“小样本学习”或“检索增强生成（RAG）”，也可能进一步提高LLM提取的准确性。

局限性

本研究存在一些局限性。首先，人工比较一致性分数时，需要评审员基于对文本的理解进行一定解释，这可能无意中倾向于“部分”一致。其次，人工提取本身也存在局限性和主观偏差。第三，对PDF源文献的依赖可能导致准确性降低，因为水平表格和图像中的信息可能无法被有效提取。最后，本研究使用的是GPT-4o模型，新发布的模型性能可能有所不同。

未来方向

为了提升OntoGPT在环境数据提取中的有效性，未来的方向包括：持续增强环境领域本体的质量和覆盖面，特别是系统性地添加同义词和当前研究术语；探索将更新更频繁的结构化数据源（如维基数据）用于术语扎根；针对生态证据合成中常见的数据类型进行更深入的研究；以及在实践中投入更多时间进行迭代式的提示开发和优化。总体而言，OntoGPT作为辅助系统评价的方法学工具具有潜力，尤其适用于提取标准化信息以节省部分人工劳动，但在处理需要复杂解释和主观判断的信息时，仍需人类监督和补充。

热点排行