LLM-S2KG:基于大语言模型(LLM)的语义-结构双重知识图谱 姜江,姜向涛

《Applied Sciences》:LLM-S2KG: LLM-Based Semantic–Structural Dual Knowledge Graph Jiang Jiang and Xiangtao Jiang

【字体: 时间:2026年05月10日 来源:Applied Sciences 2.5

编辑推荐:

  摘要:在知识图谱构建任务中,近期研究经常利用大型语言模型(LLMs)来提高非结构化数据处理的效率和准确性。然而,当前的LLMs依赖于词汇共现统计模式,这使得捕捉深层语义关系变得困难。此外,现有研究主要集中在实体-关系提取或语义层优化上,忽略了文本段落中固有的层次逻辑结构(例如,章

  摘要:在知识图谱构建任务中,近期研究经常利用大型语言模型(LLMs)来提高非结构化数据处理的效率和准确性。然而,当前的LLMs依赖于词汇共现统计模式,这使得捕捉深层语义关系变得困难。此外,现有研究主要集中在实体-关系提取或语义层优化上,忽略了文本段落中固有的层次逻辑结构(例如,章节组织、段落连贯性)。这导致构建的知识图谱在语义完整性上不足,结构一致性受损。为了解决这一双重限制,我们提出了LLM-S2KG,这是一种结合语义相关分析的语义-结构信息提取方法。该方法通过同时执行关键词和结构的双重解析,发现并完成语义关联,最终将这些双重图谱整合在一起进行构建。实验表明,在查询任务中,LLM-S2KG相对于KeyBERT、TF-IDF和LLM-KG分别提高了0.1183、0.1412和0.0231的F1分数。在填空式问答任务中,其准确率为94.81%;在开放式问答任务中,准确率为85.885%,略优于LLM Triple Extraction(73.308%)、带有源句子增强的LLM Triple Extraction(80.085%)和Chroma Database Import(76.150%)。总之,LLM-S2KG提供了一种使用LLMs进行结构化知识提取的统一建模范式,其特征是语义和结构的相互增强和协同进化。

1. 引言
知识图谱(KGs)通过组织“实体-关系-实体”三元组,为复杂领域中的关系建模提供了直观的表示,并广泛应用于智能问答和语义搜索等任务[1]。其构建方法已经从手动专家注释和基于规则的提取发展到基于深度学习的自动提取。然而,从非结构化文本高效构建高质量的知识图谱仍然是一个核心挑战:非结构化数据通常表现出语义复杂性(例如,嵌套概念)、结构多样性(例如,因果或时间关系)以及动态的上下文依赖性,导致传统方法构建的知识图谱覆盖范围有限、关系类型简单,难以满足特定领域的高精度要求[2]。
近年来,大型语言模型(LLMs)凭借其强大的语义理解和上下文感知能力,在知识图谱构建中得到了广泛应用。LLMs通过注意力机制解析隐含语义,并通过“预训练+微调”范式从海量数据中学习通用模式,从而克服了传统方法的一些局限性,例如在医疗领域(如ChatDoctor [3])和学术语义解析[4]中的应用。然而,LLMs也存在固有的局限性:它们在训练语料库中严重依赖于词汇共现统计模式,可能忽略了更深层次的语义[5]。例如,模型可能正确回答“北京是中国的首都”,因为“北京”和“首都”频繁共现,但它可能无法真正理解“首都”这一概念的内在含义。此外,现有的基于LLM的知识图谱构建研究主要关注实体和关系提取,忽略了文本中固有的层次结构信息(例如,章节、段落和标题之间的父子关系和顺序关系),这影响了构建图谱的语义完整性和结构一致性。
为了减少LLMs对词汇共现的依赖,研究人员探索了多种方法[6]。一类方法涉及引入外部知识(例如,WordNet本体)或改进训练目标(例如,隐式关联训练、主动遗忘机制),以指导模型学习真实的事实关联而不是浅层统计模式[7]。另一类方法从分词层面入手,使用随机分词使模型能够“看到”单词的内部结构,从而增强细粒度的语义理解[8]。此外,还采用了词汇对齐、知识编辑和检索增强等技术来纠正模型对共现信息的过度依赖。虽然这些方法在特定任务中取得了成功,但它们通常有一个共同缺陷:它们主要关注语义层优化,忽略了文本的固有层次逻辑结构。例如,学术论文中的章节组织和段落连贯性包含了丰富的知识组织方法,但现有方法通常将它们分解为独立的句子或段落进行处理,从而丢失了这些结构信息。因此,尽管生成的知识图谱在局部语义上有所增强,但缺乏全局逻辑框架,导致语义完整性不足和结构一致性差。从根本上说,它们尚未摆脱“基于统计模式猜测单词”的原则——模型仍然预测单词共现概率,而不是真正理解概念之间的层次和因果关系。
为了解决这些问题,本文提出了LLM-S2KG,这是一种协同提取语义和结构的知识图谱构建方法。其核心创新在于同时提取深层语义关联网络和层次结构网络,并通过双图融合实现语义深度和逻辑结构的协同建模。具体来说,我们首先使用LLM进行段落级别的关键词提取和优化,形成高质量的语义单元集。同时,我们使用LLM将文本解析为树状JSON结构,准确捕获章节和段落之间的“父子”层次关系和“前后”顺序关系。随后,通过向量化和语义相关分析挖掘关键词之间的隐含关系,并使用LLM完成这些关系,构建语义网络。最后,通过节点对齐将语义网络和结构网络合并为统一的知识图谱。该框架不仅通过语义相关分析克服了LLMs对浅层共现的依赖,还通过显式建模文本结构并保留知识的逻辑层次,从根本上提高了知识图谱的语义完整性和结构一致性。实验结果表明,在当前的实验设置下,LLM-S2KG的性能优于比较基线。

2. 相关工作
2.1 传统的知识图谱构建方法
传统的知识图谱构建方法主要分为三大类:手动构建、基于规则的自动提取和深度学习驱动的方法。
手动构建方法以专家主导的知识工程为特点,其中手动定义实体类别和关系框架以实现高精度知识积累。例如,英语词汇领域的WordNet[9]、常识领域的CYC[10]和中英文词汇领域的HowNet[11]。使用这种方法构建的知识图谱质量很高,但需要大量的人力资源,难以应用于大规模知识图谱构建。
基于规则的方法依赖于预定义的语法模板或正则表达式从半结构化文本中提取三元组信息。它们的有效性高度依赖于规则设计的完整性,典型应用包括LRIRL[12]、UIMA Ruta[13]和ProPPR[14]。虽然基于规则的方法具有高准确性,适合处理大量文本,但规则设计过程复杂且依赖于特定领域,难以扩展到非结构化文本或不同领域的动态数据源。
深度学习驱动的方法基于神经网络训练,可以实现端到端的文本实体和关系识别。使用神经网络的联合提取模型主要分为三类:RNN、CNN和LSTM。RNN逐步处理输入序列,通过组合前一层隐藏状态和当前输入来更新隐藏层表示,并最终基于隐藏状态输出知识提取结果。典型应用包括RNNLogic[15]、MHA-RNN[16]和RWKV[17]。CNN对输入文本进行卷积操作以提取局部语义特征。通过池化层进行降维后,全连接层整合这些特征并输出实体或关系等知识提取结果。相关研究包括IntSE[18]、CNN-BiGRU[19]和BERT-DGCNN[20]。LSTM使用门控机制和单元状态逐步处理输入序列,记住有用信息并忘记无关信息。最后,它们通过隐藏状态输出包含长期依赖性的特征表示以实现知识提取。代表性工作包括BiLSTM-CRF[21]、CNN-BiLSTM[22]和MaskDGNets[23]。尽管基于深度学习的知识图谱构建方法可以处理复杂的语义信息和上下文关系,但它们依赖于大量注释数据进行模型训练,并且可解释性较差,难以应用于缺乏注释数据的特定领域。
2.2 由大型语言模型驱动的知识图谱构建
近年来,大型语言模型(如GPT和PaLM)通过使用大规模文本语料库进行预训练,获得了语言统计模式——特别是词汇共现模型。这使得它们能够识别文本中的关键信息,降低了获取非结构化知识的门槛。在这种背景下,由大型语言模型驱动的知识图谱构建技术经历了三个关键阶段:基础能力探索、知识增强预训练和协同进化。
在最初的探索阶段,大型语言模型通过零样本/小样本学习,从跨领域、多语言的非结构化文本(如学术论文和网页)中自动提取实体、关系和事件,如SbSER[24]和ToNER[25]所示。然而,由于“幻觉”现象,提取的结果包含噪声和逻辑不一致性,需要手动验证以确保知识准确性。
后续研究进展到知识增强预训练和微调阶段。通过在模型预训练期间嵌入结构化知识图谱(例如,实体链接和关系感知任务)或在领域特定微调期间注入知识约束(例如,医疗保健、金融),显式地整合了高质量知识。这种方法显著增强了大型语言模型的逻辑推理能力,减少了幻觉生成,并大幅减少了对手动干预的依赖,如MilChat[26]和KGPT[27]所示。然而,这种范式本质上是静态和单向的,无法适应实时知识演变,并且在推理过程中缺乏外部知识验证机制。
当前的协同增强阶段建立了将大型语言模型与知识图谱相结合的闭环系统:图谱为模型提供可解释的知识支持,而模型则利用实时数据流(如新闻和社交媒体)动态更新图谱。通过自我监督学习和反馈机制,实现了知识验证和错误校正,确保及时性和准确性,如ACL-IJCNLP[28]和DRAGON[29]所示。这种演变将知识工程从静态构建推向了智能感知和持续进化的范式,为智能问答和决策支持系统等应用提供了动态的知识基础。
与GraphRAG、RoG和ToG等LLM-KG混合模型相比,本文提出的方法的焦点不同:上述模型假设已有的知识图谱,并专注于“KG增强LLM推理”,而LLM-S2KG则专注于“从头开始构建KG”,并显式捕获文档级别的结构信息(如章节层次和段落连续性),而不仅仅是建模实体关系网络。这两种方法是互补的,LLM-S2KG可以为GraphRAG等方法提供丰富的结构信息。
然而,现有研究仍然存在两个关键限制:(1) 结构信息盲点:过度强调文本语义而忽略了源数据中的拓扑线索(如章节层次、段落逻辑、列表结构),导致节点之间的关键上下文关系(如因果和条件连接)丢失。(2) 深层语义建模失败:大型语言模型依赖于词汇共现概率进行知识获取,在处理显式关联方面表现出色,但在理解受领域本体限制的复杂逻辑时遇到困难,经常生成符合语言分布但与领域事实相矛盾的结果。为了解决这些问题,我们提出了一个“语义-结构双重提取框架”,同时提取结构信息和语义特征以进行整合。此外,通过文本向量化,我们计算嵌入空间中关键词的语义关联,以识别超出大型语言模型捕获范围的隐含关系。
2.3 词汇共现依赖性的缓解方法
为了解决大型语言模型依赖于浅层共现统计并在处理词汇时难以建模深层语义关系的限制,研究人员从多个角度进行了系统探索。这些包括内部模型机制、训练架构优化和多模态增强。
在内部模型机制层面,研究人员首先研究了分词策略。他们的目标是减少输入阶段由单词共现引入的偏差。Hofmann等人[30]、Yehezkel & Pinter[31]和Bauwens & Delobelle[32]提出了改进的分词方法。这些方法在分词过程中更好地保留了形态学信息,并提高了分词质量。关于模型内部的整合机制,Geva等人[33]发现Transformer中的前馈网络(FFN)层充当键值存储器。这些层可以编码事实和语言知识,为存储和检索词汇概念提供物理基础。Feucht等人[34]提出了“内部词汇”的概念。他们的工作表明,模型通过组合多个向量形成了一个软词汇表。这一发现为词汇表征的组织和构建提供了新的视角。在训练架构层面上,研究人员开发了多种缓解策略来减少模型对词汇共现的依赖性。第一种策略是持续预训练。通过在大规模领域特定语料库上进一步训练模型,模型可以获得深入的领域知识,而不仅仅是表面层次的共现模式。Lewis等人[35]提出的检索增强生成(RAG)框架、Ram等人[36]的上下文检索增强方法以及Asai等人[37]的Self-RAG方法,都能有效防止模型仅依赖于训练数据中的词共现统计信息。最后一种策略涉及知识编辑方法。这些方法通过定位和修改Transformer模型中的特定参数来直接注入结构化事实。Zhang等人[38]进一步发现,共现统计信息和事实关联被编码在不同的Transformer层中。基于这一洞察,他们设计了一种策略来主动遗忘中间层中的参数,从而“解锁”事实学习。这种方法在参数层面上减轻了共现依赖性。

多模态训练为减轻对词汇共现的依赖提供了一种替代途径。Deitke等人[39]观察到,在多模态训练后,Molmo模型在仅文本的MMLU基准测试中的表现不如其基础语言模型Qwen。这一结果表明,多模态训练可能对某些基于文本的任务产生负面影响。Yun等人[40]进行了针对性的比较,发现额外的视觉训练并没有导致句法类别表征的显著差异。然而,在需要背景知识理解的任务上,性能出现了差异。这表明视觉信息有助于特定语义理解任务。总体而言,这些研究揭示了多模态训练在增强概念知识部署和减轻浅层理解方面的潜力和局限性。

尽管上述研究在多个层面上减少了模型对浅层共现的依赖,并改善了特定任务的语义建模,但它们都存在一个共同的缺陷。例如,学术论文中章节的排列和段落之间的逻辑过渡包含了关于信息组织的丰富知识。然而,当前的方法往往将这些结构分割成孤立的句子或段落。因此,关键的结构信息丢失了。结果,构建的知识图谱可能在局部语义上得到了增强,但缺乏全局的逻辑框架。从根本上说,其基本原理仍然是“基于统计模式的词预测”。模型仍然预测词共现概率,而不是真正理解概念层次结构和因果关系。为了解决这些问题,我们提出了语义-结构双重提取框架。该框架可以联合提取和整合语义特征与结构特征。此外,它利用语义关联分析来识别超出当前大型语言模型能力的深层关系。

2.4. 语义关联分析
语义相关性分析量化了两个文本单元之间的语义联系强度。这些单元可以是单词、短语、句子或整个文档。通过这种量化,分析重建了概念网络的拓扑结构。这一过程解决了GPT-4pro和ChatGLM2等大型语言模型的一个关键局限性。这些模型在捕捉深层次、领域特定的语义关联时经常表现出结构上的缺陷。根据Bridge(1998)的观点,计算语义相关性的方法依赖于三种基本模型类型:
- 第一种是基于特征的模型,也称为组合模型。这种方法将每个概念表示为一组特征。然后通过比较它们特征集之间的共享和不同特征来确定概念之间的语义相关性。典型的技术包括点互信息[41]和共现分析[42]。
- 第二种是结构模型,也称为网络或图模型。在这种模型中,概念被视为大规模结构中的节点。这样的结构可能包括语义网络、分类法或知识图谱。节点之间的边表示概念之间的关系。语义相关性通过图匹配、传播激活或随机游走等技术来计算。例如WordNet[9]和基于Wikipedia的双线性链接模型(WBLM)[43]。
- 第三种是几何模型,也称为空间模型。在这种框架中,每个概念表示为n维空间中的一个点。语义相关性与这些点之间的距离成反比。常见的实现包括词嵌入[44]和潜在语义分析(LSA)[45]。

基于特征和结构的模型存在某些限制。它们严重依赖于人工干预和静态知识表示。它们的计算成本也可能限制可扩展性。因此,它们往往无法满足灵活和可扩展的语义分析需求。相比之下,几何模型提供了明显的优势。它提供了强大的语义可塑性、有利的动态适应性和高可扩展性。这些属性使得有效补偿逻辑关联成为可能。此外,几何模型可以根据不同专业领域的深层语义关联需求进行灵活调整。因此,在我们的方法中采用了几何模型。我们对从关联矩阵中提取的关键词进行向量空间计算。这种方法使我们能够发现潜在的因果链接、条件关系或协同机制。

3. 方法
3.1. 理论框架
本研究提出的LLM-S2KG方法基于以下理论见解:非结构化文本中的知识可以分解为两个正交但互补的维度——语义维度和结构维度。语义维度捕捉概念之间的内在关系(如因果关系、协调性和从属关系)。其理论基础在于分布式语义学,特别是“分布式假设”,该假设认为语义相似性可以通过上下文分布的相似性来衡量。然而,分布式语义学主要关注共现统计信息,并且难以捕捉长距离的逻辑依赖关系。相比之下,结构维度对应于文本的 discourse 逻辑(如章节层次、段落顺序和列表嵌套)。其理论基础来源于修辞结构理论(RST)和话语分析理论,这些理论认为文本连贯性依赖于明确的层次框架。现有的基于LLM的知识图谱构建方法仅关注语义维度(例如实体-关系三元组),而忽略了结构维度,导致知识图谱“语义丰富但逻辑松散”。本研究的核心理论假设是,通过异构图融合将语义图谱与结构图谱结合起来可以产生协同增强效应:结构图谱提供宏观层面的导航语义关系,而语义图谱提供细粒度的概念连接,丰富了结构节点的含义。这一假设可以通过图论中的多视图学习理论来解释:来自不同视图(语义和结构)的图表示包含互补信息。通过对齐节点和融合边,可以获得更完整的低维嵌入。

3.2. 数据描述和预处理
本研究使用来自中国国家知识基础设施(CNKI)和中国国家知识产权管理局的森林管理数据作为实验对象。目的是验证所提出的语义-结构双重提取框架(LLM-S2KG)在构建复杂专业领域特定知识图谱方面的有效性。该领域的数据集具有几个显著特点:首先,文本高度非结构化,这严格测试了模型解析复杂语义和揭示隐含结构模式的能力;其次,底层知识系统整合了生态学、经济学、政策和法律法规等多维度概念,这对深度语义关联挖掘和逻辑推理提出了更高要求;第三,森林资源管理目前正在经历智能转型的关键阶段,因此迫切需要高质量的知识图谱支持。然而,传统方法在处理非结构化文本方面能力有限,其实际效果受到限制。因此,在该领域进行研究不仅有助于克服极端情况下的技术瓶颈,还能够系统地评估LLM-S2KG方法的鲁棒性和泛化能力。

本研究使用的数据集包括两类:由国家知识产权管理局提供的森林管理专利数据,这些数据相对标准化且易于整合到知识图谱中;以及CNKI期刊论文数据,这些数据包含格式不一致和段落边界不明确等非结构化文本,增加了文本理解和实体提取的难度。为了解决这些问题,我们设计了一个 comprehensive 的数据预处理工作流程(如图1所示),以提高原始数据的质量并促进后续的深度处理。

3.3. 总体框架
我们提出了一种构建知识图谱问答系统的方法。该方法将大型语言模型与语义相关性分析相结合,称为LLM-S2KG。核心技术流程包括三个连续阶段:双重解析阶段、语义关联挖掘阶段和双重图融合阶段。在双重解析阶段,我们同时从文本中提取关键语义单元和逻辑结构。对于关键词提取,我们使用如Baichuan2这样的大型语言模型。该模型首先进行段落级别的关键词提取,然后通过多步骤优化过程进行 refinement。首先,应用提示工程来约束输出格式;接着进行指令级去重、语义合并和复合词分解;最后应用领域特定的过滤规则来消除模糊术语和通用词。结果是高质量的关键词集。对于结构解析,我们采用动态分割算法来处理长文本,并使用GLM4模型将文本转换为树状JSON格式,这种表示准确地捕捉了部分和段落之间的层次和顺序关系,为后续的图谱构建提供了结构化基础。

在语义关联挖掘阶段,我们专注于揭示关键词之间的深层语义关系。首先使用text2vec模型[47]对关键词和段落进行向量化,并使用余弦相似性计算构建关联矩阵。对于每个关键词,选择最相关的N个相关词,得到一组初步的关系对。接下来,引入基于Chroma向量数据库的关系完成机制,为每个关键词对检索最相关的原始文本片段作为支持证据,并将其输入ChatGLM2模型。模型生成具体的关系标签,如“与积极效果相关”或“是一种类型”。这一步将统计关联转化为明确的语义关系,从而适度提高了提取关系的准确性和可解释性。在双重图融合阶段,将先前阶段生成的语义图谱和结构图谱合并为统一的知识图谱。应用节点对齐策略,将结构图谱中的段落节点映射到语义图谱中相应的关键词集合,建立两个异构网络之间的连接。在关系融合过程中,优先考虑语义图谱中的语义关系;如果缺乏语义关系,则使用结构图中继承的结构关系作为 fallback。最终输出是一个既具有丰富语义深度又具有连贯文本逻辑的知识图谱。该架构的示意图如图2所示。一种知识提取方法,它结合了大型语言模型(LLM)的关键词提取、语义相关性分析和LLM关系补全功能。3.4. 关键词和结构的双重分析LLM-S2KG方法的核心创新在于它能够同时捕捉文本的语义核心和结构骨架。本节详细介绍了第一步:关键词和结构的双重解析。这一步的目标是从非结构化文本中并行提取两种类型的关键信息。第一种是一组代表文本核心概念的关键词;第二种是描述段落之间逻辑关系的树状结构表示。这种并行处理策略确保了生成的知识图在语义上丰富且在逻辑上连贯。3.4.1. 关键词提取和优化尽管传统的关键词提取方法(如TF-IDF和TextRank)在计算上高效,但它们主要基于词频统计或基于图的排名算法。这些方法在理解上下文语义方面的能力有限。因此,提取的关键词可能会忽略关键实体或包含无关的噪音。为了克服这一限制,我们利用了大型语言模型强大的先验语言知识和遵循指令的能力。具体来说,我们实施了一个由提示工程指导的三阶段提取和优化工作流程。首先,将预处理后的文本段落输入大型语言模型。我们设计了精确的提示指令来驱动段落级别的关键词提取。例如约束包括“关键词长度不应超过三个词”、“每个段落提取不超过十个关键词”以及“避免重复的主题术语”。这一步产生了一个候选关键词的初始列表。其次,我们对模型输出进行多层次去重处理。在基于LLM的去重阶段,我们使用提示指令来防止显式重复。例如,模型被指示只保留“森林资源管理”和“森林资源运营”这样的术语中的一个变体。在基于规则的去重阶段,我们应用手工制定的合并规则。这些规则将语义冗余或同义词的表达合并在一起。例如,“街道绿化和美化”和“城市绿道”被统一归类为“城市绿化”。我们还对复合关键词进行了语义分解。例如,将“树种多样性”拆分为“树种”和“多样性”这两个不同的单元。第三,我们应用关键词优化规则来过滤掉冗余信息。诸如“项目”这样的模糊概念和像“发展”这样的通用术语也被删除。此外,关键词以结构化格式存储,保留了关于其来源文档和段落位置的元数据。这种做法确保了后续知识关联步骤的可追溯性和上下文一致性。图3提供了这一过程的示意图。通过将LLM的深度语义理解与规则驱动的后处理策略相结合,这种方法有效地避免了传统关键词提取中的常见缺陷。这些缺陷包括语义过度概括、冗余噪音和有限的领域适应性。最终,我们得到了一个用于构建高质量知识图的强大语义基础,如图4所示。4. 图4. 语义知识图。最后,我们获得了一个优化的高质量关键词集合,表示为K = {k1, k2, …, kn}。这个集合作为后续语义关联挖掘阶段的基础关键词节点。LLM-S2KG方法的知识提取结果与传统的LLM三元组提取方法不同,如表1所示。表1. 三元组比较。具体来说,传统方法提取包含具有特定语义的有向边的三元组,其中节点代表实体(包括主体和对象),形成“节点-边-节点”三元组。例如,从句子“随着森林生态系统物种丰富度的显著增加,相应的生物多样性指数呈现上升趋势”中,我们可以提取三元组(物种丰富度, 促进, 生物多样性指数),如图5a所示。图5. (a) 传统三元组提取:具有特定语义的有向边 (例如,物种丰富度 → 促进 → 生物多样性指数)。(b) 我们提出的三元组提取:具有对称语义标签的无向边 (例如,物种丰富度与生物多样性指数正相关)。相比之下,我们的方法生成的三元组由两个关键词节点组成,通过一个带有对称语义标签的无向边连接(例如,正相关)。两个节点的顺序不会改变意义,边标签描述了关系(例如,“物种丰富度”与“生物多样性指数”正相关)。从同一个示例句子中,我们提取出如(物种丰富度, 正相关, 生物多样性指数)这样的三元组。这种结构直接支持逻辑推理(例如,因果推断、属性继承)和精确查询(例如,“哪些因素有助于生物多样性?”)。如图5b所示,这增强了LLM-S2KG在开放领域进行动态关系挖掘的适用性。3.4.2. 文本结构分析结构化信息提取旨在从非结构化文本中提取层次化的逻辑框架和上下文关系。这个过程包括两个阶段:首先基于大型语言模型生成树结构,然后进行规则驱动的结构关系解析。在树结构生成阶段,根据glm4-int模型的输入长度限制动态分割预处理后的文档段落——特别是其最大标记限制。这种分割确保每个片段在保持语义连贯性的同时仍在模型的处理范围内。然后将分割后的文本输入glm4-int模型。通过使用结构化生成提示(例如,“将文本转换为包含标题、段落和列表的树状JSON”),模型被引导生成一个层次嵌套的宏结构树(T)的JSON格式。在这棵树中,每个节点具有三个核心属性:“tag”字段指定一个语义标签(例如,h1/h2/h3表示章节标题,p表示段落,li表示列表项);“content”字段存储相应的文本材料;“children”数组记录子节点的列表,从而形成一个多级的树状逻辑框架。例如,一个章节标题可能包含子标题和段落,而一个段落可能包含嵌套的列表项。在结构关系解析阶段,规则引擎首先将JSON树转换为结构化三元组。对于具有父子关系的节点(例如,包含多个h3节点的h2节点),定义“父子段落”关系。对于在同一级别上依次排列的同级节点(例如,相邻的段落p1和p2),建立“前置”和“后续”上下文的线性关联。在跨片段分析过程中,识别一个片段的最后一个节点与下一个片段的第一个节点之间的语义一致性,以构建“逻辑延续”关系。这保持了文档结构的整体完整性。最后,将各个片段内的层次关系与跨片段的连续性关联整合起来,形成覆盖整个文本的全球结构化知识图。图6显示了结果结构化网络包含88,197个节点和287,590个关系。通过这个模块的处理,我们获得了两个关键的中间输出:一个由LLM优化的语义丰富关键词集K和一个捕获文本组织逻辑的树结构T。这些输出是第4.4节和第4.5节讨论的语义关联挖掘和双图融合的重要输入,从而为LLM-S2KG方法建立了坚实的基础,该方法结合了语义深度和结构合理性。3.5. 语义相关性分析在对关键词集K和文本结构树T进行并行解析之后,本研究进入第二步:核心语义关联挖掘阶段。这一阶段旨在超越简单的共现统计,通过量化关键词之间的深层语义关系来构建一个语义丰富的知识网络。该过程包含两个功能阶段:关联矩阵计算和关系补全。3.5.1. 关联矩阵计算语义相关性分析的目标是通过量化关键词之间的语义关系来构建一个知识网络。该过程分为两个阶段:关联矩阵计算和语义相关性筛选,然后是关系补全。在关联矩阵计算和语义相关性筛选阶段,text2vec-base-chinese [48]模型将预处理后的分割文本集(S)和关键词集(K)映射到高维语义向量集(SV,段落向量)和(KV,关键词向量)。然后构建一个大小为(|K| × |S|)的余弦相似性矩阵(C),其中每个元素C_{i, j}表示关键词(ki)和段落(sj)之间的语义相似性,计算方式为cos(kvi, svj)。根据这个矩阵,每个关键词的语义相关性向量是根据其在所有段落中的相似性分布得出的。此外,通过排序相似性得分,选择每个关键词的前(n)个最相关的关键词(Yi = {y_{i1}, y_{i2}, …, y_{in}}),形成一组无向关系对,构成初始的语义网络,如算法1所示。算法1. 语义关联分析需要:句子集T = {t1, t2, … tn},关键词集K = {k1, k2, … km}确保:R(语义关系集)1. 初始化:2. R ←[]3. TV ← []?# 句子向量列表4. KV ← []?# 关键词向量列表5.??# 将句子转换为向量6.??对于T中的每个句子ti do7.????tvi ← convert_to_vector(ti)8. 将tvi添加到TV中9.??end for10.??将关键词转换为向量11.??对于K中的每个关键词ki do12.???kvi ← convert_to_vector(ki)13. 将kvi添加到KV中14.??end for15.???创建相似性矩阵16. C ← create_matrix(len(K), len(T))?# |K| × |T| 矩阵17.??对于i ← 0 to len(K) ? 1 do18.??对于j ← 0 to len(T) ? 1 do19. C[i][j] ← cosine_similarity(KV[i], TV[j])20.???end for21.??end for22.???# 找到语义关联23.??对于i ← 0 to len(K) ? 1 do24.????找到前n个相似的关键词25. Yi ← []26.????sim_scores ← []27.????对于j ← 0 to len(K) ? 1 do28.????如果i ≠ j then29.??????????score ← cosine_similarity(C[i], C[j])?# 比较行向量30. 将(j, score)添加到sim_scores中31.????end if32.???end for33. 按得分降序排序sim_scores34. Yi ← sim_scores中的前n个索引35.???ri ← form_relationship(K[i], {K[y] for y in Yi})36. R ← R ∪ {ri}37.??end for38.??返回R 3.5.2. 关系补全和验证然而,仅基于分布相似性构建的初始网络G可能有局限性,例如忽略重要的远距离依赖关系或隐含的逻辑关系。为了提高网络的完整性和准确性,我们引入大型语言模型(LLMs)进行深度推理以完成关系补全和验证。在此阶段,系统首先使用Chroma向量数据库[49]建立一个本地知识库,以向量化形式存储预处理过的文本片段。通过LangChain [50]框架,实现LLM(ChatGLM2-6B模型[51])与知识库之间的交互。对于每个需要完成的关系对(ki, yij),系统检索前n个语义上最相关的文本片段D。将片段内容和关键词对输入到大型语言模型中,并使用设计的提示模板(例如,“推断关键词A和关键词B之间的关系类型”)来驱动模型生成的关系名称(例如,“正相关”、“交互关系”)。然后输出标准化的关系集。例如,对于关键词对(物种丰富度, 生物多样性指数),模型根据检索到的片段生成“正相关”关系,如“物种丰富度的增加导致生物多样性指数上升”。最终的结构化网络包含203,205个节点和448,153个关系,如图4所示。3.6. 双图融合和构建在上述步骤之后,我们得到了从同一源文本派生出的两种图表表示,但提供了不同的视角:语义关联网络(G_sem)和结构化知识网络(G_struct)。虽然G_sem在深层语义关系方面很丰富,但它可能缺乏全局逻辑结构。相反,G_struct清晰地描绘了文本的叙述流程和逻辑框架。然而,它的节点粒度较粗——在段落级别操作——并且其关系类型相对通用。LLM-S2KG方法的第三步涉及将这两个互补的图表合并成一个统一、全面且逻辑一致的知识图($G$)。本小节详细介绍了这种双图融合过程。3.6.1. 节点对齐和匹配融合过程的第一步是节点对齐,它建立了两个图表节点之间的对应关系。这种对齐是双图整合的基础。在这个框架中,$G_{sem}$中的节点代表优化后的关键词(实体或概念),而$G_{struct}$中的节点代表单个文本段落。我们采用基于从每个段落提取的关键词的直接对齐策略。在之前的处理(第3.5.2节)中,每个段落都经过了基于LLM的提取和优化过程,以生成其对应的关键词集。我们现在定义映射关系M:pi → K_pi,其中$p_i$是K_p = {k1, k2, …, k_m}中的一个段落节点,$K_p$是与其关联的关键词集合。这种映射确保每个段落节点都能准确地链接到语义图中的相应实体。因此,它为后续的关系融合提供了坚实的基础。在实际应用中,一个关键词通常会出现在多个逻辑上不同的段落中。在融合图中,这些关键词作为“枢纽”节点,连接不同的结构上下文。这种设计是我们方法中保留结构信息的关键机制。关键词节点不会混淆它们所属的不同段落上下文。相反,这些枢纽节点明确地链接了在文本中结构上分散但语义上相同的概念。通过从关键词节点到每个源段落节点维护独立的边,图保留了概念在不同文本位置和话语逻辑中的出现。这种“一对多”的对齐策略适度增强了文本中概念重用和逻辑关联的网状表示。

3.6.2. 关系融合
在完成节点对齐后,我们继续融合两个图中的关系。对于G_struct中的每个段落节点pi,我们使用映射M来确定其对应的关键词集合Kpi。核心操作是在统一的知识图$G$中为每个段落节点pi和每个关联的关键词节点km ∈ Kpi建立明确的边。这个过程在数学上可以表示为:?pi∈V(G_struct),?km∈M(pi),我们创建一条边e = (pi, 关系类型, km)。关系类型,如“包含核心概念”或“讨论主题”,被定义为准确表示段落与其核心语义单元之间的关联。通过这种机制,异构节点——段落和关键词——通过明确的语义定义的关系相互连接。这种整合将宏观层面的文本结构与微观层面的语义网络合并成一个层次化的、统一的图模型。这种方法在逻辑上是严谨的,并且严格依赖于对齐映射$M$。最终,它有效地促进了结构信息和语义信息在一个图中的协同作用。

4. 实验
我们从以下三个方面评估LLM-S2KG的性能:
RQ1:LLM-S2KG在知识检索任务中是否优于传统方法?
RQ2:LLM-S2KG能否提高封闭域问题回答的准确性?
RQ3:LLM-S2KG在开放域复杂问题回答任务中是否展现出语义深度的优势?

4.1. 数据集
THUCNews数据集[52]
该数据集包含740,000篇新闻文档,涵盖14个不同的领域,包括金融、教育、科学技术、体育和娱乐。与森林管理领域的专业文献不同,新闻文本的特点是口语化强、主题多样且分散,结构相对松散。我们特别选择这个数据集来评估LLM-S2KG的跨领域泛化能力。这涉及到评估模型是否能够在不进行任何领域适配的情况下(例如不更换关键词过滤规则或修改提示中的领域特定示例)有效地从新闻文本中提取语义和结构信息。这直接提供了证据来回答我们的方法是否仅适用于森林管理的问题。

MOOC判断题数据集:
该数据集来源于一个中国MOOC平台上提供的森林管理课程,包括六个不同的课程,例如“林业导论”。我们共提取了424道判断题及其官方答案(“正确”/“错误”),未经任何抽样或修改。由于我们的方法不涉及参数训练,因此没有进行训练集和测试集的划分。为了确保公正性,所有比较方法都使用相同的语料库和LLM参数进行评估。这个数据集专门用于评估填空题格式下的逻辑验证能力(如图7所示)。

CNKI论文数据集:
该数据集直接基于从中国国家知识基础设施(CNKI)下载的森林管理领域的PDF文章,选出了200篇高影响力的论文。从这些核心论文中手动提取了关键摘录,如中心论点、数据驱动的结论和方法描述。经过交叉验证后,这些摘录被转换成结构化的问答对,构成了最终的数据集。由于只保留了手工策划的问答对,因此不需要额外的技术处理,从而确保了高知识密度和逻辑一致性。这个数据集最终支持开放域问题回答实验中复杂语义推理能力的评估。

4.2. 对比方法
在这项研究中,提出的方法与两种不需要专门数据集或预训练的常见基线方法进行了比较:
KeyBERT [53]:一个用于关键词提取的Python库,利用BERT来识别关键词和短语。它生成文本嵌入,并使用余弦相似度来识别最能代表整个文档的术语。
TF-IDF [54]:一种在信息检索和文本挖掘中使用的统计加权技术,用于衡量文档内术语相对于语料库的重要性。TF-IDF值随着术语频率的增加而增加,但会被该术语在语料库中的出现频率所抵消,从而优化搜索相关性。
LLM-KG:该方法利用DeepSeek直接从输入文本中识别实体和关系,以提取结构化的三元组。这些三元组被系统地组织成一个知识图。最后,计算F1分数来评估LLM构建的图。

4.3. 实验参数和环境
所有实验都在以下环境中进行,以确保结果的可重复性和可比性:
4.3.1. 硬件环境
制造商:HP(惠普)
城市:长沙
国家:中国
操作系统:Windows 11 Professional 22H2
CPU:第12代Intel? Core? i7-12800HX 2.00 GHz(16核,24线程)
GPU:NVIDIA GeForce RTX 3080 Ti笔记本电脑GPU(16 GB GDDR6)
内存:64 GB DDR5 4800 MHz
存储:2TB NVMe SSD

4.3.2. 软件环境
编程语言:Python 3.9.18
开发环境:PyCharm Professional 2021.3.2
深度学习框架:PyTorch 2.0.1 + cu117
图数据库:Neo4j [55] Community Edition 5.12.0
向量数据库:ChromaDB 0.4.15
自然语言处理库:Transformers 4.35.2,LangChain 0.0.340

4.3.3. 模型参数设置
使用的LLM模型是ChatGLM2-6B,其参数配置如下:
max_length = 2048
top_p = 0.7
temperature = 0.95
repetition Penalty = 1.1
do_sample = True

4.3.4. 超参数设置
该方法涉及三个关键超参数:关键词关联的数量(Top-N)、余弦相似度阈值和LLM生成温度。基于10这个标准深度来评估召回性能[56,57]。余弦相似度阈值设为0.7,这是一个广泛用于确定文本间语义相关性的值[58]。LLM生成温度设为0.95,这是一个典型的配置,可以在生成质量和多样性之间取得平衡[59]。这种参数组合在初步验证中表现良好,所有后续实验都基于这些设置进行。

4.4. 评估指标
在查询实验中,使用F1分数作为评估指标。F1分数基于算法结果和预期答案之间的精确度(P)和召回率(R)来计算。具体公式如下:
(1)(2)(3)
在公式中,TP表示与预测答案完全匹配的正确答案的百分比;FP表示预测答案中出现但在正确答案中缺失的单词的百分比;FN表示正确答案中出现但在预测答案中缺失的单词的百分比。F1分数全面评估了检索的准确性和完整性,值越接近1表示精确度和召回率之间的平衡越好。

对于填空题问答实验,使用准确性作为评估指标。计算过程如下:系统首先对每个问题输出“正确”或“错误”的判断,然后计算生成答案向量与标准答案向量(例如,“错误”)之间的余弦相似度。如果计算出的相似度大于或等于预定义的阈值0.95,并且与手动验证一致,则认为回答是正确的。整体系统准确性定义为正确回答样本的数量占总样本数的比例。

在开放域问答实验中,我们使用手动评估作为最终准确性标准,同时使用余弦相似度作为自动化辅助指标。具体程序如下:系统生成的答案和手动编写的标准答案被转换为高维语义向量,并计算它们之间的余弦相似度。根据这个相似度,计算所有开放域问题的平均相似度。最终准确性由手动评估结果确定。

4.5. 结果与分析
4.5.1. 查询实验
为了评估LLM-S2KG的泛化检索能力,这项实验使用了THUCNews数据集。首先,使用text2vec基础的中国模型将问题集转换为高维语义向量。然后利用Neo4j的集成向量搜索功能建立搜索索引,并识别与每个查询语义最相似的n个节点。接着应用Cypher查询语言(CQL)来定位与这些目标节点相关联的额外节点,具体细节见算法2。最终结果总结在表2中。

表2. 查询实验结果。
THUCNews数据集包含14个新闻领域,其文本特征(如短句子、倒金字塔结构和缺乏明确的章节标题)与森林管理学术论文有很大不同。尽管如此,LLM-S2KG在所有子领域(例如金融、教育、技术)中都取得了稳定且稳定的F1分数,范围从0.82到0.86,方差低于0.02。相比之下,KeyBERT和TF-IDF的F1分数在不同领域之间存在显著波动(方差分别为0.07和0.09)。值得注意的是,在技术领域,由于专业术语的共现稀疏,它们的表现急剧下降。这些发现表明LLM-S2KG对文本类型和领域的变化相对不敏感。其核心机制——包括LLM辅助的关键词优化、向量空间中的语义关联和结构解析——不依赖于特定领域的词汇或语法模式,从而表现出强大的泛化能力。
在查询实验中,LLM-S2KG表现出显著的性能提升。其F1分数比KeyBERT提高了0.1183,比TF-IDF提高了0.1412(见图8)。这种显著改进可以归因于三个主要因素。首先,LLM-S2KG使用语义关联矩阵来计算关键词和段落之间的余弦相似度。它整合了LLM来动态完成深层关系,准确捕捉技术术语的隐含逻辑。例如,“什么是REDD+”的查询返回了“REDD研发中心”和“系统动态”等实体,揭示了因果关系。由于KeyBERT使用静态词向量,因此无法建模这种动态语义。同时,TF-IDF受到词频率的限制,难以区分同义词,如“森林资源管理”与“森林资源运营”。其次,LLM-S2KG创新性地将语义知识图(203,205个节点)与结构化知识图(88,197个节点)结合起来,实现多维协作检索。对于关于“国家林业基金”的查询,语义图检索到像“美国林业基金”这样的关键词。同时,结构图提供了关键证据,例如来自美国森林与纸张协会的资助链接。传统方法由于孤立处理文本而产生碎片化的结果。第三,领域特定的预处理(例如同义词合并、停用词去除)进一步提高了稳健性。它优化了长文本的分割(每个段落104-549个字符),并实现了细化规则,例如合并同义词和去除模糊的术语,如“project”。相比之下,KeyBERT和TF-IDF经常被长文档中的高频通用术语(如“development”)所干扰。总之,LLM-S2KG缓解了传统方法在语义建模和结构整合方面的一些限制。这是通过动态语义补全、双图融合和领域特定优化来实现的。如图8所示,LLM-S2KG在F1分数上分别比KeyBERT和TF-IDF高出0.1183和0.1412。有三个因素解释了这一差距。首先,LLM-S2KG通过语义关联分析和与ChatGLM等大型语言模型的动态关系推理,捕捉到了专门术语(如“REDD+”的隐含逻辑,使其能够理解复杂概念,如“REDD+与系统动态之间的因果关系”。相比之下,KeyBERT依赖于缺乏深度语义连接的静态词向量,而基于词频统计的TF-IDF在区分同义词和多义词时遇到困难。其次,LLM-S2KG整合了语义知识图(203k节点)和结构化知识图(88k节点),通过上下文信息(如专利发明人之间的关系)和全局语义网络(如树密度与疾病之间的相关性)实现多维度检索。传统方法则孤立了文本片段,导致结果碎片化。此外,LLM-S2KG通过对文本片段(104-549个单词)进行预处理,并使用领域知识库过滤冗余关键词(如合并“森林资源管理”和“森林资源运营”)来优化长文本处理。相比之下,KeyBERT和TF-IDF更容易受到长文本中噪声(如通用术语“项目”)的干扰。

4.5.2. 填空问答实验
为了评估构建的知识图问答(KGQA)系统的逻辑验证能力,我们使用MOOC中的判断题进行了测试。查询被提交到知识图中,检索到的节点信息被输入到大型语言模型(LLM)中,如ChatGLM,以生成响应。按照这个工作流程,答案的语义向量被量化。这些向量与“正确”和“错误”标签的相似性指标进行比较,以确定准确性。实验结果显示出卓越的性能,总体准确率为94.81%(见图9)。这一成功源于LLM-S2KG方法中的系统优化。通过结合基于LLM的关键词提取和语义关联分析,该系统超越了简单的共现统计。它计算词向量空间中的深度语义关联,如逻辑依赖性和功能链接。此外,它还整合了文本片段之间的结构关系,包括上下文连贯性和层次划分。这些增强措施适度增强了系统对复杂查询的语义解析能力。

4.5.3. 开放式问题实验
为了进一步验证LLM-S2KG的实用性,我们使用CNKI论文数据集设计了一个问答测试。首先,我们根据CNKI论文数据集向知识图提出问题。然后,检索到的节点信息被输入到大型语言模型(如ChatGLM)中以生成答案。结果显示在表3中。实验结果表明,LLM三元组提取方法的准确率为73.308%,加上原始句子补充后的准确率为80.085%,而Chroma数据库方法的准确率为76.150%。相比之下,LLM-S2KG方法的准确率显著提高,达到了85.885%。这种性能差距主要是由于方法设计上的系统差异。首先,LLM-S2KG使用语义关联分析来揭示关键词之间的深层关系,如因果关系和协调关系。它还整合了来自知识图的结构信息,以增强上下文逻辑推理。传统的LLM三元组提取仅依赖于浅层语义匹配,这常常忽略段落之间的隐含联系,导致答案碎片化或语义偏离。其次,LLM-S2KG在构建知识图时结合了文本结构和向量化。它将非结构化文本转换为具有“子段落”和“上下文”关系的图结构,从而可以明确建模复杂查询的推理路径。相比之下,Chroma数据库仅依赖于向量相似性检索,容易受到表面-level关键词共现的影响,难以捕捉到结构化的语义关联。此外,LLM-S2KG采用两阶段机制——语义关联过滤后进行LLM关系完成——来动态限制生成过程。这种方法有效地抑制了LLM的幻觉现象。例如,根据知识图节点关联完成关系名称适度提高了领域适应性。纯LLM三元组提取缺乏这种结构化约束,由于训练数据偏差,经常生成错误关联。最后,LLM-S2KG在预处理过程中进行了精细的文本分割和关键词优化,包括合并同义词和拆分复合词。这些步骤减少了噪声干扰。其他方法未能充分处理冗余表达,导致关键信息的丢失。

4.5.4. 消融研究
为了验证LLM-S2KG框架中两个核心组件——语义关联挖掘和结构解析的有效性,我们设计了一系列消融实验,每次移除一个组件,并观察模型在两个任务上的表现:MOOC判断题和CNKI开放式问答。具体来说,“无语义关联”变体移除了第3.6节描述的语义关联挖掘阶段,仅保留结构解析和双图融合。在这种情况下,融合的图仅包含段落节点之间的结构关系,如“父子”和“顺序”关系,没有关键词级别的语义边。“无结构解析”变体移除了第3.4.2节描述的结构解析阶段,仅基于语义关联网络构建知识图。在这种设置下,图仅包含关键词节点及其无向语义关系,缺乏段落级别的层次信息。完整模型包含这两个组件。实验结果显示在表4中。如表4所示,完整模型在这两个任务上都显著优于两个消融变体。移除语义关联模块导致开放式问答准确率下降9.1个百分点,判断题准确率下降7.2个百分点,表明关键词级别的语义关联网络为复杂的语义推理和逻辑判断提供了基本支持。移除结构解析模块导致的性能下降更为明显(开放式问答准确率下降14.6个百分点,判断题准确率下降10.6个百分点),这证明了本文的核心观点:文本中固有的层次结构对于维护知识图的逻辑完整性和支持跨句子推理至关重要。

这些消融实验不仅确认了每个组件的必要性,还阐明了它们各自的功能角色:语义关联挖掘模块将关键词映射到高维语义空间,并构建一个无向关系网络,揭示了超越简单共现的深层语义关系(例如因果或并行关系)。这使得知识图能够回答诸如“A和B之间的关系是什么?”之类的推理问题。结构解析模块将非结构化文本中的层次逻辑转换为明确的树状JSON表示,并将其转换为段落之间的“父子”和“顺序”边。这保持了宏观层面的叙事结构,确保了跨段落和跨section查询的逻辑一致性。双图融合模块将节点对齐,有机地整合结构骨架与语义连接,允许查询通过结构关系导航到相关段落,然后通过语义关系扩展到详细概念。从结果来看,LLM-S2KG构建的知识图在完形填空式(事实验证)任务上的准确率为94.8%,在开放式问答任务上的准确率为85.9%,略优于纯LLM基三元组提取(73.3%)。这表明整合结构信息显著增强了跨句子推理和逻辑一致性。因此,该方法的意义在于提供了一个统一的“语义-结构协同”建模范式,用于使用大型语言模型进行结构化知识提取,特别适合从具有层次逻辑的长文档中构建知识图。

5. 结论
本研究解决了使用大型语言模型(LLMs)构建知识图(KGs)的核心挑战。LLMs通常依赖于浅层词共现,难以捕捉深层语义逻辑。此外,现有研究经常忽略了内在的结构信息,如段落层次和顺序。这种忽视导致了不完整的语义和不一致的结构。为了解决这些问题,我们提出了LLM-S2KG。这一创新框架将强大的LLM语义理解与细粒度的相关性分析结合起来。该框架的核心涉及从非结构化文本中并行提取和融合两种关键信息类型。一种是通过LLMs和向量化构建的深层语义关联网络。另一种是通过解析文本逻辑生成的层次网络。这些网络集成到一个统一的知识图中,将语义深度与文本逻辑结合起来。LLM-S2KG的工作流程包括三个阶段。第一阶段涉及关键词和结构的双重解析。我们使用Baichuan2模型进行段落级别的关键词提取,并对长度和数量进行严格限制。多层次后处理,包括去重和基于规则的合并,确保了高质量、领域特定的关键词集。对于结构,该模型动态分割文本并使用GLM4将其解析为类似树的JSON格式,捕捉“父子”层次和顺序关系。第二阶段侧重于语义挖掘和完成。我们使用text2vec模型将关键词和段落映射到高维向量空间。通过计算余弦相似性,我们构建关联矩阵,为每个关键词选择Top N个相关词。随后,我们使用Chroma向量数据库和ChatGLM2生成标准化的关系名称,如“因果关联”。这将统计相关性转换为有意义的语义链接。第三阶段,我们将语义网络(超过200,000个节点)和结构网络(超过80,000个节点)合并。结果统一的知识图支持复杂推理。多维度实验验证了LLM-S2KG的有效性。在使用THUCNews数据集的查询任务中,我们的方法获得了比KeyBERT和TF-IDF更高的F1分数。在使用MOOC数据的完形填空式问答任务中,系统的准确率达到94.81%。在使用CNKI论文的开放式问答任务中,LLM-S2KG的准确率为85.885%。这些结果优于标准LLM三元组提取等基线方法。这些结果突显了该系统减少某些幻觉效应和增强上下文推理的能力。

这项研究做出了三个主要贡献。首先,它引入了一个语义-结构融合框架,消除了结构盲点。其次,它结合了LLM关键词优化和向量分析来揭示深层语义,同时减少了幻觉现象。第三,它提供了该框架在多个任务中有效性的实证证据。在构建知识图的过程中,尽管设计了多层去重、语义合并、规则过滤和手动验证预处理机制,模型在模糊或不明确的情况下仍可能出错。错误的主要来源包括:LLMs导致的幻觉,从而错误完成关系(例如,将“inhibit”误解为“promote”)。我们通过使用Chroma向量数据库和约束提示进行证据检索来缓解这一点,双图融合中的结构关系部分抵消了幻觉效应;结构解析的歧义(例如,标题层次不清晰、复杂的嵌套列表)通过格式统一和容错规则(父子段落、基于上下文的关系)来处理,异常结构降级为常规段落;节点对齐不匹配通过使用“一对多”映射策略来解决,保留所有可能的关联,并将边缘的选择留给后续查询上下文;OCR噪声残留(约10%)在关键词过滤阶段被过滤掉;以及模糊的指代问题(例如,“it”、“this method”)目前没有通过显式的共指解决模块来解决,这仍然是一个主要限制。尽管有这些结果,目前的研究仅关注文本数据。未来的工作将扩展到多模态数据和更深入的提示工程。我们还计划探索图神经网络(GNNs)用于动态知识图更新。总之,LLM-S2KG为使用大型语言模型的结构化知识提取提供了一个潜在的替代范式,特别适合从富含层次逻辑的长文档(如学术文献和技术报告)中构建知识图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号