《Information Fusion》:Generalization of Knowledge Graph Grounded Models: A Multi-Perspective Survey
编辑推荐:
知识图谱通用化模型研究综述:构建四维分类框架(特征、类型、维度、任务),系统分析知识图谱在特征融合、跨类型迁移、时空维度扩展及多任务泛化中的核心挑战,提出基础模型构建、多模态融合、动态演化机制、个性化适配四大未来方向。
王一鸣|李倩|杜云涛|崔丽珍
山东大学软件学院,中国山东省济南市高新区顺华路1500号,250101
摘要
知识图谱(KGs)为现实世界知识提供了结构化和符号化的表示方式,并被广泛应用于各种知识密集型应用中。随着它们在开放环境中的日益部署,泛化已成为一个关键挑战。基于知识图谱的模型的泛化能力指的是模型从特定知识中学习模式和结构,并将这些学习到的模式应用于新的、未见的数据或任务的能力。现有的关于基于知识图谱的模型泛化能力的研究通常局限于提出个别方法或从单一视角进行分析。不同的研究采用不同的假设、评估设置和泛化概念,这阻碍了对研究领域的统一理解。在本文中,我们调查了200多篇与知识图谱相关的论文,并首次从特征、类型、维度和任务等多个角度对基于知识图谱的模型的泛化能力进行了全面分析。本研究旨在识别核心挑战和发展方向,为知识图谱研究人员提供了一个清晰的概念框架,并为理解和推进泛化能力提供了新的视角。
引言
知识图谱(KGs)以三元组(主体实体、关系、对象实体)的形式组织文本事实。除了简单的存储功能外,KGs还支持细粒度推理、逻辑推理和语义理解,使其成为现代人工智能系统的基础。随着大规模知识的快速发展,KGs已广泛应用于各种系统和领域,包括问答(QA)[1]、信息检索[2]等。这些不同的应用突显了一个共同挑战:如何有效地整合和推理异构的、不完整或动态的知识来源,这是KGs泛化的关键。
对KGs的通用研究往往孤立地关注技术方面,如嵌入技术[3]或时间建模[4]、[5],而忽略了对其泛化能力的全面分析。虽然一些研究关注了KGs的泛化问题,特别是对未见元素的预测和推理。其中一些研究预测了知识库外实体的缺失三元组[6],而其他研究则探索了将模型泛化到包含未见实体的新KGs的归纳关系预测[7]、[8],尤其是在资源匮乏的环境中,如少样本[9]和零样本[10]设置。然而,专门针对KGs泛化的系统调查仍然缺乏。
最近的调查试图系统化KGs的研究。从多种模态融合的角度来看,多模态KGs(MMKGs)的调查强调了如何融合视觉、文本或结构信号以增强表示学习和推理[11]、[12]。然而,这些调查并未涉及不同类型的KGs或任务。在KGs三元组中的第四个维度——时间信息也得到了研究。与时间KGs(TKGs)相关的调查涵盖了其时间表示的学习和推理[4]。Wang等人[13]深入探讨了时间信息建模的技术细节,并全面讨论了具体的逻辑细节。但他们仍然孤立地分析时间建模。其他研究则关注KGs上知识的演化[14],或者专注于推理,例如神经符号推理[15],或者扩展到不同知识或未知分布的推理能力的泛化[3]。
尽管取得了这些进展,但这些研究仍然局限于从单一视角提出方法或进行分析。它们将分析限制在特定的KGs(例如时间或多模态数据)或单一的方法论视角(例如推理架构)。因此,对于基于知识图谱的模型的泛化能力仍缺乏全面的分析。
在本文中,我们通过从多个角度分析基于知识图谱的模型来弥合这一差距,包括特征、类型、维度和任务(我们还提供了一个直观的四维图表,如图1所示):
特征(F):模型在KG特征上的泛化能力,包括结构特征[16]、文本特征[17]及其融合[18]。
类型(T):模型在不同类型KGs上的泛化能力,包括传递类型[19]、归纳类型[20]、完全归纳类型[21]和独立类型[22]。
维度(D):模型在KG信息维度上的泛化能力,包括时间维度[23]和模态维度[24]。
任务(K):模型在KG任务上的泛化能力,包括基本KG任务[25]、领域KG任务[26]和多任务[27]泛化。
图2显示了分类的详细信息。我们调查了200多篇论文,包括2022-2025年著名国际会议的相关论文以及一些经典论文。该图表根据我们提出的四维框架对这些方法进行了组织。我们还为每个类别添加了符号标签,如
F, T, D, K。这些符号在整个论文中提供了简洁统一的参考,其详细定义在表1中呈现。总体而言,这项调查提供了对KG泛化核心挑战和发展方向的详细分析,并为未来的研究提供了新的视角。总结来说,本文的贡献如下:
(1)全面的多视角KG泛化调查。我们进行了首次系统的KG泛化调查,从多个研究视角进行分析,并强调了多源和异构信息融合在KG泛化中的作用。这项工作调查了来自最近顶级会议和期刊的200多篇代表性论文,涵盖了广泛的任务和应用领域。
(2)四维分类框架和深入分析。我们引入了一个新颖的四维框架(特征(F)、类型(T)、维度(D)、任务(K)),提供了一个细粒度的分类体系,克服了单一视角研究的局限性。在此框架的基础上,我们对每个类别进行了深入分析,以检查现有方法的数据前提、建模策略和适用性限制,以及它们的优点和局限性。
(3)数据集概览和未来研究的可行路线图。我们总结了各种KG泛化任务中广泛使用的数据集。此外,我们确定了四个关键的未来研究方向,包括KG基础模型、LLM与KG的深度整合、演变的KGs和个性化KGs,为未来的进展提供了结构化的指导。
章节片段
初步
本节提供了与基于知识图谱的模型泛化相关的关键概念和正式定义的基础概述。为了清晰和便于参考,所有相关符号都在表1中进行了总结。表3展示了不同KGs定义的比较总结。
根据维度,KGs可以分为:传统KGs、时间KGs和多模态KGs,其中TKGs从时间角度扩展了传统KGs,而MMKGs扩展了传统KGs
特征泛化(F)
KGs中封装的信息是广泛且异构的。在KGs的研究中,精确提取和整合结构和文本信息是一个重要问题。泛化KG的一个关键方面是在不同任务中处理和应用这些信息。在本章中,我们讨论了结构、文本特征及其融合,如图5所示。
类型泛化(T)
KGs本质上是复杂且动态的。随着数据的发展,在不同KGs之间泛化学习到的规则和方法仍然是一个核心挑战。大量研究已经解决了这个问题。本章将这种泛化分为四种类型,如图3所示。
维度泛化(D)
维度泛化描述了当KGs扩展了额外的维度(如时间和模态)时,基于知识图谱的模型保持有效表示和推理的能力,如图6所示。本章强调了两个代表性方向:第5.1节涵盖了包含时间关系事实的TKGs,第5.2节讨论了将模态感知内容整合到KG结构中的MMKGs。这两者都表明了维度敏感性的必要性任务泛化(K)
任务泛化指的是KG模型在不同目标、数据分布和监督设置下的下游任务中保持性能的能力。与之前讨论的特征、类型和维度视角不同,它强调了模型对多样化任务目标的更广泛适应性,如图7所示。本节探讨了四个代表性方向:基本KG任务、领域KG任务和多任务泛化。数据集
我们提供了本文讨论的各种类型KG相关数据集的全面概述,包括描述性信息和统计摘要。
未来展望
在本节中,我们强调了从现有泛化框架中发现的四个自然产生的未来研究方向。它们涵盖了基础建模范式、推理架构、时间演化机制和以用户为中心的适应,共同指向智能KGs系统。
KG基础模型。基于对< />ide、Dtemp和< />dom的分析,现有的KG基础模型在作为统一框架的能力方面仍然有限
结论
本调查聚焦于KGs的泛化能力,并介绍了基于知识图谱的模型。我们提出了一个四维分类框架,从四个视角(特征、类型、维度、任务)全面分类了基于知识图谱的模型。该框架系统地检查了KGs泛化的关键挑战和代表性解决方案。
通过分析200多项代表性研究,我们认为KGs的泛化从根本上涉及理解
CRediT作者贡献声明
王一鸣:写作——审阅与编辑、撰写原始草稿、验证、软件、资源、方法论、调查、形式分析、数据整理。李倩:写作——审阅与编辑、撰写原始草稿、验证、监督、资源获取、概念化。杜云涛:写作——审阅与编辑、验证、资源、形式分析。崔丽珍:监督、资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。