从共现到连贯性:基于量子信息的表示学习在知识图谱补全中的应用

《Knowledge-Based Systems》:From Co-occurrence to Coherence: Quantum-Informed Representation Learning for Knowledge Graph Completion

【字体: 时间:2026年01月26日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  知识图谱补全(KGC)面临语义纠缠建模困难,本文提出量子启发的QIKGC框架,通过嵌入希尔伯特空间、矩阵产品态(MPS)高效建模高维语义结构,并采用量子测量结合断层扫描评分实现上下文感知的实体表示。实验表明,QIKGC在WN18RR、FB15k-237、Kinship和YAGO3-10上显著优于基线方法,MRR最高提升至0.926。

  
赵曼坤|徐炳涛|郭九江|于健|徐天翼|于梅
天津大学智能与计算学院,中国天津,300350

摘要

知识图谱补全(KGC)旨在通过从观察到的三元组中学习潜在的语义模式来推断缺失的事实。虽然现有方法通过传统的概率框架学习表面的语义共现,但它们难以捕捉到诸如纠缠等非经典语义属性,这些属性支配着语义之间的内在关联。这些纠缠对于消除上下文语义的歧义至关重要,而在传统的概率空间中无法表示这些属性,因为缺乏表示量子特性的数学工具。我们提出了QIKGC这一基于量子理论的KGC框架,它(i)将实体语义嵌入希尔伯特空间以明确建模纠缠;(ii)利用矩阵乘积态以多项式复杂度近似高维语义结构;(iii)将关系视为量子测量,并通过基于层析成像的评分获得特定于上下文的实体表示。据我们所知,这是第一个将语义纠缠建模与可训练的量子算子统一起来的KGC模型,同时仍能在经典硬件上保持高效运行。在四个基准测试上的广泛实验表明了明显的定量提升,例如在WN18RR上的MRR从0.511提高到了0.537,在Kinship上的MRR从0.904提高到了0.926,优于最佳基线方法。

引言

知识图谱(KG)是实体及其关系的结构化表示,是语言理解[1]、[2]、大数据分析[3]和危机管理[4]、[5]等任务的关键基础。然而,现实世界中的KG往往不完整,导致应用性能受限[6]、[7]。为了解决这一问题,知识图谱补全(KGC)旨在通过从已知结构中学习实体和关系的潜在语义模式来推断缺失的事实。多义性是实体语义模式的一个关键方面,指的是实体具有多种相关含义的能力[8]。从语义理论的角度来看,多义实体由称为语义素(sememes)的原子语义单元组成[9]。语义素存在于一个复杂的相关性网络中,并表现出叠加和纠缠等非经典属性,而不仅仅是完全独立的单元。我们将KG中的这种现象称为语义纠缠。
现有方法难以捕捉多义实体中语义素之间的纠缠。数学空间方法通过距离变换和语义匹配来构建实体-关系表示。基于神经网络的方法通过邻域聚合来丰富实体特征。这两种范式都基于传统的概率框架,缺乏表示不可分离纠缠的工具。传统方法假设语义维度是独立和静态的,而一些现实世界的语义需要以统一的形式来理解。图1展示了传统语义空间与真实语义复杂性之间的差异。我们使用斜体表示实体和关系,用<>表示语义素。埃隆·马斯克在不同方面表现出不同的语义,而founder_of关系只能捕捉到其中的一部分语义。在埃隆·马斯克的资料中,adventurous语义素和exploration语义素之间的语义纠缠创建了一个相互依赖的链接,影响了founder_of的解释。虽然founder_of直接关注,但它并没有明确捕捉到语义素。当单独考虑语义时,founder_of无法区分< />和,因为它们共享语义素。当将作为一个整体来考虑时,它们之间的纠缠为提供了区分正确答案的额外信息。这些复杂的语义相互作用只能从统一的、不可分割的角度来理解,类似于量子纠缠在不同粒子之间传递信息的方式。如果分别对这些语义素进行建模,就会丢失一些细微的相关性。因此,需要一个整体的框架来弥合传统语义空间与现实世界中纠缠语义之间的差距。
通过对KG中复杂关系和丰富语义模式的深入分析,我们发现它们的结构特性与量子系统具有根本的相似性,特别是在实体之间的纠缠方面。进一步的研究表明,量子理论为KG中的语义纠缠提供了一个自然的形式主义。我们提出了一种新颖的基于量子理论的知识图谱补全(QIKGC)方法,该方法将KG的语义空间建模在希尔伯特空间中。具体来说,QIKGC将实体表示为量子多体态,并在特定的关系背景下将关系建模为参数化的量子算子。我们使用量子纠缠熵来量化语义之间的相关性。然而,直接将语义空间映射到希尔伯特空间会面临参数指数级增长的问题。为了解决这个问题,我们通过将实体表示为矩阵乘积态(MPS)[10]来分解语义空间,确保QIKGC在经典计算机上具有多项式复杂度。本文的主要创新包括:
1) 我们首次揭示了现实世界实体之间的语义纠缠现象,并提出了一个在量子理论框架内的KG表示范式。
2) 我们引入了一种受量子启发的KGC方法,有效模拟了实体语义的纠缠,并能够在经典计算机上模拟大型语义系统。
3) 在四个数据集上的广泛实验证明了QIKGC的有效性,并表明其显著优于现有的最先进方法。

相关工作

相关工作

在本节中,我们介绍了传统的KGC方法,并批判性地分析了它们在模拟语义纠缠方面的局限性。然后,我们回顾了来自自然语言处理(NLP)和认知计算的受量子启发的方法,这些方法通过量子理论原理(如纠缠和叠加)来形式化上下文语义,为它们在KGC中的应用奠定了基础。

预备知识

在本节中,我们介绍了KGC的定义和量子理论的关键概念。

方法

本节介绍了方法架构和关键组成部分。整个框架如图2所示。

实验设置

在本节中,我们简要描述了实验中使用的数据集。为了验证所提出的QIKGC的有效性,我们将其与著名的KGC方法在链接预测任务上进行了比较。
数据集:我们在四个常见的KGC数据集上进行评估,包括FB15k-237 [56]、WN18RR、YAGO3-10和Kinship [57]。FB15k-237是FB15k的子集,而FB15k本身源自Freebase。它包含14,541个实体和237个关系,共有310,116个事实三元组。WN18RR是WordNet的子集,

结论

在这项工作中,我们提出了QIKGC,这是一种受量子理论启发的KGC框架,它弥合了传统语义建模与现实世界KG中固有的非经典纠缠之间的差距。我们在WN18RR、FB15k-237、Kinship和YAGO3-10上进行了广泛的实验。实验结果表明,QIKGC的表现优于基于MS和NN的方法。
尽管取得了进展,但仍存在局限性。MPS的链状结构可能难以处理循环语义依赖性,以及纠缠的可解释性

CRediT作者贡献声明

赵曼坤:写作——审稿与编辑、验证、监督、方法论、调查、形式分析、概念化。徐炳涛:写作——原始草稿、可视化、方法论、调查、形式分析、数据整理、概念化。郭九江:写作——审稿与编辑、验证、监督、方法论、调查、概念化。于健:写作——审稿与编辑、监督、软件、资源、项目管理。徐天翼:写作——审稿

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号