随着大数据智能技术的发展,知识图谱被提出用于高效管理和表示大量元数据,成为知识建模和管理的基础。知识图谱可以大致分为基于语义网标准(例如RDF和OWL)的语义图谱和以Neo4j为代表的属性图模型。语义图谱强调形式语义和逻辑推理,而属性图谱则更注重数据灵活性和查询效率。本文关注基于RDF的模糊时空知识图谱。时空知识包含四维信息(时间和三维坐标)。传统的知识图谱模型难以直接表达多维信息,尤其是动态时间序列信息。此外,用连续的时空属性表示实体可能会导致大量冗余三元组。因此,一些研究致力于将时空知识图谱作为研究对象进行建模和管理,例如时空RDF的表示方法(Wang等人,2014, 2017a;Koubarakis和Kyzirakos,2010;Kyzirakos等人,2013;Hoffart等人,2013;Zhu等人,2020),以及时空RDF的存储和查询方法(Koubarakis和Kyzirakos,2010;Kyzirakos等人,2013;Vlachou等人,2019;Nikitopoulos等人,2018;Wu等人,2020a,2020b)等。同时,现实世界中的知识往往是不完整或不精确的。这种不精确性并非源于知识本身的不确定性,而是由于观察限制、来源可靠性的变化以及自然语言描述的模糊性(例如“可能”、“很可能”等)。这种认识论和语言上的不确定性需要在知识图谱中进行显式建模。已经有一些研究致力于建模和管理不确定知识图谱,扩展传统数据模型以支持不确定性,例如模糊XML(Ma和Yan,2016)和模糊UML(Yan等人,2019),以及不同类型数据库与不确定知识图谱之间的双向映射(Ma和Yan,2018;Fan等人,2019,2020),以及模糊RDF查询引擎(Li等人,2019a,2019b,2020)等。模糊知识建模和时空知识建模已经得到了很多研究,但模糊时空知识建模需要同时考虑时空知识的动态性和模糊知识的不确定性,目前仍处于研究初期。对于基于RDF的模糊时空知识建模(Udrea等人,2010),提出了一种基于注释逻辑的RDF扩展——注释RDF,该扩展设计了基于注释逻辑的时间扩展、空间扩展和模糊扩展(Bai等人,2021)。提出了一种模糊时空元组(s, p:, o, μ),并定义了模糊时空RDF图,其中模糊时空信息FL, FT由谓词携带(Hao等人,2024)。使用轨迹的逻辑模式组织时空信息。模糊时空知识图谱模型被形式化为(μS/S, μPso/PSO, μO/O, STM, μPst/PST, STI, μL/L, μT/T),其中STM、STI和PST分别表示模糊实体的时空运动、区间和谓词。这些方法解决了模糊时空建模中的挑战,但存在语义耦合度高和可扩展性差的问题。基于这一背景,本文主要关注不确定的时空知识图谱,提出了一种能够对不确定时空知识进行数据建模的模型,并给出了其正式定义。
在数据爆炸的时代,我们面临着处理大量数据的挑战。知识图谱嵌入技术应运而生,吸引了研究人员的关注。知识图谱嵌入模型旨在帮助机器理解大规模结构化知识,并在知识图谱上实现自动推理。这些模型学习实体、属性和关系之间的潜在语义关系,并将它们转换为多维向量,从而在向量空间中表示这些元素(Bordes等人,2013)。时空知识图谱包含丰富的时空信息,如时间点和坐标。这种数值时空信息在词汇层面表现出显著的词汇差异,但也具有潜在的时空相关性。为了嵌入时空知识图谱,一些时空知识图谱嵌入方法(Messner等人,2022;Nayyeri等人,2022)通过特定的数学结构捕捉和表征时空数据中的复杂关系,从而更好地将实体、关系和相应的时空信息从时空知识图谱映射到向量空间。近年来,不确定知识图谱嵌入技术受到了越来越多的关注,以使机器能够处理知识图谱中的不确定信息。知识的不确定性通常通过置信度来表达。不确定知识图谱嵌入的开创性工作是UKGE(Chen等人,2019),它提出了一种基于逻辑约束的置信度推理方法,通过捕捉相邻实体和属性之间的不确定性来嵌入不确定知识图谱。近年来,提出了一种名为BEUrRE的盒嵌入方法(Chen等人,2021),该方法将实体嵌入到盒向量中并通过关系投影建立事实。这种盒嵌入方法提供了更灵活的实体不确定性表示,从而在处理具有不确定性的知识图谱时提供了更准确和全面的表示能力。
目前关于嵌入不确定时空知识图谱的研究还很有限(Ji等人,2024)。提出了一种基于TransE的不确定时空知识图谱嵌入方法。然而,这种方法只能为向量空间中的实体提供独立的向量表示,而知识图谱中的关系、时间知识、空间知识和不确定知识共享相同的向量表示。为了解决这一限制,本文提出了一种新的不确定时空知识图谱嵌入模型(USTKGE),它可以将不确定的时空知识图谱完全映射到向量空间中,实现实体、关系、置信度、时间间隔和空间知识的独立嵌入。具体来说,我们将不确定的时空元组(s, p, o, t, l, μ)编码为domain(s, o)、domain(p)和domain(t, l)。USTKGE利用domain(p)来捕捉domain(s, o)和domain(t, l)之间的语义关系。这三个域的重叠区域代表了不确定时空元组μ的置信度,从而在向量空间中自然地表达了不确定时空知识图谱元组的每个元素。此外,我们探索了不确定时空知识图谱上的多跳推理,并提出了一种基于USTKGE的多跳推理方法。多跳推理的本质是完成和预测不完整的知识链。我们利用模糊时空知识元组中元素的独立向量表示来实现模糊时空知识链的总体向量表示,并为知识链推理设计了目标函数和损失函数。我们在基准数据集上进行了实验,实验结果验证了所提出模型和方法在嵌入不确定时空知识图谱和进行多跳推理方面的有效性。
本文的其余部分组织如下。第2节介绍相关工作。第3节介绍不确定时空数据模型并讨论不确定时空知识图谱嵌入。第4节详细介绍了所提出的嵌入模型USTKGE。第5节提供了基于USTKGE的多跳推理方法。第6节提供了实验设置并分析了实验结果。第7节总结了本文。