在大型模糊时空RDF图中的子图同构查询

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

在大型模糊时空RDF图中的子图同构查询

【字体：大中小】 时间：2026年03月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　RDF模型扩展用于处理模糊时空数据并设计子图同构查询算法，通过时空和模糊性过滤机制提升查询效率。

白璐怡|狄晓峰|王金耀|卢佳佳|李青

北方民族大学计算机科学与工程学院，中国银川750021

摘要

资源描述框架（RDF）为网络上资源的表示提供了一个结构化的框架。网络数据可能同时包含时空信息和模糊信息。由于经典的RDF模型无法表示网络数据的时空和模糊属性，因此利用RDF对模糊时空数据进行建模具有重要意义。目前，研究人员主要通过子图匹配来研究RDF查询方法，但他们没有同时考虑时空属性和模糊属性。为了克服这一限制，我们提出了一种更通用的模糊时空RDF数据模型，并进一步设计了一种用于模糊时空RDF数据的新颖子图同构查询算法。我们的算法开发了两个过滤器来缩小搜索范围。此外，子图同构方法返回的查询结果按相似度降序排列。最终的实验结果表明了我们方法的性能优势。

引言

RDF是一种广泛用于描述万维网上资源的框架，于2004年2月被万维网联盟（W3C）批准为标准。在RDF数据模型中，一个声明被概念化为一个三元组，格式为（s, p, o），包括一个主体（资源）、一个谓词（属性类型）和一个对象（属性值）。根据RDF规范，主体被限制为统一资源标识符（URIs）或空白节点，谓词始终表示为URI引用，对象可以是URIs、字面量或空白节点[1]。

关于RDF查询，许多研究人员从不同角度进行了研究和优化。Abbas等人[2]使用ShEx约束来验证RDF数据，传达预期的图模式，并促进用户界面表的生成[3]。具体来说，他们建立了一组格式良好的ShEx模式，然后设计了一种优化方法，该方法涉及计算和为查询三元组模式分配排名，利用从ShEx模式中获取的信息。Leinberger等人[4]提出使用SHACL（TyCuS）进行类型检查，从查询中获取SHACL形状，并将数据形状和查询形状作为λ-演算中的类型。Chantrapornchai等人[5]提出了一个框架，利用TripleID-Q在GPU中处理大型RDF数据集的查询，并具有简单的GPU表示转换方法。同时，还给出了一个并行算法，使用数千个GPU线程来执行数据查询。

与此同时，时空数据在多个领域中出现，包括交通监控[6]、人员重新识别[7]和动物检测[8]等。实际上，大多数实体都具有空间或时间信息。鉴于RDF是网络上资源表示的广泛使用的框架，而经典的RDF模型无法表示数据的时空属性，因此研究基于RDF的时空数据表示和查询方法非常重要。在[9]中，吴等人引入了一种kSPT查询方法，该方法将基于关键词的搜索查询与应用于RDF数据的空间语义相结合，通过将时间语义整合到现有的kSP查询框架中。kSP和kSPT查询的创新之处在于它们结合了时空意识，这使它们区别于依赖结构化查询语言的传统方法。Eom等人[10]整合了数据的时间和地理空间属性，并设计了一种基于网格索引方法的时空索引，以加快搜索过程。

此外，一些数据是模糊的，因为数据收集、提取或整合不准确，或者数据本身的值是模糊的。针对这种情况，出现了一些关于查询模糊RDF数据的研究。Li等人[11]基于模糊集理论对模糊RDF数据进行建模，并提出了一种基于查询路径分解的算法，有效解决了关于模糊RDF图的子图模式查询问题。Lian等人[12]提出了一组修剪规则，包括结构修剪（考虑顶点和边的分布以及其他结构信息）和概率修剪（推导成本模型）。

此外，Lee等人[13]表明，一个好的子图同构算法比基于图索引的算法更高效。子图同构算法有着悠久的历史，包括：Ullmann算法[14]、VF2[15]、QuickSI[16]、GraphQL[17]、GADDI[18]、SPath[19]、Turbo_ISO[20]、Turbo_HOM++[21]和SubISO[22]等。为了加快查询过程，这些方法有助于建立最优匹配序列并制定高效的修剪标准。然而，只有[21]用于查询RDF数据。此外，这些方法都没有考虑数据的时空和模糊属性。

尽管之前的研究人员对RDF数据、时空RDF数据和模糊RDF数据进行了许多查询研究，但基于RDF查询模糊时空数据的研究很少。

我们将提供一个基于我们实验数据集的模糊时空数据图的示例。图1展示了四个三元组：

•

(Górnik Leczna, isLocatedIn, Leczna)，其中主体“Górnik Leczna”的概率为0.62，对象“Leczna”的概率为0.77，Leczna/s1表示Leczna的空间位置（纬度和经度）为（51.3025, 22.8851），“Górnik Leczna”和“Leczna”之间这种关系的概率为0.48；

•

(Mariusz Pawelec, playsFor, Górnik Leczna)，其中主体“Mariusz Pawelec”的概率为0.69，对象“Górnik Leczna”的概率为0.81，“Mariusz Pawelec”和“Górnik Leczna”之间关系的有效期为[2003.00.00, 2007.00.00]，这种关系的概率为0.48；

•

(Mariusz Pawelec, isCitizenOf, Poland)，其中主体“Mariusz Pawelec”的概率为0.94，对象“Poland”的概率为0.85，“Mariusz Pawelec”和“Poland”之间这种关系的概率为0.45；

•

(Mariusz Pawelec, playsFor, Górnik Zabrze)，其中主体“Mariusz Pawelec”的概率为0.55，对象“Górnik Zabrze”的概率为0.53，Górnik Zabrze/s2表示Górnik Zabrze的空间位置（纬度和经度）为（50.29598, 18.76859），“Mariusz Pawelec”和“Górnik Zabrze”之间关系的有效期为[2003.00.00, 2007.00.00]，这种关系的概率为0.47。

这些例子分别是模糊空间RDF三元组、模糊时间RDF三元组、模糊RDF三元组和模糊时空RDF三元组。如果我们想查询“当满足度达到0.45时，Mariusz Pawelec何时为Górnik Zabrze效力以及Górnik Zabrze的位置在哪里”（谓词用绿色字体表示的三元组），显然，上述方法无法很好地处理这个查询。因此，研究模糊时空RDF查询是必要的。

鉴于此，我们提出了一个模糊时空RDF数据模型和基于该模型的子图同构查询算法。贡献总结如下：

•

我们提出了一个模糊时空RDF数据模型，旨在促进RDF框架内空间和时间信息的整合，以便信息检索。

•

我们提出了一种新的子图同构概念和模糊时空RDF数据的相似度计算方法，然后将其应用于子图同构查询算法。

•

为了缩小搜索范围，我们开发了两个过滤器：顶点过滤器和边过滤器；度过滤器。

本文的后续部分结构如下：第2节描述相关工作。第3节提出了模糊时空RDF数据模型。第4节设计了子图同构查询算法。第5节展示了实验结果，第6节总结了本文。

模糊时空RDF表示

在模糊RDF模型[31]的基础上，我们将时间信息分配给整个三元组，并将空间信息整合到主体和对象组件中，以有效表示RDF数据的时间、空间和模糊属性。

定义1（模糊时空RDF三元组）。 (s/(s_s, μ_s), p/ρ, o/(s_o, μ_o))[T] 用于表示特定的模糊时空三元组，其特征是与时间间隔T相关联的模糊空间RDF三元组，其中：

•

s, p和o是

子图同构查询算法

在本节中，我们提出了一种称为SGIQ的算法，用于大型模糊时空RDF图中的子图同构查询。

我们的算法受到子图同构查询[20][21]成功的启发，分为三个阶段，如图4所示。

•

在第一阶段，它使用数据图G和查询图Q作为参数调用DetermineMO算法，以获得Q中顶点的匹配顺序morder（其中起始查询顶点u_s是第一个），并对顶点进行排序

实验设置

环境：实验在运行Windows 10（64位）的计算机上进行，配备了Intel(R) Core(TM) i5-8400 CPU，时钟速度为2.80 GHz，内存为8GB。所有算法均使用Python 3.7.5版本实现。

数据集：YAGO [47]是一个来自Wikipedia、WordNet和GeoNames的真实数据集。因此，我们获得了总计541 MB的庞大数据集，其中包括时间RDF和空间RDF。

数据生成：我们遵循并使用了四种

结论

在本文中，我们提出了一个重要的查询问题：“子图同构能否用于高效的模糊时空RDF查询？”（例如，“当满足度达到0.45时，Mariusz Pawelec何时为Górnik Zabrze效力以及Górnik Zabrze的位置在哪里？”）为了解决这个问题，我们为模糊时空RDF数据开发了一种相应的子图同构查询算法，并采用了一系列修剪规则。然后我们从三个角度进行了实验以展示

CRediT作者贡献声明

白璐怡：形式分析、概念化、写作——审阅与编辑、写作——初稿、验证、方法论、调查。狄晓峰：写作——初稿、验证、方法论、调查、形式分析。王金耀：写作——审阅与编辑、验证、形式分析。卢佳佳：写作——审阅与编辑、验证。李青：写作——审阅与编辑。

利益冲突声明

作者声明没有利益冲突。资助方在研究设计、数据收集、分析或解释；手稿撰写；以及结果发表决定方面没有发挥作用。

致谢

本项工作得到了中国国家自然科学基金（61402087）、河北省自然科学基金（F2022501015）和中央高校基本科研业务费（2023GFYD003）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作