在大型模糊时空RDF图中的子图同构查询

【字体: 时间:2026年03月13日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  RDF模型扩展用于处理模糊时空数据并设计子图同构查询算法,通过时空和模糊性过滤机制提升查询效率。

  
白璐怡|狄晓峰|王金耀|卢佳佳|李青
北方民族大学计算机科学与工程学院,中国银川750021

摘要

资源描述框架(RDF)为网络上资源的表示提供了一个结构化的框架。网络数据可能同时包含时空信息和模糊信息。由于经典的RDF模型无法表示网络数据的时空和模糊属性,因此利用RDF对模糊时空数据进行建模具有重要意义。目前,研究人员主要通过子图匹配来研究RDF查询方法,但他们没有同时考虑时空属性和模糊属性。为了克服这一限制,我们提出了一种更通用的模糊时空RDF数据模型,并进一步设计了一种用于模糊时空RDF数据的新颖子图同构查询算法。我们的算法开发了两个过滤器来缩小搜索范围。此外,子图同构方法返回的查询结果按相似度降序排列。最终的实验结果表明了我们方法的性能优势。

引言

RDF是一种广泛用于描述万维网上资源的框架,于2004年2月被万维网联盟(W3C)批准为标准。在RDF数据模型中,一个声明被概念化为一个三元组,格式为(s, p, o),包括一个主体(资源)、一个谓词(属性类型)和一个对象(属性值)。根据RDF规范,主体被限制为统一资源标识符(URIs)或空白节点,谓词始终表示为URI引用,对象可以是URIs、字面量或空白节点[1]。
关于RDF查询,许多研究人员从不同角度进行了研究和优化。Abbas等人[2]使用ShEx约束来验证RDF数据,传达预期的图模式,并促进用户界面表的生成[3]。具体来说,他们建立了一组格式良好的ShEx模式,然后设计了一种优化方法,该方法涉及计算和为查询三元组模式分配排名,利用从ShEx模式中获取的信息。Leinberger等人[4]提出使用SHACL(TyCuS)进行类型检查,从查询中获取SHACL形状,并将数据形状和查询形状作为λ-演算中的类型。Chantrapornchai等人[5]提出了一个框架,利用TripleID-Q在GPU中处理大型RDF数据集的查询,并具有简单的GPU表示转换方法。同时,还给出了一个并行算法,使用数千个GPU线程来执行数据查询。
与此同时,时空数据在多个领域中出现,包括交通监控[6]、人员重新识别[7]和动物检测[8]等。实际上,大多数实体都具有空间或时间信息。鉴于RDF是网络上资源表示的广泛使用的框架,而经典的RDF模型无法表示数据的时空属性,因此研究基于RDF的时空数据表示和查询方法非常重要。在[9]中,吴等人引入了一种kSPT查询方法,该方法将基于关键词的搜索查询与应用于RDF数据的空间语义相结合,通过将时间语义整合到现有的kSP查询框架中。kSP和kSPT查询的创新之处在于它们结合了时空意识,这使它们区别于依赖结构化查询语言的传统方法。Eom等人[10]整合了数据的时间和地理空间属性,并设计了一种基于网格索引方法的时空索引,以加快搜索过程。
此外,一些数据是模糊的,因为数据收集、提取或整合不准确,或者数据本身的值是模糊的。针对这种情况,出现了一些关于查询模糊RDF数据的研究。Li等人[11]基于模糊集理论对模糊RDF数据进行建模,并提出了一种基于查询路径分解的算法,有效解决了关于模糊RDF图的子图模式查询问题。Lian等人[12]提出了一组修剪规则,包括结构修剪(考虑顶点和边的分布以及其他结构信息)和概率修剪(推导成本模型)。
此外,Lee等人[13]表明,一个好的子图同构算法比基于图索引的算法更高效。子图同构算法有着悠久的历史,包括:Ullmann算法[14]、VF2[15]、QuickSI[16]、GraphQL[17]、GADDI[18]、SPath[19]、TurboISO[20]、TurboHOM++[21]和SubISO[22]等。为了加快查询过程,这些方法有助于建立最优匹配序列并制定高效的修剪标准。然而,只有[21]用于查询RDF数据。此外,这些方法都没有考虑数据的时空和模糊属性。
尽管之前的研究人员对RDF数据、时空RDF数据和模糊RDF数据进行了许多查询研究,但基于RDF查询模糊时空数据的研究很少。
我们将提供一个基于我们实验数据集的模糊时空数据图的示例。图1展示了四个三元组:
  • (Górnik Leczna, isLocatedIn, Leczna),其中主体“Górnik Leczna”的概率为0.62,对象“Leczna”的概率为0.77,Leczna/s1表示Leczna的空间位置(纬度和经度)为(51.3025, 22.8851),“Górnik Leczna”和“Leczna”之间这种关系的概率为0.48;
  • (Mariusz Pawelec, playsFor, Górnik Leczna),其中主体“Mariusz Pawelec”的概率为0.69,对象“Górnik Leczna”的概率为0.81,“Mariusz Pawelec”和“Górnik Leczna”之间关系的有效期为[2003.00.00, 2007.00.00],这种关系的概率为0.48;
  • (Mariusz Pawelec, isCitizenOf, Poland),其中主体“Mariusz Pawelec”的概率为0.94,对象“Poland”的概率为0.85,“Mariusz Pawelec”和“Poland”之间这种关系的概率为0.45;
  • (Mariusz Pawelec, playsFor, Górnik Zabrze),其中主体“Mariusz Pawelec”的概率为0.55,对象“Górnik Zabrze”的概率为0.53,Górnik Zabrze/s2表示Górnik Zabrze的空间位置(纬度和经度)为(50.29598, 18.76859),“Mariusz Pawelec”和“Górnik Zabrze”之间关系的有效期为[2003.00.00, 2007.00.00],这种关系的概率为0.47。
  • 这些例子分别是模糊空间RDF三元组、模糊时间RDF三元组、模糊RDF三元组和模糊时空RDF三元组。如果我们想查询“当满足度达到0.45时,Mariusz Pawelec何时为Górnik Zabrze效力以及Górnik Zabrze的位置在哪里”(谓词用绿色字体表示的三元组),显然,上述方法无法很好地处理这个查询。因此,研究模糊时空RDF查询是必要的。
    鉴于此,我们提出了一个模糊时空RDF数据模型和基于该模型的子图同构查询算法。贡献总结如下:
  • 我们提出了一个模糊时空RDF数据模型,旨在促进RDF框架内空间和时间信息的整合,以便信息检索。
  • 我们提出了一种新的子图同构概念和模糊时空RDF数据的相似度计算方法,然后将其应用于子图同构查询算法。
  • 为了缩小搜索范围,我们开发了两个过滤器:顶点过滤器 和边过滤器;度过滤器。
  • 本文的后续部分结构如下:第2节描述相关工作。第3节提出了模糊时空RDF数据模型。第4节设计了子图同构查询算法。第5节展示了实验结果,第6节总结了本文。

    相关工作

    相关工作

    在本节中,我们简要回顾了RDF图查询的相关文献。它通常包括三类:子图同构查询、子图匹配查询和路径查询。
    关于子图同构查询,Costabello [23]介绍了一种容错子图同构的最优算法,该算法使用图编辑距离的概念来评估感知上下文与特定上下文声明的兼容性。Kim等人[21]处理图同构

    模糊时空RDF表示

    在模糊RDF模型[31]的基础上,我们将时间信息分配给整个三元组,并将空间信息整合到主体和对象组件中,以有效表示RDF数据的时间、空间和模糊属性。
    定义1(模糊时空RDF三元组)。 (s/(ss, μs), p/ρ, o/(so, μo))[T] 用于表示特定的模糊时空三元组,其特征是与时间间隔T相关联的模糊空间RDF三元组,其中:
  • s, po
  • 子图同构查询算法

    在本节中,我们提出了一种称为SGIQ的算法,用于大型模糊时空RDF图中的子图同构查询。
    我们的算法受到子图同构查询[20][21]成功的启发,分为三个阶段,如图4所示。
  • 在第一阶段,它使用数据图G和查询图Q作为参数调用DetermineMO算法,以获得Q中顶点的匹配顺序morder(其中起始查询顶点us是第一个),并对顶点进行排序
  • 实验设置

    环境:实验在运行Windows 10(64位)的计算机上进行,配备了Intel(R) Core(TM) i5-8400 CPU,时钟速度为2.80 GHz,内存为8GB。所有算法均使用Python 3.7.5版本实现。
    数据集:YAGO [47]是一个来自Wikipedia、WordNet和GeoNames的真实数据集。因此,我们获得了总计541 MB的庞大数据集,其中包括时间RDF和空间RDF。
    数据生成:我们遵循并使用了四种

    结论

    在本文中,我们提出了一个重要的查询问题:“子图同构能否用于高效的模糊时空RDF查询?”(例如,“当满足度达到0.45时,Mariusz Pawelec何时为Górnik Zabrze效力以及Górnik Zabrze的位置在哪里?”)为了解决这个问题,我们为模糊时空RDF数据开发了一种相应的子图同构查询算法,并采用了一系列修剪规则。然后我们从三个角度进行了实验以展示

    CRediT作者贡献声明

    白璐怡:形式分析、概念化、写作——审阅与编辑、写作——初稿、验证、方法论、调查。狄晓峰:写作——初稿、验证、方法论、调查、形式分析。王金耀:写作——审阅与编辑、验证、形式分析。卢佳佳:写作——审阅与编辑、验证。李青:写作——审阅与编辑。

    利益冲突声明

    作者声明没有利益冲突。资助方在研究设计、数据收集、分析或解释;手稿撰写;以及结果发表决定方面没有发挥作用。

    致谢

    本项工作得到了中国国家自然科学基金(61402087)、河北省自然科学基金(F2022501015)和中央高校基本科研业务费(2023GFYD003)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号