RDF是一种广泛用于描述万维网上资源的框架,于2004年2月被万维网联盟(W3C)批准为标准。在RDF数据模型中,一个声明被概念化为一个三元组,格式为(s, p, o),包括一个主体(资源)、一个谓词(属性类型)和一个对象(属性值)。根据RDF规范,主体被限制为统一资源标识符(URIs)或空白节点,谓词始终表示为URI引用,对象可以是URIs、字面量或空白节点[1]。
关于RDF查询,许多研究人员从不同角度进行了研究和优化。Abbas等人[2]使用ShEx约束来验证RDF数据,传达预期的图模式,并促进用户界面表的生成[3]。具体来说,他们建立了一组格式良好的ShEx模式,然后设计了一种优化方法,该方法涉及计算和为查询三元组模式分配排名,利用从ShEx模式中获取的信息。Leinberger等人[4]提出使用SHACL(TyCuS)进行类型检查,从查询中获取SHACL形状,并将数据形状和查询形状作为λ-演算中的类型。Chantrapornchai等人[5]提出了一个框架,利用TripleID-Q在GPU中处理大型RDF数据集的查询,并具有简单的GPU表示转换方法。同时,还给出了一个并行算法,使用数千个GPU线程来执行数据查询。
与此同时,时空数据在多个领域中出现,包括交通监控[6]、人员重新识别[7]和动物检测[8]等。实际上,大多数实体都具有空间或时间信息。鉴于RDF是网络上资源表示的广泛使用的框架,而经典的RDF模型无法表示数据的时空属性,因此研究基于RDF的时空数据表示和查询方法非常重要。在[9]中,吴等人引入了一种kSPT查询方法,该方法将基于关键词的搜索查询与应用于RDF数据的空间语义相结合,通过将时间语义整合到现有的kSP查询框架中。kSP和kSPT查询的创新之处在于它们结合了时空意识,这使它们区别于依赖结构化查询语言的传统方法。Eom等人[10]整合了数据的时间和地理空间属性,并设计了一种基于网格索引方法的时空索引,以加快搜索过程。
此外,一些数据是模糊的,因为数据收集、提取或整合不准确,或者数据本身的值是模糊的。针对这种情况,出现了一些关于查询模糊RDF数据的研究。Li等人[11]基于模糊集理论对模糊RDF数据进行建模,并提出了一种基于查询路径分解的算法,有效解决了关于模糊RDF图的子图模式查询问题。Lian等人[12]提出了一组修剪规则,包括结构修剪(考虑顶点和边的分布以及其他结构信息)和概率修剪(推导成本模型)。
此外,Lee等人[13]表明,一个好的子图同构算法比基于图索引的算法更高效。子图同构算法有着悠久的历史,包括:Ullmann算法[14]、VF2[15]、QuickSI[16]、GraphQL[17]、GADDI[18]、SPath[19]、TurboISO[20]、TurboHOM++[21]和SubISO[22]等。为了加快查询过程,这些方法有助于建立最优匹配序列并制定高效的修剪标准。然而,只有[21]用于查询RDF数据。此外,这些方法都没有考虑数据的时空和模糊属性。
尽管之前的研究人员对RDF数据、时空RDF数据和模糊RDF数据进行了许多查询研究,但基于RDF查询模糊时空数据的研究很少。
我们将提供一个基于我们实验数据集的模糊时空数据图的示例。图1展示了四个三元组:
•(Górnik Leczna, isLocatedIn, Leczna),其中主体“Górnik Leczna”的概率为0.62,对象“Leczna”的概率为0.77,Leczna/s1表示Leczna的空间位置(纬度和经度)为(51.3025, 22.8851),“Górnik Leczna”和“Leczna”之间这种关系的概率为0.48;
•(Mariusz Pawelec, playsFor, Górnik Leczna),其中主体“Mariusz Pawelec”的概率为0.69,对象“Górnik Leczna”的概率为0.81,“Mariusz Pawelec”和“Górnik Leczna”之间关系的有效期为[2003.00.00, 2007.00.00],这种关系的概率为0.48;
•(Mariusz Pawelec, isCitizenOf, Poland),其中主体“Mariusz Pawelec”的概率为0.94,对象“Poland”的概率为0.85,“Mariusz Pawelec”和“Poland”之间这种关系的概率为0.45;
•(Mariusz Pawelec, playsFor, Górnik Zabrze),其中主体“Mariusz Pawelec”的概率为0.55,对象“Górnik Zabrze”的概率为0.53,Górnik Zabrze/s2表示Górnik Zabrze的空间位置(纬度和经度)为(50.29598, 18.76859),“Mariusz Pawelec”和“Górnik Zabrze”之间关系的有效期为[2003.00.00, 2007.00.00],这种关系的概率为0.47。
这些例子分别是模糊空间RDF三元组、模糊时间RDF三元组、模糊RDF三元组和模糊时空RDF三元组。如果我们想查询“当满足度达到0.45时,Mariusz Pawelec何时为Górnik Zabrze效力以及Górnik Zabrze的位置在哪里”(谓词用绿色字体表示的三元组),显然,上述方法无法很好地处理这个查询。因此,研究模糊时空RDF查询是必要的。
鉴于此,我们提出了一个模糊时空RDF数据模型和基于该模型的子图同构查询算法。贡献总结如下:
•我们提出了一个模糊时空RDF数据模型,旨在促进RDF框架内空间和时间信息的整合,以便信息检索。
•我们提出了一种新的子图同构概念和模糊时空RDF数据的相似度计算方法,然后将其应用于子图同构查询算法。
•为了缩小搜索范围,我们开发了两个过滤器:顶点过滤器 和边过滤器;度过滤器。
本文的后续部分结构如下:第2节描述相关工作。第3节提出了模糊时空RDF数据模型。第4节设计了子图同构查询算法。第5节展示了实验结果,第6节总结了本文。