通过跨模态交互实现多模态知识图谱补全:强化相似性并包容差异性

【字体: 时间:2026年03月04日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐:

  多模态知识图谱补全(MMKGC)需平衡模态相似性与差异性,本文提出CISEDE框架通过跨模态交互机制,利用多头注意力增强相似性信息并整合差异特征,结合关系引导融合解码模态三元组,在FB15k-237、WN9、WN18RR数据集上达到最优性能。

  

摘要:

多模态知识图谱补全(MMKGC)通过整合来自各种模态的丰富数据,提高了知识图谱的精确度和应用范围,因此在研究界越来越受到关注。以往的研究主要集中在不同模态的通用表示上,而忽视了它们之间的差异和互补性。相反,一些研究倾向于分别对每种模态的三元组进行建模,忽略了模态之间的相似性。对于MMKGC来说,有效地关联这些异构模态是一个挑战。在本文中,我们提出了一种新的MMKGC框架——基于跨模态交互与相似性增强和差异融合(CISEDE)的方法,该框架通过提出的跨模态交互机制同时利用了多模态实体之间的相似性和差异性。在跨模态交互中,采用多头注意力机制来增强多模态实体之间的相似性信息,并通过连接不同模态的三元组来融合各种信息。通过关系引导的融合过程,这些模态三元组被解码并合并以用于MMKGC。在三个常用数据集FB15k-237、WN9和WN18RR上的实验结果表明,所提出的方法取得了先进的性能。

引言

知识图谱作为语义知识的结构化存储库,能够高效地组织、管理和利用大量的信息资源。它们被广泛应用于信息检索、智能问答和推荐系统等领域[1]。随着应用需求的不断增长,知识图谱的完整性和精确性变得越来越重要。因此,知识图谱补全已成为一个研究热点,其目标是通过填充缺失的实体和关系来自主地丰富知识图谱,从而提高其实用性[2]。目前,许多研究利用表示学习方法来改进单模态知识图谱,包括基于嵌入的方法[3]、[4]、[5]、[6],基于规则的方法[7]、[8],以及神经网络(NN)模型[9]、[10]、[11]、[12]、[13]。尽管这些方法在一定程度上丰富了知识图谱,但它们对单一数据源的依赖限制了它们的表达能力以及处理实体之间复杂多维关系的能力,从而导致准确性和鲁棒性的不足。相比之下,多模态知识图谱整合了文本、图像和音频等多种数据源。这种整合不仅丰富了图谱的内容,还显著提高了其准确性和完整性[14]。因此,这些图谱的应用范围和影响力在各种智能应用中得到了广泛扩展。图1展示了一个多模态知识图谱的部分内容,其中不仅包含了复杂的关系,还用不同模态的信息表示了同一个实体。

多模态知识图谱中的事实三元组,展示了同一个实体(例如“计数器”)如何通过结构关系(“has_part”)、文本描述和相关图像来表示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号