基于互补性的表示学习方法在多模态知识图谱补全中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　多模态知识图谱补全MoCME框架通过互补性引导的模态知识融合模块和熵引导负采样机制，有效整合多模态数据并提升实体表示的鲁棒性。摘要分隔符：

李丽健|何远鹏|严彦东|李琳宇|焦文平|金志|潘志民

澳门大学计算机与信息科学系，澳门，999078，中国

摘要

多模态知识图谱补全（MMKGC）旨在通过利用多模态和结构化实体信息来揭示多模态知识图谱中隐藏的世界知识。然而，多模态知识图谱中存在的固有不平衡性——即不同模态在实体之间的分布差异——给利用额外的模态数据进行鲁棒实体表示带来了挑战。现有的MMKGC方法通常依赖于注意力机制或基于门的融合机制，但忽略了多模态数据中的互补性。在本文中，我们提出了一种名为“互补模态专家混合（MoCME）”的新框架，该框架包括一个基于互补性的模态知识融合（CMKF）模块和一个基于熵的负样本抽取（EGNS）机制。CMKF模块利用模内和模间互补性来融合多视图和多模态嵌入，从而增强实体的表示能力。此外，我们引入了基于熵的负样本抽取机制，以动态优先考虑信息丰富和不确定的负样本，从而提高训练效果和模型的鲁棒性。在五个基准数据集上的广泛实验表明，我们的MoCME取得了最先进的性能，超越了现有方法。

引言

知识图谱（KGs）[1]、[2]、[3]、[4]、[5]通过三元组的形式对现实世界知识进行结构化表示——每个三元组包含一个头部实体、一个关系和一个尾部实体，这些三元组通常是基于现有数据库手动构建的。然而，KGs的固有不完整性[6]、[7]，加上标注事实三元组的高成本，催生了知识图谱补全（KGC）任务，该任务旨在预测和推断现有知识图谱中缺失但合理的三元组。传统的KGC方法[1]、[2]、[3]、[4]主要依赖于知识图谱嵌入（KGE）技术，将实体和关系嵌入到连续向量空间中，以学习三元组的关系模式并评估其合理性。传统的KGC方法通常可以分为基于翻译的[1]、[2]、[3]和基于语义匹配的方法[4]。此外，最近的研究探索了使用神经架构（包括卷积神经网络（CNNs）和图神经网络（GNNs）[8]、[9]、[10]）来模拟实体和关系之间的复杂交互，从而自动提取结构和语义特征，从而增强学习到的表示的表达能力。尽管如此，传统的KGC模型主要局限于利用KG中的关系信息，常常忽略了实体中嵌入的丰富多模态信息，如文本、视觉和数值属性。

多模态知识图谱（MMKGs）[11]、[12]、[13]、[14]、[15]作为传统KGs的重要扩展，通过结合多样化的特定模态属性（例如视频、音频和数值数据）来丰富实体的语义表示。MMKGs已成为许多AI应用的基础组件，特别是在推荐系统[16]和自然语言处理中。相应地，多模态知识图谱补全（MMKGC）任务也受到了越来越多的关注。现有的MMKGC方法[11]、[12]、[14]、[17]、[18]通常将多模态信息作为辅助模态嵌入，将其整合到实体表示空间中以增强学习到的嵌入的表达能力。然而，在实际场景中仍然存在几个挑战。一个关键问题是不同模态在实体之间的分布不均，某些实体可能由于数据稀疏而缺乏必要的模态。为了解决这个问题，NATIVE框架[19]引入了一种基于关系的加权机制来优化多模态融合，并采用对抗性训练策略来减轻模态之间的不平衡。此外，为了捕捉不同关系上下文中模态特征的多样化作用，MoMoK[20]提出了“互补模态专家混合”机制，该机制设计了基于关系的专家网络来学习每种模态的自适应多视图表示。然而，传统的融合策略（如简单的串联或基于注意力的机制[21]、[22]）往往无法捕捉到模内细粒度和模间依赖的互补性。这种限制在实际情况中尤为明显，因为某些模态可能缺失、不完整或包含噪声。在这种情况下，明确建模模态之间的协作和补偿机制变得至关重要。最近的研究[23]表明，当一个或多个模态不可用或损坏时，有效利用模态互补性可以显著减轻性能下降。这一发现进一步证明了模态互补性在增强多模态学习系统的鲁棒性和融合效果方面的关键作用。此外，大多数基于负样本的KGE方法在训练期间倾向于假设所有负样本的重要性相同。然而，这种假设没有考虑到多模态环境中负样本的固有异质性，其中语义丰富性、模态特征和与正样本的相似性可能差异很大。将所有负样本同等对待可能导致模型在琐碎或语义无关的样本上过拟合，从而削弱其区分关键语义关系的能力，最终降低学习到的嵌入的判别能力和泛化性能。

为了解决现有多模态知识图谱补全（MMKGC）方法的局限性，包括对模态互补性建模不足、模态信息在实体之间的分布不平衡以及过于简单的负样本抽取策略，我们提出了一种名为“互补模态专家混合（MoCME）”的新统一框架。MoCME建立在专家混合（MoE）的基础上，这是一种集成学习架构，它将复杂问题空间分解为由专门子网络处理的子空间，旨在全面利用模态之间的协同性和互补性，从而实现更具表达力和鲁棒性的实体表示。该框架包括两个关键组成部分：1）对于每种模态，我们使用基于互补性的专家混合（CMoE），其中包含并行专家网络来同时处理预训练的特征。这些专家将特征投影到不同的语义子空间中，从而为特定模态生成多视图表示。为了整合这些视图，我们引入了一个共享的互信息神经估计器（MINE）来估计不同视图特征之间的互信息，这量化了视图之间的冗余性，并指导基于互补性的融合机制生成每种模态的精细多视图嵌入。随后，对于不同模态之间的融合，我们为每对模态组合实例化参数独立的MINE网络来评估它们的互信息。基于这些模间互补性分数，应用自适应融合策略来合成特定于模态的嵌入，从而为实体生成全面而鲁棒的多模态表示，特别是在数据不完整或损坏的复杂场景中，有效增强模型的鲁棒性。2）基于熵的负样本抽取（EGNS）：为了模拟关系语义，我们采用了RotatE评分函数，该函数通过复杂的空间旋转有效地捕获实体-关系交互。此外，我们提出了一种基于熵的负样本抽取策略，以解决均匀负样本抽取的局限性，该策略动态地赋予更不确定和信息丰富的负样本更大的重要性，鼓励模型关注语义上具有挑战性的案例，从而提高其判别能力。

我们提出了一种名为“互补模态专家混合”的新框架，该框架联合建模每种模态内的多视图语义和模态间的协同性，实现了全面而鲁棒的多模态表示。

我们引入了一个基于互补性的模态知识融合模块，该模块结合了基于互补性的专家混合来捕获多视图语义，并使用共享的互信息神经估计器进行模内融合，同时使用参数独立的MINE进行模间融合，从而实现自适应的、具有互补性意识的信息整合，有效处理不完整或噪声较大的模态数据。

我们开发了一种基于熵的负样本抽取策略，该策略根据负样本的预测不确定性动态优先考虑更困难且更模糊的负样本，促进了一种课程式训练过程，从而增强模型的鲁棒性和泛化能力。

在五个广泛使用的基准数据集上的广泛实验表明，MoCME始终取得了最先进的性能，验证了其在处理复杂多模态知识图谱补全任务方面的优越性。

部分摘录

知识图谱补全

知识图谱补全[24]是一项基本任务，涉及在给定的知识图谱中发现缺失的三元组。传统的KGC方法，也称为知识图谱嵌入[25]方法，将实体和关系映射到连续向量空间。这些模型使用不同的评分函数来评估三元组的可能性，旨在为有效的三元组分配更高的分数，为无效的三元组分配更低的分数。KGE模型主要分为两类：基于翻译的

方法论

在本节中，我们全面介绍了我们提出的框架“互补模态专家混合（MoCME），该框架旨在通过两个关键组件来解决多模态知识图谱补全的挑战：（1）基于互补性的模态知识融合（CMKF）模块结合了基于互补性的专家混合（CMoE）来提取多视图语义，并使用互信息神经估计器（MINE）来指导自适应融合

实施细节

我们所有的实验都在配备Ubuntu 20.04.1 LTS操作系统、Intel Xeon Gold 6226R CPU（2.90GHz）和单个NVIDIA RTX 4090 GPU（24GB内存）的Linux服务器上进行。所有方法都使用PyTorch 1.13、CUDA 11.7和Python 3.9实现。为了确保公平比较，MoCME框架的超参数配置和基线设置与NATIVE [19]中报告的配置基本一致。具体来说，我们使用Adam优化器[43]进行训练

阈值策略分析

虽然我们提出的基于熵的负样本抽取（EGNS）框架采用了经验验证的固定阈值（

δ_{1} = 0.2, δ = 0.8

），我们也尝试探索一种自适应加权机制。然而，这种动态方法导致训练不稳定和模型收敛受阻。我们将这种失败归因于阈值与模型瞬态状态的紧密耦合所导致的不稳定反馈循环。特别是在初始训练阶段，

结论

在本文中，我们介绍了用于多模态知识图谱补全（MMKGC）任务的“互补模态专家混合（MoCME）”框架，旨在通过充分利用结构和多模态实体信息来揭示多模态知识图谱中隐藏的世界知识。与依赖注意力或基于门的融合而忽略模态间固有互补性的现有MMKGC方法不同，我们的方法明确地对模内

未引用的浮点数

算法1。

CRediT作者贡献声明

李丽健：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，方法论，调查。何远鹏：撰写 – 原始草稿，验证，方法论。严彦东：撰写 – 原始草稿，验证。李琳宇：撰写 – 原始草稿，可视化。焦文平：监督，资金获取。金志：监督，资金获取。潘志民：撰写 – 审稿与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了中国国家重点研发计划（2023YFC3502900）、国家自然科学基金（批准编号62192731）和中国国家重点研发计划（2021YFF1201100）的支持。作者非常感谢匿名审稿人的建议和编辑的鼓励。

联系信箱：

粤ICP备09063491号

摘要

引言