编辑推荐:
多模态知识图谱补全需解决静态嵌入无法适应查询语义的问题,本文提出动态认知架构MMKGC-Agent,通过双路径感知提取全局-局部结构,可学习残差记忆动态生成上下文敏感表示,结合语义自对齐机制平衡适应性与稳定性,实验表明其显著优于现有基线。
Kai Yang|Xinzhi Wang|Baoguo Lu|Xiangfeng Luo|Chengfan Li|Jianqiang Huang
知识科学与智能生成实验室,上海大学,上海上大路99号,200444,中国上海
摘要
多模态知识图谱补全(MMKGC)对于解决结构化知识库中的信息稀缺问题至关重要。然而,传统方法通常遵循静态嵌入范式,其中固定的实体表示无法捕捉查询特定的语义,限制了推理的灵活性。为了克服这一问题,我们提出了一个基于紧密耦合的闭环认知架构的上下文感知MMKGC代理。与依赖编码器顺序堆叠的模块化管道不同,我们的代理在表示的可塑性和语义稳定性之间建立了功能性的相互依赖关系。具体来说,代理启动双路径感知来提取全局-局部结构线索,这些线索随后通过可学习的残差记忆路径(LRMP)转换为动态记忆状态。这使得代理能够根据每个查询的具体意图主动合成内部表示。为了抵消这种动态适应中固有的表示漂移,我们整合了一个自对齐稳定系统,该系统利用减少冗余的目标作为语义锚点。这种机制确保了代理的适应性推理在面对多模态噪声时保持内在的一致性和鲁棒性。在四个基准测试(DB15K、MKG-W/Y、KVC16K)上的广泛实验表明,这种协同范式始终优于现有的最佳基线,特别是在解决静态模型无法处理的复杂、模糊推理任务时。
引言
多模态知识图谱(MMKGs)(Chen等人(2024年);Gong等人(2024年))通过结合三元组的结构逻辑和图像、文本描述等多模态数据的感知丰富性,提供了对世界的统一表示。这种集成使MMKGs能够捕捉全面的语义,并支持推荐系统(Sun等人(2020年))、计算机视觉和自然语言处理(Chen等人(2023年)等高级应用。尽管具有这种潜力,但由于多模态语料库的稀缺性和模态对齐的复杂性,MMKGs本质上是不完整的,导致结构和语义信息的缺失。因此,MMKGC(Chen等人(2024年)已成为一个关键的研究焦点。
现有的MMKGC方法(Cao等人(2022b);Lee, Chung, Lee, Jo, & Whang(2023年);Li, Zhao, Xu, Zhang, & Xing(2023年);Mousselly-Sergieh, Botschen, Gurevych, & Roth(2018a);Zhang等人(2025年))主要遵循静态嵌入范式,即在初始编码后为每个实体分配一个单一的、与上下文无关的表示。具体来说,实体嵌入通常由预训练的多模态编码器(例如BERT(Devlin, Chang, Lee, & Toutanova(2019年))生成用于文本描述,或由ImageNet预训练的CNN生成用于图像),其输出通常被冻结并在不同查询中重复使用;因此,实体在(h, r1, ?)中的表示与(h, r2, ?)中的表示相同。尽管这些方法结合了多模态信号,但融合通常是粗粒度的(例如,实例级平均或模态级池化),并且严重依赖于固定的预训练特征,限制了它们对细粒度、查询敏感的实体-关系交互的建模能力。因此,这样的静态表示难以适应不同查询的具体意图,限制了在复杂多模态环境中的推理能力。
为了解决这些挑战,我们提出了一个具有局部记忆增强的上下文感知MMKGC代理。与依赖静态嵌入的传统模型不同,我们的代理建立了一个统一的闭环认知架构以实现动态适应性推理。该框架的核心创新在于它从被动感知转变为相互依赖的认知循环,在表示的可塑性和语义稳定性之间取得平衡。在利用双路径编码器感知基本的全局和局部结构的同时,代理采用可学习的残差记忆路径(LRMP)来主动合成查询依赖的记忆状态自对齐稳定系统,该系统利用减少冗余的目标作为语义锚点。这个系统确保了代理的适应性推理保持内在的一致性,并且对多模态噪声具有鲁棒性。在四个基准测试(DB15K、MKG-W/Y、KVC16K)上的广泛实验表明,这种协同范式始终优于现有的最佳基线,特别是在解决静态模型无法处理的复杂、模糊推理任务时。
部分摘要
多模态知识图谱(MMKGs)(Chen等人(2024年);Gong等人(2024年))通过结合三元组的结构逻辑和图像、文本描述等多模态数据的感知丰富性,提供了对世界的统一表示。这种集成使MMKGs能够捕捉全面的语义,并支持推荐系统(Sun等人(2020年))、计算机视觉和自然语言处理(Chen等人(2023年)等高级应用。尽管具有这种潜力,但由于多模态语料库的稀缺性和模态对齐的复杂性,MMKGs本质上是不完整的,导致结构和语义信息的缺失。因此,MMKGC(Chen等人(2024年)已成为一个关键的研究焦点。
然而,现有的MMKGC方法(Cao等人(2022b);Lee, Chung, Lee, Jo, & Whang(2023年);Li, Zhao, Xu, Zhang, & Xing(2023年);Mousselly-Sergieh, Botschen, Gurevych, & Roth(2018a);Zhang等人(2025年))大多遵循静态嵌入范式,在这种范式中,每个实体在初始编码后都被分配一个单一的、与上下文无关的表示。具体来说,实体嵌入通常由预训练的多模态编码器(例如BERT(Devlin, Chang, Lee, & Toutanova(2019年))生成用于文本描述,或由ImageNet预训练的CNN生成用于图像),其输出通常被冻结并在不同查询中重复使用;因此,实体在(h, r1, ?)中的表示与(h, r2, ?)中的表示相同。尽管这些方法结合了多模态信号,但融合通常是粗粒度的(例如,实例级平均或模态级池化),并且严重依赖于固定的预训练特征,限制了它们对细粒度、查询敏感的实体-关系交互的建模能力。因此,这样的静态表示难以适应不同查询的具体意图,限制了在复杂多模态环境中的推理能力。
为了解决这些挑战,我们提出了一个具有局部记忆增强的上下文感知MMKGC代理。与依赖静态嵌入的传统模型不同,我们的代理建立了一个统一的闭环认知架构以实现动态适应性推理。该框架的核心创新在于它从被动感知转变为相互依赖的认知循环,在表示的可塑性和语义稳定性之间取得平衡。在利用双路径编码器感知基本的全局和局部结构的同时,代理采用可学习的残差记忆路径(LRMP)来主动合成查询依赖的记忆状态自对齐稳定系统,该系统利用减少冗余的目标来强制内在的一致性。这个系统作为语义锚点,确保代理的适应性推理保持基础。最后,推理与行动模块将这些精炼的内部状态转换为明确的行为,执行稳健的链接预测作为代理的外部行动(如图1所示)。这种协同架构使代理能够主动感知结构线索,保持上下文感知的记忆,并净化语义信号,从而克服了静态模型的结构刚性。
总之,我们的贡献有三个方面:
•我们引入了一种基于代理的MMKGC范式,从根本上将方法从静态嵌入匹配转变为动态认知推理。这种架构超越了简单的组件堆叠,建立了感知、记忆和校准之间的功能依赖性,以桥接全局-局部结构建模与适应性上下文感知。
•我们提出了一种查询依赖的可学习的残差记忆路径,为代理提供了表示的可塑性。通过将细粒度的实体-关系交互动态编码到短期记忆中
,这种机制打破了静态嵌入的瓶颈,使得能够生成针对当前任务的上下文敏感的语义。 •我们设计了一种语义自对齐
机制,作为稳定性锚点。通过使用减少冗余的目标,它强制内在的表示一致性,以抵消动态记忆适应,从而增强代理对多模态噪声的鲁棒性,并防止推理过程中的语义漂移。在公共MMKG基准测试(Liu等人(2019年);Xu, Xu, Wu, Zhou, & Chen(2022年)上的广泛实验表明,我们的代理始终优于二十个现有的最佳基线,为自适应多模态知识补全建立了一个新的范式。
部分摘要
多模态知识图谱补全
多模态知识图谱(MMKGs)(Chen等人(2024年)通过结合多样化的多模态信息(如图像、文本描述和其他感官数据(Wang等人(2023b)))来扩展传统知识图谱,丰富实体表示并增强其上下文理解。然而,MMKGs的固有不完整性带来了重大挑战。多模态知识图谱补全(MMKGC)旨在通过利用结构信息来解决这个问题
任务定义
我们将多模态知识图谱环境形式化为,其中E表示实体集,R表示关系集,,其中每个实体e属于E,并与多模态感知信号相关联:一组视觉输入V(e)和文本描述C(e)。这种表述捕捉了数据的逻辑结构和感知多样性,定义了代理交互的外部环境。
目标
方法论
在本节中,我们介绍了MMKGC-Agent,这是一个旨在超越静态表示学习局限性的统一认知框架。与被动地为实体分配固定嵌入的传统补全模型不同,MMKGC-Agent作为一个主动的认知实体运行。该架构建立在紧密耦合的闭环认知循环之上,平衡了表示的可塑性和语义稳定性。它使用感官骨干来感知多模态
实验
在本节中,我们展示了具有局部记忆增强的MMKGC-Agent的有效性的全面实验。实验不仅报告了性能分数,还评估了代理的认知能力——其在异构多模态环境中感知、增强局部记忆、自我对齐和推理的能力。研究围绕以下研究问题(RQs)展开,这些问题反映了全局-局部
结论
在本文中,我们介绍了MMKGC-Agent,该框架从根本上将多模态知识图谱补全的范式从静态表示匹配转变为动态认知推理。通过建立统一的闭环认知架构,该框架整合了感知、记忆和稳定化,代理成功克服了传统嵌入模型的固有刚性。核心创新在于可学习组件之间的功能依赖性
CRediT作者贡献声明
Kai Yang:概念化、方法论、软件