具有区分性自加权采样的对比知识嵌入

《Neural Networks》:Contrastive Knowledge Embedding with Discriminative Self-Weighted Sampling

【字体: 时间:2026年02月21日 来源:Neural Networks 6.3

编辑推荐:

  知识图谱嵌入通过将实体和关系映射到连续低维空间简化后续操作并保留结构。本文提出CoDiSS框架,采用对比学习与自适应负采样策略,通过DWR损失优化知识图谱嵌入模型,动态加权区分有效和无效负样本,提升模型表达能力。实验表明其在TransE、ComplEx等模型上优于基线方法。

  
盛婉|詹一冰|潘世瑞|杨健|龚晨
南京农业大学人工智能学院,中国江苏省南京市211800

摘要

知识图谱(KG)嵌入是将KG的组成部分(包括实体和关系)映射到连续的低维空间中,目的是在保留KG固有结构的同时简化后续操作。最近的研究工作主要集中在设计各种类型的评分函数上,然而对于进一步改进KG嵌入模型至关重要的学习框架却较少受到关注。在本文中,我们利用对比学习(CL)来进行KG嵌入,因为其在表示学习方面具有很强的能力,有助于提升KG嵌入模型的表达能力。然而,传统的CL技术会从整个数据集中均匀采样负例,这可能会因为存在低质量的三元组而导致KG嵌入效率低下。为了解决这个问题,我们提出了一种灵活的CL框架,称为“具有区分性自加权采样的对比知识嵌入”(CoDiSS)。与传统的硬负采样技术不同,CoDiSS采用了一种自适应加权机制,根据每个负例对模型学习的贡献来分配重要性。此外,我们还设计了一种区分性权重细化(DWR)损失函数,以重塑负例的评分分布,从而扩大信息性负例和虚假负例之间的区分度。实验结果表明,所提出的CoDiSS框架可以提高多种KG嵌入模型(如TransE、ComplEx和HousE)的性能,使它们能够生成更具表现力的KG嵌入。

引言

知识图谱(KG)是结构化信息的强大工具(Li等人,2022b)。在KG中,节点代表实体(如地点、人物或概念),连接节点的边表示实体之间的关系(Pan等人,2024;Wang等人,2014)。KG中的基本信息单元是三元组,形式为(头实体、关系、尾实体),也称为事实。例如,在事实“阿尔伯特·爱因斯坦,出生于乌尔姆”中,“阿尔伯特·爱因斯坦”是头实体,“出生于”是关系,“乌尔姆”是尾实体。三元组使KG能够表示复杂且相互关联的知识,有助于全面理解复杂系统(Huang等人,2024)。
尽管KG在表示结构化数据方面非常有效,但其固有的符号性质使得KG难以操作。为了解决这一挑战,出现了KG嵌入技术,并引起了大量研究关注。KG嵌入的基本概念是将KG的实体和关系表示在连续的向量空间中,这有助于简化操作同时保留KG的固有结构信息(Wang等人,2017)。通常,KG嵌入方法首先定义一个评分函数来衡量嵌入空间中三元组的合理性,然后通过最大化观察到的事实的总合理性来优化实体和关系的嵌入。评分函数大致可以分为两类:基于翻译距离的(如TransE(Bordes等人,2013)和TransH(Wang等人,2014))以及基于语义匹配的(如Analogy(Liu等人,2017)和ComplEx(Trouillon等人,2016))。虽然评分函数的设计受到了广泛关注,但学习框架往往仍未得到充分探索。这种忽视可能会限制KG嵌入模型的表达能力,使其难以准确表示KG中固有的复杂关系(Vashishth等人,2020)。
最近,对比学习(CL)作为一种强大的工具出现,并展示了其在学习通用、可迁移和鲁棒嵌入方面的能力(Prince等人,2024)。由于CL的表示能力,越来越多的研究将其应用于KG嵌入(Zhang和Zhang,2023)。例如,Luo等人(2022)提出了一种简单而高效的对比KG嵌入方法,能够捕捉相关实体和实体-关系对的语义相似性。尽管CL为获得具有表现力的KG嵌入提供了一种有前景的方法,但在直接将其应用于KG嵌入任务时仍存在一些局限性。具体来说,大多数现有的CL方法会从整个数据集中均匀采样负例(Jiang等人,2023)。采用这种均匀采样策略可能会导致KG嵌入效率低下,因为其中包含的低质量三元组提供的信息不足(Sun等人,2018)。受到硬采样技术的启发(Chen等人,2025),人们开发了多种采样策略来使用高分负例进行训练(Cai和Wang,2018)。其背后的直觉是,信息量大的负例通常具有较高的分数(Zhang等人,2019)。然而,现有的硬负采样方法仍存在一些局限性。具体来说,它们通常只强调分数最高的负例,因此无法可靠地区分信息性负例和虚假负例(Chen等人,2021)。在KG中,许多高分负例实际上对应于有效但未被观察到的事实,将它们视为硬负例往往会导致优化不稳定和嵌入质量下降。此外,一些现有方法依赖于硬负例的离散采样,这会导致梯度不连续,使训练对噪声敏感(Zhang等人,2019)。
为了解决上述问题并改进KG嵌入模型,本文提出了一种灵活的CL框架,称为“具有区分性自加权采样的对比知识嵌入”(CoDiSS)。CoDiSS不是简单地选择高分负例,而是根据每个负例对模型学习的贡献动态分配重要性权重。这使得CoDiSS能够强调信息性负例,同时抑制常见的虚假负例的干扰。此外,CoDiSS引入了区分性权重细化(DWR)损失函数,以重塑负例的评分分布,从而扩大信息性负例和虚假负例之间的区分度,提高KG嵌入的区分能力。此外,所提出的CoDiSS框架可以灵活地与各种类型的KG嵌入模型(如TransE、ComplEx和HousE)集成,以改进嵌入结果。总结来说,CoDiSS的主要贡献如下:
  • 开发了一个通用的CL框架,以增强KG嵌入模型的表达能力,可以无缝集成到各种现有的知识嵌入方法中。
  • 引入了一种负例采样策略,以自适应地编码每个负例的重要性。它允许信息性负例对优化过程产生重大影响,而不会过度加权虚假负例。
  • 在多个基准数据集上的广泛实验表明,与现有的最先进方法相比,所提出的CoDiSS更有效。
  • 相关工作

    相关工作

    在本节中,我们将回顾一些关于KG嵌入和CL的代表性工作,因为它们与本文密切相关。

    提出的方法

    本节详细介绍了我们提出的CoDiSS算法,其示意图如图1所示。首先,我们将输入KG的组成部分嵌入到连续的向量空间中(图1(b))。之后,可以采用不同类型的评分函数(图1(c))来衡量三元组的可能性。最后,通过具有区分性自加权采样的对比嵌入来增强嵌入的表达能力。

    实验

    在本节中,我们进行了实证研究,以评估我们提出的CoDiSS框架的有效性。首先详细介绍了用于评估的数据集和实验配置。随后展示了包括性能比较、消融研究、参数敏感性分析和不同采样策略分析在内的结果。

    结论

    在本文中,我们提出了一种具有区分性自加权采样的对比嵌入框架“CoDiSS”,以增强KG嵌入模型的能力。CoDiSS的关键在于强调信息性负例,同时在模型学习过程中抑制虚假负例。为此,我们设计了一种采样分布,以自适应地重新加权所有负例,从而使KG嵌入的学习主要受信息性负例的指导。

    作者贡献声明

    盛婉:写作——审阅与编辑、撰写初稿、验证、方法论、概念化。詹一冰:概念化。潘世瑞:方法论。杨健:方法论。龚晨:验证、监督、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号