知识图谱(KGs)作为一种广泛使用的数据组织形式,具有三元组(h, r, t)的结构化表示,其中h表示头部实体,r表示关系,t表示尾部实体。由于其能够有效建模实体之间的语义关系,这种表示方式已被广泛应用于各种下游任务中,如问答(Xu等人,2024年)、链接预测(Bordes等人,2013年)和推荐系统(Yang等人,2023b年)。然而,随着应用场景的不断扩展,对KGs动态性的实际需求逐渐增加,频繁的事实更新给传统的知识图谱嵌入(KGE)方法带来了重大挑战。
传统的KGE方法(Bordes, Usunier, García-Durán, Weston, Yakhnenko, 2013; Sun, Deng, Nie, Tang, 2019; Yang, Yih, He, Gao, Deng, 2015)旨在通过将实体和关系映射到低维空间来预测缺失的事实。然而,这些方法主要关注静态的KGs。在KGs通常是动态且不断增长的现实场景中,图1展示了一个随时间向KG中添加新事实的例子。这种设置导致现有方法在训练过程中面临两个主要问题:首先,重新训练模型以适应新知识的成本很高,尤其是在大规模KGs中。计算资源和时间的成本显著增加;其次,微调模型以学习新知识时经常会出现灾难性遗忘,即模型在学习新知识后忘记了旧知识(Rusu等人,2016年)。
终身KGE方法(Cui, Wang, Sun, Liu, Jiang, Han, Hu, 2023; Liu, Ke, Wang, Shang, Gao, Li, Ji, Liu, 2024b; Liu, Ke, Wang, Wang, Gao, Shang, Li, Xu, Ji, Li, 2024c)被提出来解决上述挑战。终身KGE的核心是如何在持续学习新知识的同时有效保留已学知识。现有工作主要从两个方向处理这个问题:一种是通过正则化方法避免灾难性遗忘,例如引入嵌入正则化损失来限制已见实体和关系的更新(Cui等人,2023年);另一种是专注于新事实的有效学习,例如通过分层学习实现新事实的细粒度学习(Liu, Ke, Wang, Shang, Gao, Li, Ji, Liu, 2024b; Liu, Ke, Wang, Wang, Gao, Shang, Li, Xu, Ji, Li, 2024c)。然而,现有工作独立地考虑了这两个方向,缺乏从统一角度设计终身KGE方法。
嵌入空间漂移是现有终身KGE方法性能的一个重要瓶颈。随着KGs的动态更新,实体和关系的嵌入可能会根据不同的上下文在不同的子空间中初始化和优化,从而导致模型对旧知识和新知识的表示发生漂移。一些关于异构客户端之间知识协作的研究(Yao, Pan, Dai, Wan, Ding, Yu, Jin, Xu, Sun, 2024; Zhu, Li, Hu, 2023)已经注意到了这一点,但在终身场景中尚未加以考虑。这不仅降低了模型学习新事实的效率,还可能加剧灾难性遗忘问题。
为了解决上述问题,我们提出了一个新颖的终身KGE框架,旨在在不断演变的KGs中高效学习新知识的同时保留旧知识。我们设计了一种基于扩散的嵌入方法,该方法引入了扩散模型以在不同上下文中获得可迁移的嵌入。通过结合条件去噪网络和传统的KGE评分函数,我们的方法可以为终身场景获得表达力强的嵌入。为了进一步处理嵌入空间的漂移并平衡学习效率,我们采用了基于对比学习的重构和生成策略。这种策略通过限制快照之间嵌入空间的一致性并增强快照内各个时期的嵌入学习来提高学习能力。为了避免灾难性遗忘并保持嵌入分布的稳定性,我们提出了一种有效的分布正则化方法。通过对旧嵌入的分布特征进行正则化,所提出的方法解决了通过学习新事实而重写旧事实的问题。
我们工作的主要贡献总结如下:
•我们提出了一个新颖的终身KGE框架,能够在避免灾难性遗忘的同时高效学习新知识。该框架从嵌入空间漂移的角度统一了旧知识的保留和新知识的学习。
•我们设计了一种基于扩散的嵌入方法,生成具有优异表达能力和迁移能力的表示。然后,我们设计了一种重构和生成策略来处理嵌入空间漂移并平衡学习效率。最后,提出了一种分布正则化方法来解决灾难性遗忘并保持分布稳定性。
•我们在七个终身KGE基准数据集上进行了广泛实验。实验结果表明,我们的框架在不同构建策略和增量速度下均表现出色。