时间知识图谱问答(TKGQA)是利用存储在时间知识图谱(TKGs)中的信息来回答自然语言问题的任务。与静态知识库不同,TKGs为事实附加了时间有效性期限或时间戳,这使得能够回答关于随时间演变事件的查询。TKGQA特别具有挑战性,因为它不仅需要推理实体之间的结构关系,还需要推理事件的时间顺序和时间约束。例如,回答“在俄罗斯联合访问之前,谁是最后一个访问伊拉克的人?”这样的问题,涉及识别所有访问伊拉克的事件,按日期排序,然后确定俄罗斯联合代表团之前的访问者。传统的知识库问答方法往往无法处理这类问题,因为它们不具备处理事实的时间依赖性。
早期的TKGQA方法主要集中在基于嵌入的模型上,这些模型用时间特征增强潜在的向量空间来表示实体和关系,并通过嵌入相似性对候选答案进行排名。例如,CronKGQA(Saxena, Chakrabarti, & Talukdar, 2021)学习实体的时间敏感嵌入以捕捉它们的时间动态,TempoQR开发了将问题语义与相关实体和时间戳联系起来的联合嵌入。还探索了多粒度技术:MultiQA(Chen, Liao, & Zhao, 2023a)在多个时间尺度上聚合时间信息,以处理不同粒度的查询(例如,具体日期与年份)。虽然基于嵌入的模型在简单的时间查询上可以取得不错的性能,但它们存在根本性的限制。特别是,将所有必要的推理模式(例如“之前/之后”的比较或第一/最后的顺序约束)编码到固定嵌入中是困难的。这些模型通常难以处理需要多跳推理或细粒度时间比较的复杂问题,并且不容易扩展到它们训练之外的新推理类型。
鉴于纯基于嵌入的系统的局限性,最近的研究转向使用大型语言模型(LLMs)在TKGQA中进行更富有表现力的推理。LLMs凭借其在大量文本数据上的预训练,具备强大的自然语言理解和一些事实知识。研究人员开始将LLMs与TKGs结合,试图利用这一点进行时间推理。其中一种方法使用LLMs指导在KG上的结构化查询规划。例如,ARI(Chen, Li, Zhao, Hu, & Zhang, 2024)首先提取与问题相关的子图,然后使用LLM遍历该子图,生成候选推理路径。然而,ARI的启发式路径探索可能会产生许多虚假的候选答案,并且难以准确过滤掉错误的路径,从而导致错误传播。另一种相关方法GenTKGQA(Gao et al., 2024a)采用了两阶段生成-过滤策略:它使用LLM生成一个简洁的子图查询(在结构和时间上缩小搜索空间),然后在该受限子图中找到答案。这种两阶段框架提高了效率,但对于涉及多跳或嵌套时间条件的查询,单次生成可能会遗漏所需信息。当前的最先进方法TimeR4(Qian et al., 2024)通过将LLM推理与检索紧密耦合在一个迭代循环中,进一步推动了这一发展。TimeR4引入了一种时间感知的检索-重写-重新排名机制:在每一步中,LLM完善查询或部分答案,从TKG中检索新的证据,并为下一次迭代重新排名证据。这种策略在处理多跳时间问题方面比之前的方法表现得更好。然而,即使TimeR4也依赖于相对固定的推理流程。它没有根据问题的复杂性完全调整粒度或推理步骤的数量,其中间步骤中的错误(例如检索略微不相关的事实)仍可能破坏整个过程。
我们的工作受到了两个额外研究方向的启发,这两个方向致力于在更广泛的NLP背景下处理复杂问题。思维链(CoT)提示已被证明可以有效促进LLMs中的逐步推理。通过将复杂问题分解为一系列更简单的推理步骤,CoT可以显著提高多跳问答任务的准确性和可解释性。诸如IRCoT(Trivedi, Balasubramanian, Khot, & Sabharwal, 2023a)等技术通过将信息检索纳入推理链中,进一步增强了这种方法,确保每个步骤都基于外部证据,从而减少了幻觉。类似地,ReAct(Yao et al., 2023)框架允许LLM交替执行(例如,查询知识源)和反思(用结果进行推理),这已被证明可以提高多跳和开放领域问答的性能。图1分别展示了在TKGQA中应用ReAct和CoT的缺点。另一个相关想法是显式问题分解:像BeamAggR(Chu et al., 2024)和SG-FSM(Wang et al., 2024a)这样的方法将复杂查询分解为可以单独回答的层次结构或子问题序列,然后进行组合。这些方法在静态知识或文本问答中取得了成功,通过系统地处理问题的多个方面。然而,它们尚未在时间图谱推理的背景下得到充分探索,在那里分解需要考虑每一步的时间约束。
在本文中,我们提出了TDR2A,一种时间敏感的分解-检索-重组代理,以推进时间图谱问答领域的最新进展。TDR2A的核心思想是结合迭代分解和检索增强的优势,特别关注在每个推理步骤中精确处理时间信息。给定一个复杂的时间问题,我们的代理会动态地将其分解为一系列更简单的子问题,就像一个为时间领域量身定制的LLM思维链。至关重要的是,每个子问题都旨在隔离整个查询的特定方面(例如,确定特定日期或识别实体在某个时间点的角色),以减少歧义和复杂性。对于每个子问题,TDR2A使用时间敏感的检索模块,通过相关关系和时间约束过滤知识图谱,然后获取候选事实。这确保提供给LLM的上下文不仅在语义上相关,而且在时间上也适当,解决了标准检索增强方法经常忽略时间细微差别的重大缺陷。在获得子问题的答案后,我们的代理会重新组织查询,整合新发现的信息。这种迭代的分解-检索-重组循环持续进行,每一轮都在完善查询,直到原始问题被简化为可以直接回答的形式。在最后一步,TDR2A通过让LLM将组装的答案与支持事实的链条进行交叉检查来进行一致性验证,从而在产生最终答案之前捕获任何逻辑不一致或格式错误。
我们在两个标准的TKGQA基准测试MultiTQ和CronQuestions上对TDR2A进行了实证评估,这两个测试涵盖了广泛的时间查询类型和复杂性。我们的方法在这两个数据集上都取得了最佳实践的结果,优于包括基于嵌入的模型(例如CronKGQA、MultiQA)和最新的以LLM为中心的方法(如ARI和TimeR4)。对于涉及多个时间约束或推理跳动的复杂问题,TDR2A显示出特别显著的改进,突显了其自适应、逐步策略的好处。总之,我们的贡献有三个方面:(1)我们引入了一种新颖的迭代代理,将思维链分解与时间感知的检索相结合,以处理问答中的复杂时间推理;(2)我们开发了一种时间感知的检索机制,大大提高了TKGQA的证据收集精度;(3)我们通过广泛的实验证明了我们的方法在综合基准测试中树立了新的最佳实践,证实了其在回答时间问题方面的有效性和适应性。