实体匹配(EM)旨在识别跨异构数据源中指向同一实际实体的记录[1]。图1展示了一个典型的EM任务,需要检查来自Amazon的记录r1和r2以及来自Google的记录r3和r4,以确定r1和r3描述的是同一个实体,而r2和r4则不是。
EM是数据集成和清洗的基础任务,支持知识图谱构建、产品目录对齐和数据仓库等应用[2]。EM的重要性促使了数十年的研究。早期的EM系统基于规则或依赖于传统的机器学习,并需要大量的手动特征工程[3]、[4]。最近,深度学习(DL)带来了显著的进步[5]、[6]、[7]、[8]、[9]、[10]、[11]。例如DeepER[12]和DeepMatcher[13]证明了神经网络可以直接从原始数据中学习特征表示。其他基于DL的架构,如ZeroER[14]、GNEM[15]和HierMatcher[16],进一步强调了EM中的结构和关系信息。许多基于DL的方法将EM视为一个成对分类问题,将实体对编码为密集的向量表示,并预测匹配或不匹配的标签[17]。
利用预训练语言模型(PLMs)和Transformer架构的模型取得了特别强的性能,包括DITTO[18]、[19]、HierGAT[20]、JointMatcher[21]、AttendEM[22]和SETEM[23],并且在多种数据集上显示出了额外的改进[24]、[25]。
最近的研究还探索了生成式大型语言模型(LLMs)[26](如GPT、Llama和Gemini)在EM中的应用,大部分工作集中在提示设计和上下文学习上[27]。代表性的基于LLM的方法包括ComEM[28]、MatchGPT[29]以及整合大型和小型语言模型以提升跨数据集性能的模型[30]。
尽管EM模型在预测方面取得了成功,但它们往往缺乏可解释性[31]、[32]。这种可解释性的缺乏在EM系统的实际应用中尤为成问题,因为这些系统通常用于决策支持场景,用户不仅需要准确的预测,还需要透明且具有认知意义的推理[33]、[34]。现有的可解释性方法试图解决这一挑战[35]、[36]、[37]、[38]、[39]、[40],包括WYM[41]、AnyMatch[42]、LEMON[37]以及生成结构化解释的基于LLM的方法[43]。然而,大多数方法都是事后进行的,仅提供有限的模型推理洞察。因此,人们越来越认识到,EM模型不仅要实现高性能,还必须与人类推理方式保持一致,嵌入反映人们思考和决策方式的推理过程[44]、[45]、[46]、[47]。这种与人类推理方式一致的推理对于确保现实世界应用中的透明性和有意义的决策至关重要。
在EM中,人类的决策通常遵循一个结构化的认知过程,如图2所示。在比较阶段,个体首先感知属性的复杂性,并将更多的认知资源分配给那些复杂或模糊的属性。例如,“价格”属性中的不匹配值并不一定意味着不等价,因为微小的差异仍然可能表示匹配。这反映了认知负荷理论,该理论强调将有限的认知能力适应性地分配给认知要求较高的元素。此外,属性很少被孤立地解释。相反,它们的意义是从上下文中产生的:记录r3中缺失的“制造商”字段可以从其“标题”中推断出来,这与框架语义学一致,突显了关系性和语境解释的作用。在结论阶段,最终的匹配决策通常由一小部分核心属性决定。例如,“标题”字段往往主导决策,即使其他字段存在差异。这与线索有效性理论一致,该理论强调诊断线索在人类推理中的决定性影响。
因此,EM不仅仅是一个预测问题,而是一个涉及复杂性感知的分配、语境解释和依赖诊断线索的决策过程。因此,要在实际应用中解决可解释性问题,就需要基于人类推理认知理论的EM模型,以确保与人类推理方式保持一致。
与人类推理方式一致的推理明确包含了复杂性、语境和诊断线索等概念。将决策过程基于人类推理,允许自然的干预和修正,同时提供透明且可信的决策依据。这样,与人类推理方式一致的推理能够引导学习关注那些在统计上相关且对决策有意义的特征。
在本文中,我们提出了认知引导的实体匹配(CGEM)框架,该框架反映了个体如何执行EM。CGEM整合了三个基于认知的组件:一个复杂性引导的 gating 模块,用于将更多资源分配给复杂属性;一个整体语义表示模块,用于捕捉属性之间的语境意义;以及一个核心属性推理模块,确保诊断特征对最终决策的指导作用。这种设计使CGEM能够产生既准确又在人类认知过程方面可解释的预测。
我们的贡献如下:
- 1)
我们将EM重新定义为一种认知过程,而不仅仅是一个纯粹的技术分类任务,强调需要与人类推理方式保持一致以支持现实世界应用中的可解释性决策。
- 2)
我们提出了一种新的EM架构,该架构整合了复杂性引导的 gating、整体语义表示和核心属性推理,每个组件都明确基于认知理论。因此,CGEM明确模拟了复杂性、语境性和诊断性,这些方面在现有的EM研究中大多未被充分探索。
- 3)
我们在标准的EM基准测试上进行了广泛的实验,证明CGEM的性能优于最新的先进模型,包括HierGAT(2022)[20]、DITTO(2023)[19]、AttendEM(2024)[22]、SETEM(2024)[23]以及用于EM的LLMs(2025)[27]、[28]、[43],同时提供了增强的人类推理能力。
- 4)
我们通过以人为中心的评估验证了CGEM与人类推理的一致性,证明CGEM在属性的重要性和复杂性方面与人类决策方式高度吻合。
据我们所知,CGEM是第一个基于认知决策理论的EM框架,它在实际决策中实现了强大的预测性能和与人类推理方式的一致性。