常识代表了个体通过日常互动内在拥有的普遍且隐性共享的知识(Davis, 2023; Son, Kim, 2024)。常识推理(CSR)的过程涉及通过整合多个常识事实和信念来得出结论或做出判断(Liu, Mao, Shi, & Ren, 2024b)。这一认知过程深受常识因果关系的影响。虽然人类可以轻松地进行此类推理,但计算系统在检索相关常识知识和构建连贯的逻辑链条方面面临重大挑战(Liu, Huang, Wang, Peng, Xie, 2024a; Mu, Li, 2024)。当前的CSR研究强调了常识知识的获取(Liu et al., 2024a)和表示(Yang et al., 2024),并在专家系统中有着广泛的应用,涵盖了包括事件因果关系识别(Gao, Ding, Li, Liu, & Qin, 2024)、情感分类(Liu, Wei, Tu, Lin, Jiang, Cambria, 2025, Lu, Yu, Yan, Xue, 2023)、问答(QA)(Cao, Xie, Liu, Bu, 2025, Liu, Mao, Shi, Ren, 2024b, Zhan, Li, Dong, Liang, Hu, Carin, 2022)、视觉常识推理(Gao, Wang, Shan, Chen, 2023a, Zhang, Zhang, Xu, 2022b)、对话系统(Wu, Li, Zhang, & Wu, 2022)以及图像和视频字幕(Chou, Little, & Sigal, 2024)等多个领域。
通常被框定为问答任务(Wang, Huang, Jin, Fang, & Qu, 2024),CSR由于问题和答案之间缺乏直接的词汇重叠而呈现出直观上的挑战,这排除了简单的模式匹配解决方案(Yu, Wang, Yin, Chen, Liu, Rao, Su, 2025, Zhan, Li, Dong, Liang, Hu, Carin, 2022)。随着神经网络(NN)的普及,研究人员越来越多地利用NN模型来解决CSR挑战(He et al., 2022)。例如,RekNet(Zhao, Zhang, & Zhao, 2022)从文本中提取关键信息并在必要时结合显性知识,而GRNN模型(Yang, Liu, Li, & Zhang, 2022)则侧重于通过优化的证据融合来处理关键词之间的动态交互。在多模态CSR研究中,CommonsenseVIS(Wang et al., 2024)通过提取嵌入在输入中的潜在常识知识并整合外部知识库,弥合了模型行为和人类推理模式之间的差距。RKB(Song, Hu, & Hong, 2023)提出了一种卷积融合机制,用于编码视觉CSR的基础常识知识。总之,知识融合在CSR研究中获得了广泛的共识并找到了广泛的实际应用。例如,在商业决策中(例如客户流失预测),CSR需要整合用户行为数据(情境推理)、行业基准(领域知识)和专家解释(自然语言证据)以做出最佳决策。
尽管这些方法证明了整合推理知识库的有效性,但一个持续的挑战在于评估知识是否适用于特定问题并且是可信的(Yang et al., 2024)。这一点至关重要,因为低质量或噪声信息可能导致模型过拟合、性能下降和泛化能力减弱(Chen, Yao, Zhao, & Zhang, 2025)。例如,SG-CMR框架(Zhang et al., 2022b)尽管在通过显式的跨模态表示学习常识知识方面表现优异,但仍依赖于输入图像和常识知识源的质量。这是因为CSR的输出通常需要基于对各种相关知识来源的全面考虑或整合来进行推理。然而,大多数基于NN的CSR方法将知识整合视为一个静态聚合过程,忽略了量化不同知识来源的可靠性以及透明解决这些来源之间冲突的必要性(Cheng, Li, Liu, Liu, Le, 2024, Wang, Chan, Ilievski, Chen, Ren, 2023a)。这一限制阻碍了基于CSR的专家系统在需要可解释性和可信度的实际应用中的部署(Wang et al., 2024)。例如,在工业风险评估中,如果一个领域知识源包含过时的规定(噪声证据),而情境推理提供了实时操作数据(高质量证据),静态聚合会将它们同等对待,从而导致有偏见的决策。
此外,广泛的深度神经网络(DNNs)通常使用softmax函数将输出层神经元的连续激活值转换为分类类别概率。具体来说,softmax操作产生一个点估计值,作为分类分布的参数集(Sensoy, Kaplan, & Kandemir, 2018)。值得注意的是,它可能会为错误的预测生成过高的置信度分数,同时缺乏任何明确的认知指标(例如不确定性)来表达对错误推断的怀疑。这一关键限制在图1中的例子中得到了具体说明。对于其中的多项选择查询,所有四个候选选项都与基本常识知识明显不符。在冰块置于室温(25°C)的情境下,物理上有效的结果是它融化成液态水。然而,softmax函数仍然可能给选项B分配过高的置信度分数,而没有任何不确定性指标来表明对错误预测的疑虑。这一结果直接违反了基本的物理常识,因此与人类类似的推理明显不同。
总之,现有的关于CSR的NN研究低估了知识质量、可靠的多源知识整合(Zhang, Li, Wu, Su, & Sun, 2022c)以及衡量推理可靠性的指标的关键作用。这些CSR任务上的挑战突显了需要一个新框架的必要性,该框架不仅结合了多源知识,还动态评估它们的可信度。本研究将CSR的多源知识定义为不同的证据视角,将证据质量(或证据的可靠性)定义为证据影响模型决策或促进有效推理的程度。为了解决上述挑战,一个强大的CSR框架应考虑两个关键标准。首先,它应表现出通用性和可扩展性,能够在推理过程中系统地整合多样化的证据视角(Chen & Mao, 2024)。这要求框架能够一致地处理不同的证据视角,同时容纳互补和冲突的知识,而不会导致性能下降。其次,它应具有可解释性。该框架应采用一种透明的融合方法,根据每个证据视角的可靠性调整模型参数(Pradeep, Caro-Martinez, & Wijekoon, 2024)。通过明确建模证据的可信度,这样的框架增强了决策的可信度,确保CSR在逻辑上可追溯到证据基础。
为了实现CSR的通用性、可扩展性和可解释性,本研究引入了一个可靠的多视图证据融合(RMVEF)学习框架,以实现现实世界专家系统的可信、可解释的推理。该框架将不同的证据视为独立的观察视角,不对任何单一视角产生偏见。它通过量化每个证据视角支持推理的可靠性来彻底评估每个证据视角的置信水平。基于主观逻辑理论(J?sang, 2016),RMVEF计算出一个总体不确定性度量,该度量包含了模型置信度,并依靠可解释的融合规则来确保来自多个视角的证据的可靠组合。所提出的CSR模型(CRM)的架构概述如图2所示。总体而言,本研究提出了几项贡献。
(1)本研究指出了现有CRM的一个显著缺陷:它们在准确评估不同证据的可信度以及以维护推理可信度的方式可靠地整合这些证据方面的能力有限。
(2)本研究引入了一个创新的证据融合学习框架RMVEF,旨在系统地整合CSR任务的多视图证据。该框架通过基于坚实理论基础的可解释机制促进可靠的决策。
(3)本研究开发了一个新的组件RatIDF,用于从输入数据中提取关键的情境片段,并将这些片段视为证据支持的基础形式。
(4)RMVEF能够在CoS-E v1.0、CoS-E v1.11、e-SNLI和FEVER上分别达到89.50%、80.18%、99.51%和92.42%的准确率。
章节片段
常识因果关系、因果推理和不确定性
常识因果关系指的是人们对一个元素(如事件、事实、过程或对象,即原因)如何导致另一个元素(即结果)发生的直观理解(Cui, Jin, Sch?lkopf, & Faltings, 2024)。它在多个学科中有着广泛的应用(Bhargava, Ng, 2022, Davis, 2023, Qiao, Ou, Zhang, Chen, Yao, Deng, Tan, Huang, Chen, 2023)。例如,在医学诊断中(Richens, Lee, & Johri, 2020),它帮助医生推断疾病
语言模型(LM)生成的解释
开放式解释通常提供了关于推理模型如何进行CSR的直观见解。本研究设计了一个解释生成器ExplGen,它使用LM以零样本提示风格生成解释。LM独立于CSQA任务,负责生成纯文本解释。
为了验证RMVEF框架下不同解释的质量,而不是获取最佳解释,本研究比较了四种LM:OpenAI GPT、GPT2-medium(Radford et al.,
可靠的多视图证据融合学习框架
本研究介绍了一个基于RMVEF的端到端CRM,配备了透明的证据融合机制以确保可靠的CSR。为了改进参数优化,本研究采用了一种多任务优化策略,整合了单个证据视角的损失和证据融合后的联合损失。
数据集
在实验中,本研究在四个数据集上进行了评估:CoS-E v1.0、CoS-E v1.11(Rajani, McCann, Xiong, & Socher, 2019)、e-SNLI(Camburu, Rockt?schel, Lukasiewicz, Blunsom, 2018, Camburu, Rockt?schel, Lukasiewicz, Blunsom, 2018)和FEVER(Thorne, Vlachos, Christodoulopoulos, & Mittal, 2018)。表2显示了这些数据集的总体统计信息。
(i & ii) CoS-E v1.0和v1.11基于CSQA基准(Talmor, Herzig, Lourie, & Berant, 2019)。它们提供多项选择
理由提取实验
为了评估能够进行离散理由选择的模型的性能,通过将预测的理由与真实参考进行对齐来进行比较,如表3所示。新开发的RatIDF在理由提取方面表现出优于竞争基线模型的性能。更具体地说,在e-SNLI数据集上,RatIDF的F1分数达到了0.711,而在CoS-E v1.0上,这一指标达到了0.535。
鉴于
结论、局限性和未来工作
本研究通过引入基于主观逻辑的可解释融合规则的RMVEF框架,丰富了CSR中的证据融合理论。RMVEF明确地建模了信念质量和不确定性,为透明的多视图证据整合提供了理论框架。实验验证了动态不确定性量化对于解决CSR中的冲突证据至关重要。
RMVEF框架为构建可靠的专家系统提供了实用的解决方案(例如,
资助
本研究的资金支持由广州市教育局提供(授权编号2024312226)。
作者声明
杨硕:方法论、概念化、调查、资源、软件、验证、正式分析、撰写 - 原稿撰写、审阅与编辑、可视化、数据整理、资金获取
利益冲突声明
作者声明没有已知的可能影响本文工作的利益冲突。
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。