用于抽象推理的自我推理机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于抽象推理的自我推理机制

《Knowledge-Based Systems》：Self-Inference Mechanism for Abstract Reasoning

【字体：大中小】 时间：2026年05月04日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　张文博|郭凯宇|张波|唐立凯|莫思特|吕建成|刘向根|宋森四川大学计算机科学学院，成都，610065，中国 **摘要** 抽象推理是一种思维方式，它涉及从例子中归纳规则（或知识）并将其推广到新的实例。开发具有推理能力的神经网络是迈向类人智能的重要一步。尽管神经网络

　　张文博|郭凯宇|张波|唐立凯|莫思特|吕建成|刘向根|宋森
四川大学计算机科学学院，成都，610065，中国

**摘要**
抽象推理是一种思维方式，它涉及从例子中归纳规则（或知识）并将其推广到新的实例。开发具有推理能力的神经网络是迈向类人智能的重要一步。尽管神经网络在图像识别等多项任务中取得了令人印象深刻的性能，但推理的本质，即学习和应用抽象规则的能力，仍然没有解决。在这项工作中，我们提出了一种新颖的抽象推理自推理机制（SIMAR）。特别是，这种自推理机制规范了抽象推理的规则表示，使其更加稳健，从而增强了泛化能力。该机制模仿了人类认知过程中的“假设检验”，我们内部生成抽象规则的提议，然后利用这些规则在不同的实例中检查它们是否能够解释这些实例。理论分析和实验结果都表明，自推理机制可以使我们的模型学习到稳健的抽象规则表示。基于这些表示，我们的方法在大多数推理任务中优于现有的最先进模型，包括视觉形式的抽象推理和文本形式的数学推理。值得注意的是，SIMAR在泛化能力方面表现出显著的优越性。自推理的关键思想是通用且对学习规则表示有用的，为未来关于抽象推理的研究提供了新的视角。

**引言**
抽象推理是人类从观察中发现抽象关系并将其推广到类似环境的重要能力[1]。这种能力是人类智能的基础，但对当前的人工智能（AI）系统来说一直是一个长期存在的挑战[2][3]。一般来说，抽象推理的关键在于识别视觉和语言数据背后的高级模式、关系和规则。以智商测试中的Raven渐进矩阵（RPM）[4]为例（图1），受试者会看到一个不完整的3×3矩阵中的八个背景图像，最后一个面板是空白的。他们的任务是找出矩阵背后的规则并推断出缺失的面板。由于RPM测试与人类智能高度相关，并被认为反映了流体智力[2][5]，因此AI社区对构建具有抽象推理能力的神经网络表现出极大的兴趣。

在早期，传统方法[6][7]通常假设可以访问图像的符号表示，并使用启发式方法解决问题。模板匹配和形式化方法[8][9]也常用于完成推理任务。随后，带有手工制作特征的概率方法提高了解决问题的性能[10][11]。但模板匹配和特征工程都需要大量的手动干预，仍然难以应对视觉和自然语言的多样性。

最近，作为强大的表示学习技术，深度神经网络使得处理原始输入成为可能。深度学习方法在各种自动化应用中取得了显著进展，包括视觉识别[12]、标题生成[13]、文本分类[14]、情感分析[15]。鉴于其能力，深度学习方法在解决抽象推理任务方面显示出巨大的潜力[16][17][18][19]。通常，推理任务被构建为从问题到相应答案的端到端转换[20]。例如，Wang[21]利用循环神经网络（RNN）模型将自然语言转换为数学表达式，而无需复杂的特征工程。Zhang[22]使用卷积神经网络（CNN）开发了对比感知推理，以提高视觉推理中的特征提取能力。

尽管深度神经网络在多项推理任务中取得了令人印象深刻的分数，但当测试数据的分布与训练数据不同时，即使有细微的变化，它们的性能也会大幅下降。推理的核心，特别是其泛化能力，仍然没有解决。例如，在RPM风格的数据集程序生成矩阵（PGM）中，其中一个泛化测试是外推模式，模型在颜色或大小仅限于值集下半部分的图像上进行训练，而在取自上半部分的图像上进行测试。多层关系网络（MLRN）[23]在PGM数据集的中性模式下几乎完美表现，这是一个正常的测试，其中训练和测试样本来自相同的分布，但在外推模式下则完全失败。大多数现有的视觉推理方法也出现了类似的情况[24][25]。这表明当前的方法只是统计上拟合了表面特征，而不是掌握了推理的底层规则，这也体现在对干扰特征的低鲁棒性上[26]。

在本文中，我们提出了一种使用自推理机制（SIMAR）来提高泛化能力的新方法。关键思想是反复利用规则表示来获得各种问题描述中的不变性。受认知科学的启发，一个抽象规则是稳健的，即它超越了具体性，独立于特定实例[27]。为了全面理解一个规则，人类通常会多次自我驱动地将抽象规则应用于不同的具体实例。我们通过引入基于规则表示的自推理过程来模仿这一认知过程。具体来说，我们使用规则编码器从原始问题中明确捕获规则表示。然后使用答案生成器根据规则表示和给定问题生成相应的答案。为了使规则表示更加稳健，我们引入了自推理机制，其中规则表示被反复利用以在不同的具体实例上进行推理。通过这种机制，我们期望规则表示是抽象的，并且对特定实例不变，从而使最终的推理对新实例更加稳健。图1展示了SIMAR如何应用于Raven渐进矩阵（RPM）问题。

我们评估了我们的模型在包括视觉和文本格式的不同推理任务上的有效性。在视觉领域，我们使用RPM测试；在文本领域，我们解决了旨在根据自然语言描述预测数学表达式（即抽象规则）的数学文字问题。实验结果表明，SIMAR在这些任务上超越了现有的最先进性能，特别是在泛化测试中表现出色。

**总结**
我们的贡献如下：
• 我们提出了一个新颖的框架SIMAR，通过自推理机制学习抽象推理的稳健规则表示。这一思想在各种推理任务中学习规则表示具有普遍适用性和实用性。
• 我们为RPM问题上的抽象视觉推理设计了自推理机制。我们的方法击败了之前的最佳模型，并在解决与训练集分布不同的问题时表现出令人印象深刻的泛化能力。此外，我们还提供了关于RPM问题中抽象规则表示学习的自推理的理论研究。
• 我们将SIMAR适应于数学文字问题（MWP）的数学推理。我们的方法在几个基准数据集上达到了新的最先进记录，并在泛化测试中显著击败了之前的最佳模型。
• 深度分析表明，规则表示按规则身份很好地聚类，SIMAR在学习的规则表示中提供了合理的可解释性。

**部分摘录**
**Raven渐进矩阵**
Raven渐进矩阵（RPM）最初由心理学家John Raven[4]提出，是一种用于测量人类一般智力和抽象推理的非语言测试。早期，经典的RPM数据集（例如标准渐进矩阵[28]）是由人类设计的，包含少量问题，许多计算模型被提出来解决这个测试。Lovett[6]结合了自动化草图理解和结构映射技术来进行类比解决。

**SIMAR的总体架构**
在推理数据点{x,y}中，x代表输入描述，y对应于答案，模型的目标是根据提供的输入描述预测答案。为了明确建模抽象推理过程，我们提出了SIMAR，它由三个核心模块组成：规则编码器、答案生成器和自推理机制。规则编码器从输入描述x中归纳规则表示，答案生成器利用这些表示。

**数据集**
PGM。PGM中的每个矩阵都受抽象规则的支配，这些规则是从规则集R=[s,o,a]中抽取的：s∈S，o∈O，a∈A，其中S、O、A分别是关系、对象和属性的原始集合。PGM有八种模式。最简单的一种称为中性模式，其中训练集和测试集来自相同的分布；其他的是泛化模式，其中训练数据和测试数据以预定义的方式不同。泛化模式包括七种变体：

**实验**
我们在两个不同语言的数据集上进行了实验，包括中文数据集Math23k[21]和英文数据集MathQA[56]。Math23k数据集包含23K个数学文字问题（MWPs），来自基础教育数学应用问题。MathQA包含37K个MWPs，其中包含多个选择和方程。我们调整了MathQA的表达格式，使其与Math23K中的表达格式一致。MathQA包含许多领域的GRE问题，如物理、几何等。

**结论**
在本文中，我们提出了一种新颖的自推理机制，旨在提高神经模型的泛化能力。SIMAR的核心思想是反复重用学习到的规则表示来对不同的问题实例进行推理，从而促进实例不变性并增强表示的稳健性。这种方法具有通用性和灵活性，可以应用于各种推理任务，以实现更稳定的规则抽象。

**作者贡献声明**
张文博：撰写——原始草稿、软件、方法论、形式分析、概念化。
郭凯宇：撰写——原始草稿、软件、方法论、形式分析。
张波：可视化、验证。
唐立凯：可视化、验证。
莫思特：调查。
吕建成：监督。
刘向根：撰写——审稿与编辑、监督、方法论、概念化。
宋森：监督。

**未引用参考文献**
[62]
**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

热点排行