通过跨模态因果推理实现可解释的视觉问答

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

通过跨模态因果推理实现可解释的视觉问答

《Engineering Applications of Artificial Intelligence》：Towards explainable visual question answering via cross-modal causal reasoning

【字体：大中小】 时间：2026年01月08日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　可解释视觉问答通过因果推理和神经符号方法提升答案与解释的一致性，采用双模态因果干预消除语言和视觉偏差，设计变分因果推断保证逻辑连贯，在基准数据集上显著优于现有方法。

魏莉|邓福云|李志新

教育部教育区块链与智能技术重点实验室，广西师范大学，桂林541004，中国

摘要

可解释的视觉问答（EVQA）不仅旨在准确预测视觉问题的答案，还生成对人类友好的多模态解释，揭示其背后的推理过程。尽管取得了显著进展，现有的EVQA方法仍存在两个关键局限性：（1）它们通常依赖于虚假的跨模态相关性（例如，语言偏见或视觉捷径），而不是真正的因果关系，导致推理不可靠；（2）由于缺乏对因果依赖关系的明确建模，预测答案与生成解释之间的一致性受到影响。为了解决这些问题，我们提出了一个跨模态因果推理（CMCR）框架，该框架将因果推断与多模态学习相结合，以区分因果效应和虚假相关性，并确保答案与解释的一致性。具体而言，CMCR包含了三个关键创新：（1）因果干预，通过后门调整消除语言偏见，通过前门调整减轻视觉捷径偏见；（2）神经符号解释生成器，将符号推理过程转换为自然语言解释，从而提高过程的可解释性；（3）变分因果推断，确保答案与解释之间的因果一致性。在基准数据集上的实验表明，CMCR的性能优于现有方法，准确率提高了1.19%，解释质量提高了1.05%，答案与解释的一致性提高了0.42%。

引言

多模态推理结合了视觉感知和自然语言理解，以解决复杂的认知任务，是人工智能中的一个基础挑战（Ma等人，2024年；Chowdhury和Soni，2025年）。在这些任务中，视觉问答（VQA）已成为一个关键的基准任务，要求模型生成关于视觉内容的答案（Antol等人，2015年；Hudson和Manning，2019年；Cao等人，2025年）。然而，随着AI系统越来越多地应用于医疗保健、自动驾驶和金融等安全关键领域，仅仅准确预测答案是不够的。人们越来越需要可解释性：能够通过人类可理解的解释来证明推理过程（Mersha等人，2024年；Tjoa和Guan，2020年）。这一需求推动了可解释视觉问答（EVQA）的发展，这是一种扩展任务，要求模型同时预测答案并生成多模态解释（例如，包含对视觉区域的参考的自然语言解释）（Chen和Zhao，2022年；Xue等人，2024年）。

EVQA旨在通过使推理过程透明化来解决深度学习模型的“黑箱”性质。如图1所示，EVQA不仅提供了问题“手机和咖啡杯的颜色相同吗？”的正确答案，还解释了推理过程，从而使问答过程具有更强的可解释性和透明度。

尽管EVQA取得了显著进展，但现有方法仍存在两个关键局限性，这源于它们依赖于相关性而非因果关系：（1）虚假的跨模态相关性：传统的基于注意力的方法（例如，X-VQA（Alipour等人，2020年）和HINT（Wang等人，2022年）利用基于训练频率的捷径偏见（如“红色苹果”），导致在分布外场景中的失败（例如，在没有苹果的情况下将红色杯子错误分类为苹果）；（2）答案与解释之间的一致性低：独立生成答案和解释忽略了它们的因果依赖关系，导致矛盾（例如，REX（Chen和Zhao，2022年）在GQA-REX上的一致性仅为74.69%）。这些失败突显了需要进行因果推理以区分真正的关系并确保逻辑一致性。

因果推断提供了一个原理性的框架，用于区分相关性和因果关系，为解决这些局限性提供了途径（Pearl，2016年；Yao等人，2021年）。通过建模因果关系（例如，苹果的颜色导致答案“红色”），而不是仅仅关联，模型可以稳健地泛化并避免虚假捷径。最近在跨模态因果推理方面的进展表明，在VQA中减少偏见方面具有潜力（Liu等人，2023年；Chen等人，2025年），但这些方法仅关注答案预测，而不扩展到可解释的推理。

同时，神经符号推理作为一种强大的范式出现，通过将推理过程转换为可解释的符号程序来提高可解释性（例如，“选择对象→验证颜色→回答”（Yi等人，2018年；Gupta和Kembhavi，2023年）。然而，现有的用于EVQA的神经符号方法（Xue等人，2024年）未能明确建模答案与解释之间的因果联系，导致不一致性。

为了弥合这些差距，我们提出了跨模态因果推理（CMCR）框架，它在三个关键方面与最接近的比较方法Pro-VCIN（Xue等人，2024年）不同：（1）采用双重因果干预（后门/前门）来针对语言和视觉混淆因素（Pro-VCIN缺乏特定于模态的去偏）；（2）引入基于图变换器的程序执行模块来处理复杂的有向无环图依赖关系（Pro-VCIN使用线性程序序列）；（3）通过变分推断确保因果一致性（Pro-VCIN依赖于结构因果模型，没有明确的潜变量建模）。CMCR的设计目标是：（1）使用因果干预识别和消除虚假的跨模态相关性；（2）建模答案与解释之间的因果依赖关系以确保一致性；（3）生成基于可解释符号推理步骤的人类友好解释。

为了突出CMCR在因果建模和答案解释一致性方面的优势，我们在表1中将其与最先进的可解释方法进行了比较。现有的基于注意力的可解释VQA方法（例如，X-VQA（Alipour等人，2020年）和HINT（Wang等人，2022年）仅提供相关性解释（例如，视觉显著性图），无法区分真正的因果关系和虚假相关性。CMCR通过明确建模“输入→解释”的因果链，提供了可验证的推理基础。

主要贡献如下：

•
我们在结构因果模型中形式化EVQA，以区分真正的因果路径。
•
我们引入了一个神经符号解释生成器来生成多模态解释。
•
我们设计了双重因果干预和变分因果推断，以确保答案与解释的一致性。
•
实验表明，CMCR的性能优于现有方法。

部分片段

可解释的视觉问答

可解释的视觉问答（EVQA）通过要求模型在提供答案的同时生成人类可理解的解释，解决了黑箱模型中的可解释性差距。早期的EVQA方法将解释生成视为序列到序列的任务，例如VQAE（Li等人，2018年），它使用基于LSTM的语言模型通过融合视觉-语言特征来生成文本解释。EXP（Wu和Mooney，2019年）提高了解释的忠实度

初步

在本节中，我们首先阐述了问题。然后我们在结构因果模型中形式化了EVQA任务，区分了视觉、语言、答案和解释之间的真正因果路径和虚假因果路径。

方法论

在本节中，我们详细介绍了用于可解释视觉问答（EVQA）的跨模态因果推理（CMCR）框架。“跨模态因果推理”定义为：通过后门干预（切断语言混淆因素与语言特征之间的依赖关系）和前门干预（通过中介变量隔离视觉混淆因素）从多模态输入中提取“纯因果特征”，然后确保

数据集

我们在两个可解释视觉问答（EVQA）的基准数据集上评估了CMCR。

GQA-REX（Chen和Zhao，2022年）：GQA（Hudson和Manning，2019年）的扩展，包含答案-问题-图像三元组的多模态解释（训练集：70%，验证集：10%，测试集：10%），平均解释长度为12个标记，每张图片36个视觉区域。

GQA-OOD（Kervadec等人，2021年）：GQA的一个具有挑战性的分布外变体，包含训练期间未见的问题和视觉场景

结论

本文提出了CMCR，这是一个用于可解释视觉问答的框架，它结合了跨模态因果推理。通过结合因果干预模块、神经符号解释生成器和变分因果推断，CMCR建立了答案与解释之间的稳健因果依赖关系，提高了解释的质量和一致性。在基准数据集上的实验表明，与现有方法相比有显著改进

CRediT作者贡献声明

魏莉：撰写——审阅与编辑，撰写——原始草稿，可视化，方法论，概念化。邓福云：撰写——审阅与编辑，可视化，调查。李志新：撰写——审阅与编辑，撰写——原始草稿，方法论，数据整理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号：62276073）、广西自然科学基金（编号：2019GXNSFDA245018）、广西研究生教育创新项目（编号：XYCB2025029）和广西多源信息集成与智能处理协同创新中心的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号