MODE：一个用于多模态开放领域对话评估的基准测试工具与研究方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：MODE: A benchmark and a probe into multimodal open-domain dialogue evaluation

【字体：大中小】 时间：2026年02月06日 来源：Neurocomputing 6.5

编辑推荐：

　　多模态开放域对话评估基准MODE构建及MM-Eval方法提出，通过单轮和多轮对话测试发现现有评估方法一致性不足，引入图像转换、推理增强和校准模块提升模型评分准确度，验证MM-Eval在基准上的显著性能优势。

北京工业大学计算机科学与技术学院，北京，100081，中国

摘要

多模态开放领域对话（MOD）在人工智能与人类交互中发挥着关键作用，并引起了广泛关注。尽管现有研究已经探讨了MOD的多个方面，但其评估方法仍相对不足。在这项工作中，我们提出了一个名为MODE的评估基准。具体来说，我们构建了具有平衡难度分布的MODE，分为三个部分：MODE-Base和MODE-Hard，两者都包含单轮对话，其中MODE-Base包含889个测试案例，而MODE-Hard则包含了215个更具挑战性的案例，用于测试模型对多模态不一致性的鲁棒性。此外，我们还包含了MODE-Multi，其中包含超过10,000个多轮对话案例，以便进行更全面的测试。每个案例都包含一张图片、一个上下文以及至少由三名人类注释者根据标准化标准提供的轮次级响应评分。人类注释的一致性平均Spearman相关性超过0.9，表明MODE在注释方面非常可靠。我们使用多种评估器（包括LLaMA、Claude3、GPT-4、LLaVA、Gemini和Qwen3-VL）对MODE进行了评估。结果显示，即使是表现最好的基于模型的评估器，其与人类评估的结果也存在显著差异，MODE-Base的一致性评分低于0.7，MODE-Hard的一致性评分更低，低于0.4。为了提高基于模型的MOD评估能力，我们提出了MM-Eval框架，这是一种旨在标准化自动评估的系统方法。MM-Eval引入了图像转换作为模态桥接机制、推理增强以促进透明推理，以及推理校准以提高统计可靠性。与基线方法相比，MM-Eval在MODE-Base上提高了67.41%，在MODE-Hard上提高了297%。此外，在MODE-Multi上的表现也有了显著提升，证明了该框架能够处理更大、更复杂的数据集。这些结果表明，MM-Eval是一个可移植且可靠的未来MOD评估标准。

引言

多模态开放领域对话（MOD）技术对于探索人机交互至关重要，并已引起广泛关注[1]、[2]、[3]。自动且准确的MOD评估可以发现多模态语言模型在理解和生成基于图像的文本方面的不足。然而，Liu等人[4]证明，基于规则的评估方法（如BLEU[5]、METEOR[6]、ROUGE[7]）可能无法准确反映响应的质量，从而限制了它们为MOD生成方法提供有意义反馈的效果。此外，这些方法依赖于成熟的基准测试，对于开发能够更好地理解和生成类人交互的更复杂MOD系统至关重要。

以往的对话评估方法可以分为单模态和多模态对话评估。单模态对话评估通常仅关注上下文的一致性和流畅性，而忽略了图像信息。多模态对话评估主要解决响应中出现的多模态幻觉等问题。然而，MOD的评估仍然缺乏专门的基准和评估标准，这表明该领域有显著的发展需求。为了解决这一不足，我们构建了一个高质量人类注释的多模态开放领域对话（MOD）评估基准（MODE），并提出了一种稳定的评估方法MM-Eval。

为了实现这一目标，我们首先收集了一个多模态开放领域对话（MOD）数据集。然后，我们使用两种不同的方法基于该语料库生成响应，并将多模态信息与生成的响应结合起来作为MOD基准。根据生成响应的不同方式，这些数据集被分为MODE-Base和MODE-Hard。最后，我们招募了三名具有自然语言处理经验的注释者，根据提出的5级评分标准对响应质量进行评分。我们的多模态评估标准旨在反映结合文本和视觉元素的人机对话的复杂性和多样性。

此外，为了平衡评分分布，使我们能够更全面地评估模型在不同评分下的表现，并减少评估偏差，我们还增强了人类注释的一致性，MODE-Base的平均Spearman相关性为0.900，MODE-Hard为0.912。如图1所示，我们为每个响应标注了相应的分数以显示整体质量。通过使用MODE，我们可以探索现有MOD评估方法的有效性，从而促进更合适的多模态评估模型的发展。在这项工作中，我们分析了当前的评估方法，并提供了与人类注释一致的分析。低一致性结果突显了当前评估方法在多模态开放领域对话任务中的局限性。尽管大型语言模型（LLMs）已成为各种文本评估任务的最新技术（SOTA）[8]、[9]，但它们在多模态对话评估中的应用尚未得到探索。

在本文中，我们测试了多种评估器在MOD评估任务中的表现，包括大型语言模型如GPT-4[10]、LLaMA[11]以及多模态语言模型如LLaVA、GPT-4V[12]、Claude3[13]、Gemini-pro-vision[14]和Qwen3-VL[15]。值得注意的是，这些评估器与人类评估的结果一致性较低。因此，我们提出了一种名为MM-Eval的方法，旨在提升这些评估器的MOD评估能力。MM-Eval包括三个模块：图像转换（IT）、推理增强（IE）和推理校准（IC）。IT将图像转换为文本，使无法处理图像的模型能够结合视觉信息，从而提高模型性能；IE利用认知链式推理要求模型解释其评分，增强其推理能力并促进更逻辑的评分；IC执行多次推理并取平均分作为最终结果，进一步提高评分的一致性。我们的贡献可以总结如下：

我们为MOD建立了一个标准化的评估协议，定义了一个五级评分系统，用于评估基于图像和上下文的响应的一致性和连贯性。该系统使评估者能够准确衡量响应质量，并为MOD研究社区建立共同的基准。
我们发布了MODE，这是一个具有平衡评分和对抗性子集的诊断性基准。它作为一个全面的工具，用于量化模型的鲁棒性，并识别开放领域场景中的特定能力差距（例如幻觉、逻辑不一致性）。
我们深入研究了传统评估方法在我们基准测试上的多模态理解能力，并引入了MM-Eval方法框架，以提高在这一具有挑战性的基准测试上的性能。MM-Eval取得了显著提升，在MODE-Base上提高了52%，在MODE-Hard上提高了75%。这些结果凸显了MM-Eval在支持更自动、更准确的MOD评估方面的能力。

对话评估数据集

Lowe等人[16]介绍了一个用于训练和评估的对话数据集。该数据集包含来自Twitter的对话上下文及其对应的响应，总计超过10,000个对话。每个响应都由人类评估者评分，评分范围从1到5，表示响应的质量。此外，数据集还包括对辅助问题的回答，如主题相关性、信息量以及是否需要背景知识等。

MODE

MODE包括单轮对话MODE-Single和多轮对话MODE-Multi。根据评估难度，MODE-Single被分为MODE-Base和MODE-Hard。

我们使用生成模型为MODE-Base生成响应。在某些情况下，即使忽略图像，对话响应的评分也不会受到影响（见图2）。因此，为了提高多模态场景中对话评分的相关性，我们引入了人类生成的方法

任务定义

给定一张图片（或图片描述）和相关的对话< />

{C,R}，其中C代表基于图片的上下文，R是对给定上下文的响应。在这项研究中，我们主要关注响应的质量。我们根据、C以及第3.4节中提到的评分标准r来评分（见 $S o r (R | I, C, r)$ ）。模型应根据的合理性以及图像和上下文的一致性等因素给出整体评分。

MM-eval

我们提出

基线

根据[4]，为了测试传统评估方法在MOD评估中的适用性，我们研究了基于词的相似性方法和基于词嵌入的相似性方法在MODE上的表现，包括BLEU[5]、ROUGE[7]、METEOR[6]、Greedy Matching[19]、Embedding Average[20]和Vector Extrema[18]。考虑到近年来提出的基于学习的自动方法在对话评估中显示出与人类一致的结果[38]，我们使用了USR[39]

案例研究

为了进一步研究我们的方法与提出的基线之间的多模态响应评估质量，我们在表11中展示了示例。左列显示了图片和三位人类注释者的评分。中间显示了对话内容。右侧显示了基于LLaVA及其变体的评分。

在案例1中，图片展示了一种水下生物，上下文提到了这种生物，但响应忽略了图片内容，并声称

结论

在本文中，我们提出了多模态开放领域对话评估标准。基于这些标准，我们构建了高质量的、由人类注释的数据集MODE，专门用于评估MOD。根据多模态评估的难度，我们将MODE分为Base和Hard两类。通过使用这个基准，我们发现现有方法在多模态评估方面存在局限性，因此我们提出了MM-Eval来提升多模态开放领域对话评估的性能。

数据使用的伦理和知情同意

所有参与者在参与研究之前都提供了知情同意书，所有涉及的研究数据都经过了去标识处理，以保护参与者的隐私。数据存储和处理严格遵循数据保护法规。根据合理请求，其他研究人员可以访问这些数据，以进一步促进学术交流和透明度。

CRediT作者贡献声明

hang yin：撰写——初稿、验证、软件、方法论、调查、形式分析、概念化。xinglin wang：撰写——初稿、验证、软件、资源、方法论。yueqi zhang：撰写——审稿与编辑、验证、软件。pinren lu：软件、资源。bin sun：撰写——审稿与编辑、验证。peiwen yuan：撰写——审稿与编辑、验证。kan li：撰写——审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

hang yin的研究兴趣集中在多模态生成模型上。他正在北京工业大学攻读博士学位，由Kan Li教授指导。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号