S3：一个简单、强大且基于样本效果的多模态对话系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Data & Knowledge Engineering》：S3: A simple strong sample-effective multimodal dialog system

【字体：大中小】 时间：2026年02月16日 来源：Data & Knowledge Engineering 2.6

编辑推荐：

　　提出了一种基于预训练大语言模型和少量多模态数据的简单有效对话系统S3，在四个排行榜上达到接近SOTA的性能。关键技术包括模态投影器MLP、高效数据混合策略和单A100 GPU训练。

Elisei Rykov | Alexander Panchenko

斯科尔科沃科技学院，俄罗斯联邦

摘要

在这项工作中，我们提出了一个概念上简单但功能强大的多模态对话任务基线模型。该模型在四个具有竞争力的排行榜（MMMU、RealWorldQA、POPE和AI Journey Contest 2023）上取得了接近最先进水平的成绩。该系统基于一个预训练的大型语言模型、针对图像和音频的预训练模态编码器以及一个可训练的模态投影器。所提出的有效数据混合方法证明了，基于强大语言模型并在少量多模态数据上训练的多模态模型能够在多模态对话任务中表现出色。

引言

现代互联网聊天是多模态的。每天我们都会在WhatsApp和Facebook等通讯工具和社交网络中收到大量图片、音频和视频。随着现代社会的快速发展，许多人无法跟上在社交网络上接收的所有信息。面对这一情况，能够处理文本、图像和音频的多模态AI助手变得越来越重要。考虑到人工智能（AI）的快速发展，多模态系统的出现标志着一个转折点，使机器能够以前所未有的精细度解释和分析异构数据流。这些系统能够无缝整合文本、图像和音频等多种形式的数据，并逐渐具备类似人类的认知能力。然而，研究人员在这一领域面临的主要挑战之一是需要大量的数据和大量的计算资源来训练最先进的模型（见图1）。

在这种背景下，我们的研究提出了一种新的范式，认为即使使用最少的数据和计算资源，也可以构建出强大的多模态系统。本文介绍了一个简单而有效的基线模型，挑战了“大型数据集和强大的计算能力是开发竞争性多模态AI系统的先决条件”的传统观念。通过使用不到150,000个多模态样本的紧凑语料库、一个预训练的模态编码器以及一个7B规模的语言模型，并利用单个A100-80 GB GPU的计算能力，我们创建了一个架构简洁的模型，其性能可与目前领域内的复杂系统相媲美。我们的方法核心是一个模态投影器，它使用简单的多层感知器（MLP）将多模态特征映射到token嵌入中。

我们的贡献可以总结如下：

•
我们应用了一种众所周知的流程来训练针对多种模态（图像、音频和文本）的多模态投影器，从而训练出多模态对话模型。
•
我们提出了一种高质量的有效数据混合方法，用于训练多模态对话模型。
•
根据基准测试，我们将整个图像映射到4个文本token足以满足各种多模态对话任务的需求。
•
我们公开发布了所开发的模型，其性能可与最先进的模型相媲美。

数据

本节描述了用于S

^{3}

训练的数据集组合，以及我们如何处理这些数据集。例如，图像和音频字幕数据是如何转换为对话格式的，以及我们使用了哪些系统提示进行训练。

方法

在本节中，我们首先概述了多模态语言建模的一般工作原理，然后详细描述了S

^{3}

模型的具体训练过程。

结果

在本节中，我们在四个最近的多模态对话竞赛排行榜（MMMU [22]、RealWorldQA [2]、POPE [3] 和 AI Journey Contest 2023 [3]）中全面测试了我们的模型（见图5）。

结论

我们的研究表明，无需大型数据集或强大的计算能力，也可以开发出具有高度竞争力的多模态对话模型。通过使用不到150,000个多模态样本和单个A100-80 GB GPU，我们构建了一个在该领域表现与最先进模型相当的系统。特别是，我们的模型采用了简单的架构，其中包含一个使用多层感知器（MLP）的模态投影器，能够有效地整合多模态信息。

局限性

尽管S

^{3}

是一个适用于图像和音频的有效多模态对话系统，但它也存在一些局限性：

音频模态：由于缺乏评估基准和开源训练数据，音频模态的性能受到限制。目前用于评估音频模态性能的主要基准是AI Journey Contest。因此，该模型在一般音频场景中的有效性尚未得到充分探索。在未来的工作中，我们计划探索更多样化和更大规模的音频数据。

CRediT作者贡献声明

Elisei Rykov：撰写 – 审稿与编辑、原始草稿撰写、方法论设计、可视化处理、验证与数据分析。Alexander Panchenko：撰写 – 审稿与编辑、监督工作。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究得到了俄罗斯科学基金会（Russian Scientific Foundation）项目编号25-71-30008“可靠、适应性强且值得信赖的人工智能实验室”的支持。

Elisei Rykov是俄罗斯莫斯科斯科尔科沃科技学院（Skolkovo Institute of Science and Technology）在Alexander Panchenko指导下攻读博士学位的学生。他目前还在人工智能技术中心（Center for Artificial Intelligence Technology）担任兼职研究工程师。他于2023年在俄罗斯莫斯科高等经济学院（Higher School of Economics）获得计算语言学硕士学位，并在俄罗斯喀山联邦大学（Kazan Federal University）获得信息与系统技术学士学位。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

数据

方法

结果

结论

局限性

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题