编辑推荐:
本文系统综述了大型视觉语言模型的多模态对齐技术,提出双维度架构(表征对齐与行为对齐),归类五种技术支柱:隐式对齐、编码器级表征对齐、融合阶段架构对齐、指令与偏好驱动的行为对齐、推理时动态对齐,并分析效率、偏见等挑战及未来方向。
作者:方宇、庞晓琪、余启阳、闵帆、曹雪梅、陶攀、李天瑞
西南交通大学计算机与人工智能学院,中国四川省成都市,611756
摘要
近年来,由于在跨模态任务上的出色表现,预训练的视觉-语言模型(VLPMs)受到了广泛关注。多模态对齐是这些模型的核心技术,它涉及在视觉元素和语言单元之间建立语义对应关系,以实现统一的理解和生成。随着大型视觉-语言模型(LVLMs)的出现,对齐已经从简单的特征映射演变为一个多维优化挑战,涵盖了架构和政策两个方面,包括表征一致性和行为忠实性。本文对80多篇核心出版物进行了全面回顾,并创新性地提出了一个双维架构:表征对齐和行为对齐。我们将现有的最先进策略系统地分为五个关键技术支柱:(1)隐式对齐,(2)编码器级表征对齐,(3)融合阶段架构对齐,(4)基于指令和偏好的行为对齐,以及(5)推理时的动态对齐。最后,本文总结了关键挑战,包括效率、社会偏见和可解释性,并为统一的多模态系统提出了一个前瞻性的研究蓝图。
引言
人工智能的发展已经从单模态优化转向了大型视觉-语言模型(LVLMs),这些模型将视觉感知与大型语言模型(LLMs)的符号推理相结合。这一转变的核心是“模态差距”,即高维视觉流形与离散语言序列之间的结构差异。多模态对齐作为核心技术,通过在视觉元素和语言单元之间建立语义对应关系来弥合这一差距[1]。我们通过两个相互依赖的维度来定义这一领域:表征对齐,确保匹配的图像-文本对在共享嵌入空间E中占据相邻区域;行为对齐,它控制模型的生成策略,以确保事实忠实性、指令遵循性以及减少幻觉现象。在当前的2023-2025年背景下,对齐已经从简单的特征映射演变为一个多维优化挑战,涵盖了架构、偏好学习和推理逻辑。
尽管LVLMs迅速普及,但现有的文献综述存在三个关键缺陷。首先,大多数当前的调查仍然以“融合为中心”,关注结构整合,而忽略了实现行为真实性和可靠表达所需的“以政策为中心”的机制[1]。其次,当前的实证惯例中普遍存在“深度层偏见”;模型通常默认使用视觉变换器的最终层,而没有对从低级边缘检测器到抽象对象表示的层次化视觉特征如何影响复杂推理任务(如计数或定位)进行原则性分析[2]。第三,该领域最近受到了2025年代范式的影响,例如推理时的动态对齐和以推理为导向的强化学习,但目前还没有全面的调查系统地解析这些技术[3]。本调查的目的是为了弥合这些差距,提供一个统一的框架,以解决从静态特征对应到推理轨迹动态验证的转变。
为了解决这些限制,本调查总结了LVLMs中的85种对齐策略,如图2所示,旨在提供一个全面和结构化的概述。我们提出了一个五项技术支柱的分类法,如图1所示:(1)隐式对齐,(2)编码器级表征对齐,(3)融合阶段架构对齐,(4)基于指令和偏好的行为对齐,以及(5)推理时的动态对齐。我们系统地综合了2025年前沿的突破,包括通过Sigmoid损失实现的可扩展对齐[4]、用于将模型响应分布与真实分布对齐的混合偏好优化(MPO)[5],以及通过密集的逐步奖励使模型(如R1-VL)能够自我改进其推理能力的逐步组相对策略优化(StepGRPO)[6]。此外,我们首次对数据驱动的风险进行了学术分析,例如语义漂移和在自消耗合成循环中的模型崩溃。
本文的其余部分结构如下。第2节概述了LVLMs的基本概念。第3节回顾了基于Transformer的早期隐式对齐方法。第4节探讨了编码器级别的表征对齐,第5节讨论了融合阶段的架构对齐。第6节进一步探讨了通过指令调整和偏好优化实现的行为对齐。第7节介绍了推理时的动态对齐策略,第8节重点介绍了数据驱动的合成对齐方法。第9节总结了提出的多层次评估框架,最后,第10节总结了未来的挑战。
部分摘录
LVLMs中的对齐
本文将对齐分解为两个方面:表征对齐和行为对齐,如图3所示。表征对齐侧重于编码器级别的静态特征映射,旨在最大化视觉和语言特征之间的互信息,以解决准确理解的问题。其技术前沿已经从InfoNCE发展到SigLIP,朝着更细粒度和定量的方向发展。行为对齐则关注……
基于Transformer的隐式对齐
在视觉-语言预训练(VLP)的早期发展阶段[9],对齐并未被视为一个独立的目标,而是隐含在模型架构本身中。与后来明确优化嵌入空间几何结构的范式(例如CLIP)[10]不同,这一阶段的模型依赖于深度Transformer层[11]来动态学习跨模态对应关系。我们根据……将这些架构对齐策略分为两个基本范式
编码器级对齐
这一支柱关注视觉编码器将原始像素映射到共享语义空间的能力,同时结合语言单元。与侧重于融合的模型不同,这些方法更注重嵌入本身的质量,通常采用双塔架构或专门的掩蔽策略,以确保表征空间内在的一致性。
LVLMs中的行为对齐
视觉-语言对齐的范式经历了显著的发展,从模态对齐(特征空间兼容性的架构挑战)转变为行为对齐,后者控制模型的操作策略、推理完整性和安全性。这一转变解决了对齐问题,即具有原始感知能力的模型往往由于缺乏策略级的基础而无法遵循复杂指令或生成幻觉内容。在2025年,……
LVLMs中融合阶段对齐的架构分类
架构对齐旨在弥合视觉编码器Dv与大型语言模型(LLM)工作空间DI之间的模态差距。虽然早期的努力集中在简单的维度映射上,但2024-2025年的发展强调了向时空一致性和计算效率的转变,其中对齐越来越多地集成到LLM的本征表示逻辑中,而不再被视为一个外围适配器。
推理时的对齐
大型视觉-语言模型经常出现对齐失败,表现为幻觉或安全漏洞,这是由于语言先验或对抗性视觉噪声的主导作用。虽然训练时的对齐建立了行为基线,但它仍然是静态的且计算成本高昂。推理时的对齐(ITA)将模型视为一个动态系统,在前向传播或解码阶段进行干预,以确保多模态的忠实性和鲁棒的安全性
数据驱动的对齐
LVLMs的性能从根本上受到底层对齐数据质量的限制。传统上依赖噪声较大的网络爬取数据对的方法,越来越多地被以数据为中心的范式所取代,后者利用生成模型作为数据合成和 curate 的辅助引擎[104]。虽然这种转变提高了可扩展性并提供了更细粒度的可控性,但它引入了结构上的脆弱性,最显著的是语义漂移和模型在自消耗合成循环中的崩溃
LVLMs的多层次对齐评估
传统的视觉-语言模型(VLMs)评估主要依赖于实例级别的检索指标,如Recall@K和整体视觉问答(VQA)准确性,如表7所示。然而,这些指标无法诊断“通过过度对齐产生的幻觉”,即模型优先考虑语言先验而非视觉证据。对于高风险的信息融合,需要一个三级评估框架来评估表征完整性、分类精度等
结论与未来挑战
多模态对齐的主要目标是在视觉元素和语言单元之间建立语义对应关系,以实现统一的跨模态理解和生成。现代大型视觉-语言模型(LVLMs)中的对齐架构通常分为两个维度:表征对齐和行为对齐。表征对齐侧重于编码器级别的静态特征映射,以最大化互信息,解决问题……
CRediT作者贡献声明
方宇:撰写——审阅与编辑,撰写——初稿,方法论。
庞晓琪:撰写——审阅与编辑,撰写——初稿,概念化。
余启阳:可视化。
闵帆:监督,项目管理。
曹雪梅:撰写——审阅与编辑。
陶攀:可视化。
李天瑞:验证,监督。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。