继承了大型语言模型(LLMs)的突破性进展,大型视觉语言模型(LVLMs)发展迅速,在广泛的图像-文本理解任务上取得了惊人的性能[1],展示了其在实际应用[2]和理论研究[3]、[4]方面的巨大潜力。尽管它们具有出色的能力,但在将LVLMs的生成结果与人类偏好对齐方面仍存在重大挑战,模型产生的文本与视觉输入和人类期望存在偏差。未能实现这种偏好对齐可能会对LVLMs的实际应用产生严重后果,从传播错误信息到导致有害的决策风险。
鉴于偏好对齐的关键重要性,研究界对于解决将LVLMs的生成结果与人类偏好对齐的难题表现出浓厚的兴趣。[修订:初步方法涉及首先收集大规模的偏好数据和人类注释,然后使用基于偏好三元组的人类反馈强化学习(RLHF)或更近期的直接偏好优化(DPO)等偏好微调算法[5]。这种方法在计算和资金上可能非常密集,因为人类注释既费时又昂贵。此外,它可能难以全面覆盖所有可能的人类偏好分布[6]、[7]。主流和最成熟的范式遵循大型语言模型的路径,即通过大规模的人类标注偏好数据和强化学习(RLHF)或基于偏好三元组的直接偏好优化(DPO)等微调算法来实现对齐[5]。虽然有效,但这种方法计算成本高且依赖大量注释。为多模态任务收集可靠的人类偏好数据需要领域专业知识和人工努力,从而大幅增加了对齐的总体成本。此外,由于视觉场景和问题的固有多样性,这种人工策划的数据集往往无法全面捕捉现实世界偏好的广泛分布[6]、[7]。
为了弥补人类标注偏好数据的局限性,一些替代方法探索了利用外部LVLM(如GPT-4)进行偏好生成[8]、[9]。然而,这种方法也引入了自己的挑战:不一致的评分机制和离散的评估指标[10]、[11],阻碍了准确的能力评估。此外,依赖外部模型进行评分[12]不仅会产生大量的计算成本,还无法捕捉视觉和文本模式之间的微妙语义关系。因此,当前的LVLM偏好对齐努力仍然受到获取高质量、经济高效偏好数据这一根本挑战的制约。
[修订:最近的研究主要通过使用LVLM本身自动生成偏好数据来缓解这一限制,从而减少对标注数据或外部评分数据的依赖。例如,SIMA[13]从视觉输入中提取图像和问题,让模型生成响应,然后使用自我评估方案创建偏好对进行训练;CSR[14]实现了模型自生成和校准的奖励机制;SEVA[15]结合了DPO进行偏好对齐,但仅依赖于比较模型视觉输出的原始版本和增强版本,限制了其捕捉丰富语义联系的能力。]
总体而言,这些最近的尝试仅专注于引入多种文本侧操作来生成偏好数据,而在生成胜者和失败者样本时固定了图像侧,忽略了视觉-文本之间的关键语义互动。仅文本的变化方法也存在固有的局限性,因为视觉内容包含多维信息,而文本描述尽管多样,却无法全面表示这些信息,从而可能在视觉输入与其文本表示之间产生潜在的语义差距。
我们的实验表明,LVLM对图像侧的修改(如随机翻转)非常敏感,这可能导致模型输出出现显著的语义变化。我们不将这种现象视为图1所示的局限性,而是将其视为一个机会[修订:我们将这种敏感性视为一个机会]。这一固有特性为生成多样且语义连贯的文本响应提供了监督信号,无需额外的人类偏好注释,从而为LVLM对齐提供了高质量且成本效益高的偏好三元组。通过利用视觉增强引起的变化自动创建偏好对,我们可以在保持关键视觉-文本语义互动的同时构建丰富的语义比较。因此,我们的研究解决了LVLM偏好对齐领域中的一个基础性和紧迫的研究问题:我们如何利用现有的监督注释数据自动构建高质量的偏好对,同时保持低注释成本并确保整体语义理解?
为了解决这些挑战,我们提出了SHAPE(自我改进的整体对齐优化),这是一个通过自动化构建有竞争力的偏好对来优化LVLM偏好对齐的新框架。我们的设计理念基于一个关键观察:有效的偏好对齐需要精心制作的配对,满足两个关键条件:1. 能够体现卓越质量的胜者文本;2. 已经能够提供足够有意义的学习信号的竞争性失败者文本。这种有目的的构建确保了有效的偏好对齐,同时消除了对昂贵手动注释的需求。
认识到单个LVLM在知识深度和推理能力方面的固有局限性,以及图像侧增强策略可能引发的性能下降,这突显了需要一种更稳健的偏好对齐方法。为了在不依赖手动注释的情况下构建高质量的偏好对,SHAPE利用了模型对视觉增强的敏感性。通过聚合多样化的响应并通过自我总结合成共识“胜者”,它捕捉了不同视角下的一致且语义丰富的信息。这些胜者响应不仅与图像语义更紧密地对齐,而且表现出更低的语言变异。一致地,我们合成的胜者在困惑度和变异度上都有所降低,使得微调更加高效和稳健。这种自我增强的监督方法在理论上合理且在实证上有效。在12个基准测试中的广泛评估表明,SHAPE在LLaVA-1.5-7B、13B和DeepSeek-VL2-3B、27B模型变体上分别实现了10.36%、6.46%、2.3%和3.3%的性能提升。
主要贡献。为了解决单个LVLM在知识深度和推理能力方面的固有局限性,我们提出了SHAPE,这是一个通过总结和增强感知机制合成更强响应的新框架,确保了鲁棒性和语义一致性。此外,SHAPE通过从多样化的候选输出中生成“胜者”来构建整体偏好对,动态改进了对偏好行为的对齐,同时最小化了注释成本。实验结果表明,SHAPE超越了现有最佳结果,有效解决了单一模型推理的局限性和与增强策略相关的挑战。