自我改进的整体对齐机制，用于提升偏好体验

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Self-Improved Holistic Alignment for Preference Enhancement

【字体：大中小】 时间：2026年02月10日 来源：Pattern Recognition 7.6

编辑推荐：

　　自监督框架SHAPE通过视觉增强和自总结化生成高质量偏好三元组，无需人工标注即可有效提升视觉语言模型的对齐性能，实验表明在12个基准测试中显著优于传统方法。

陈可佳|张佳文|杨嘉珍|宋明莉|冯遵雷

区块链与数据安全国家重点实验室，浙江大学，中国杭州市西湖区浙大路38号，310027

摘要

大型视觉语言模型（LVLMs）越来越依赖于偏好对齐来确保可靠性，这种对齐通过针对结构为“图像 - 问题 - 胜者文本 - 失败者文本”三元组的数据进行偏好微调来指导模型行为。然而，现有方法通常受到人类标注偏好数据多样性有限和获取成本高的限制，这阻碍了LVLMs充分发挥其预期的对齐能力。我们提出了SHAPE，这是一个自监督框架，能够将现有的大量监督文本-图像对转换为完整的偏好三元组，以实现更高效且更经济的LVLM对齐，从而消除了对人类偏好注释的需求。我们的方法通过迭代自我改进帮助LVLMs逐步提升对齐能力。其核心设计理念是创建这样的偏好三元组：胜者文本在整体性上持续改进，并在质量上优于失败者文本，从而通过偏好微调推动模型达到最佳的对齐性能。对于每一对给定的文本-图像对，SHAPE引入多种视觉增强方法，并将其与摘要文本配对作为胜者响应，同时将原始文本指定为失败者响应。

除了实证改进之外，我们还进行了深入分析，发现胜者响应在句子层面的困惑度显著降低，反映了更高的语言一致性和语义可预测性。这与最近的研究结果一致，即低困惑度监督可以通过在微调过程中最小化参数漂移来增强模型在领域外的鲁棒性。在包括LLaVA和DeepSeek-VL在内的12个不同模型架构和规模上的实验表明，SHAPE取得了显著提升，例如在MMVet（综合评估）中提高了+11.3%，在MMBench（通用VQA）中提高了+1.4%，在POPE（幻觉鲁棒性）中提高了+8.0%，超过了7B模型的基线性能。值得注意的是，定性分析证实SHAPE增强了对视觉细节的关注，并与人类偏好在整体描述上实现了更好的对齐。

引言

继承了大型语言模型（LLMs）的突破性进展，大型视觉语言模型（LVLMs）发展迅速，在广泛的图像-文本理解任务上取得了惊人的性能[1]，展示了其在实际应用[2]和理论研究[3]、[4]方面的巨大潜力。尽管它们具有出色的能力，但在将LVLMs的生成结果与人类偏好对齐方面仍存在重大挑战，模型产生的文本与视觉输入和人类期望存在偏差。未能实现这种偏好对齐可能会对LVLMs的实际应用产生严重后果，从传播错误信息到导致有害的决策风险。

鉴于偏好对齐的关键重要性，研究界对于解决将LVLMs的生成结果与人类偏好对齐的难题表现出浓厚的兴趣。[修订：初步方法涉及首先收集大规模的偏好数据和人类注释，然后使用基于偏好三元组的人类反馈强化学习（RLHF）或更近期的直接偏好优化（DPO）等偏好微调算法[5]。这种方法在计算和资金上可能非常密集，因为人类注释既费时又昂贵。此外，它可能难以全面覆盖所有可能的人类偏好分布[6]、[7]。主流和最成熟的范式遵循大型语言模型的路径，即通过大规模的人类标注偏好数据和强化学习（RLHF）或基于偏好三元组的直接偏好优化（DPO）等微调算法来实现对齐[5]。虽然有效，但这种方法计算成本高且依赖大量注释。为多模态任务收集可靠的人类偏好数据需要领域专业知识和人工努力，从而大幅增加了对齐的总体成本。此外，由于视觉场景和问题的固有多样性，这种人工策划的数据集往往无法全面捕捉现实世界偏好的广泛分布[6]、[7]。

为了弥补人类标注偏好数据的局限性，一些替代方法探索了利用外部LVLM（如GPT-4）进行偏好生成[8]、[9]。然而，这种方法也引入了自己的挑战：不一致的评分机制和离散的评估指标[10]、[11]，阻碍了准确的能力评估。此外，依赖外部模型进行评分[12]不仅会产生大量的计算成本，还无法捕捉视觉和文本模式之间的微妙语义关系。因此，当前的LVLM偏好对齐努力仍然受到获取高质量、经济高效偏好数据这一根本挑战的制约。

[修订：最近的研究主要通过使用LVLM本身自动生成偏好数据来缓解这一限制，从而减少对标注数据或外部评分数据的依赖。例如，SIMA[13]从视觉输入中提取图像和问题，让模型生成响应，然后使用自我评估方案创建偏好对进行训练；CSR[14]实现了模型自生成和校准的奖励机制；SEVA[15]结合了DPO进行偏好对齐，但仅依赖于比较模型视觉输出的原始版本和增强版本，限制了其捕捉丰富语义联系的能力。]

总体而言，这些最近的尝试仅专注于引入多种文本侧操作来生成偏好数据，而在生成胜者和失败者样本时固定了图像侧，忽略了视觉-文本之间的关键语义互动。仅文本的变化方法也存在固有的局限性，因为视觉内容包含多维信息，而文本描述尽管多样，却无法全面表示这些信息，从而可能在视觉输入与其文本表示之间产生潜在的语义差距。

我们的实验表明，LVLM对图像侧的修改（如随机翻转）非常敏感，这可能导致模型输出出现显著的语义变化。我们不将这种现象视为图1所示的局限性，而是将其视为一个机会[修订：我们将这种敏感性视为一个机会]。这一固有特性为生成多样且语义连贯的文本响应提供了监督信号，无需额外的人类偏好注释，从而为LVLM对齐提供了高质量且成本效益高的偏好三元组。通过利用视觉增强引起的变化自动创建偏好对，我们可以在保持关键视觉-文本语义互动的同时构建丰富的语义比较。因此，我们的研究解决了LVLM偏好对齐领域中的一个基础性和紧迫的研究问题：我们如何利用现有的监督注释数据自动构建高质量的偏好对，同时保持低注释成本并确保整体语义理解？

为了解决这些挑战，我们提出了SHAPE（自我改进的整体对齐优化），这是一个通过自动化构建有竞争力的偏好对来优化LVLM偏好对齐的新框架。我们的设计理念基于一个关键观察：有效的偏好对齐需要精心制作的配对，满足两个关键条件：1. 能够体现卓越质量的胜者文本；2. 已经能够提供足够有意义的学习信号的竞争性失败者文本。这种有目的的构建确保了有效的偏好对齐，同时消除了对昂贵手动注释的需求。

认识到单个LVLM在知识深度和推理能力方面的固有局限性，以及图像侧增强策略可能引发的性能下降，这突显了需要一种更稳健的偏好对齐方法。为了在不依赖手动注释的情况下构建高质量的偏好对，SHAPE利用了模型对视觉增强的敏感性。通过聚合多样化的响应并通过自我总结合成共识“胜者”，它捕捉了不同视角下的一致且语义丰富的信息。这些胜者响应不仅与图像语义更紧密地对齐，而且表现出更低的语言变异。一致地，我们合成的胜者在困惑度和变异度上都有所降低，使得微调更加高效和稳健。这种自我增强的监督方法在理论上合理且在实证上有效。在12个基准测试中的广泛评估表明，SHAPE在LLaVA-1.5-7B、13B和DeepSeek-VL2-3B、27B模型变体上分别实现了10.36%、6.46%、2.3%和3.3%的性能提升。

主要贡献。为了解决单个LVLM在知识深度和推理能力方面的固有局限性，我们提出了SHAPE，这是一个通过总结和增强感知机制合成更强响应的新框架，确保了鲁棒性和语义一致性。此外，SHAPE通过从多样化的候选输出中生成“胜者”来构建整体偏好对，动态改进了对偏好行为的对齐，同时最小化了注释成本。实验结果表明，SHAPE超越了现有最佳结果，有效解决了单一模型推理的局限性和与增强策略相关的挑战。

部分片段

大型视觉语言模型

近年来，LVLMs取得了显著进展[1]，从早期的先驱CLIP到先进的模型LLaVA[4]和InstructBLIP[16]。这些模型利用图像-文本预训练实现了复杂的多模态理解[add：最近的进展还包括高效的架构设计和针对复杂视觉推理任务的指令微调策略，如DeepSeek-VL[17]和Qwen-VL[18]。

尽管取得了这些进展，LVLMs仍然面临

方法

[修订：我们首先解决了一个在LVLM对齐中的关键挑战：它们对语义等价的视觉输入的响应不一致。我们没有将此视为弱点，而是将其转化为监督的来源。

实验

在本节中，我们首先介绍了SHAPE实现的实验设置，包括数据构建、训练策略和评估基准。然后，我们展示了在各种基准测试中的主要结果，并将SHAPE与最先进的对齐方法进行了比较。为了理解性能提升背后的内部机制，我们进一步分析了生成响应的语言特性，特别关注了偏好

结论

[add：本研究提出了SHAPE，这是一个无需依赖劳动密集型手动注释即可对齐大型视觉语言模型的自监督框架。通过将LVLM对视觉增强的固有敏感性重新定义为监督信号，所提出的方法利用多视图视觉增强和总结来构建可靠的胜者-失败者偏好对。核心创新在于多视图总结机制，它从

未引用的引用

缺少引用表6

CRediT作者贡献声明

陈可佳：写作 - 审稿与编辑，写作 - 原始草稿，可视化，方法论，调查，形式分析，数据管理，概念化。张佳文：方法论，调查，数据管理。杨嘉珍：验证，调查。宋明莉：调查，资金获取，概念化。冯遵雷：资金获取，概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：冯遵雷报告获得了浙江大学的财务支持。冯遵雷与浙江大学存在包括就业关系。冯遵雷拥有待授权的专利“通过迭代生成整体胜者来自自我改进的视觉偏好对”。没有其他需要声明的关系或活动。

致谢

[add：本工作得到了浙江省“建兵玲艳+”研发计划（编号2025C01066）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

大型视觉语言模型

方法

实验

结论

未引用的引用

CRediT作者贡献声明

利益冲突声明

致谢

热点排行