SCALAR:用于恶劣开放环境中鲁棒视觉的空间概念对齐技术
《Pattern Recognition》:SCALAR: Spatial-Concept Alignment for Robust Vision in Harsh Open World
【字体:
大
中
小
】
时间:2026年02月04日
来源:Pattern Recognition 7.6
编辑推荐:
视觉-语言模型在开放世界退化环境中的鲁棒性提升与多粒度对齐方法。SCALAR通过监督对齐构建层次化空间-概念链,结合强化微调实现开放世界自演化,优化多维度联合表示,在五个任务、八个数据集上验证其优越性,贡献SCALAR-VG多粒度标注数据集。
杨晓宇|徐立健|曾星宇|王晓松|李洪生|张少婷
中国深圳深圳先进技术大学
摘要
基础模型最近彻底改变了视觉-语言表示学习的方式,但它们在开放世界中面对不利成像条件时的鲁棒性仍不够为人所理解。在这项工作中,我们引入了SCALAR,这是一个场景感知框架,它赋予多模态大型语言模型在开放世界中退化视觉环境中增强空间概念对齐的能力。SCALAR分为两个互补的阶段进行:监督对齐阶段从视觉-语言语料库中重建层次化的概念链,从而实现高效的空间关系解码;随后的强化微调阶段则不需要注释,并利用一致性驱动的奖励来促进开放世界的自我进化,从而在不同退化领域中提高适应性。关键的是,SCALAR同时优化了多维空间表示和异构知识结构,从而在超越典型基准测试的情况下增强了模型的韧性和泛化能力。通过对五个任务和八个大规模数据集的广泛评估,证明了SCALAR在视觉定位和复杂场景理解方面的卓越性能,即使在具有恶劣视觉条件的开放世界环境中也是如此。全面的消融研究进一步阐明了强化微调和多任务联合优化的贡献。最后,为了鼓励未来的研究,我们提供了一个新的多任务视觉定位数据集,强调在退化情况下的细粒度场景-对象关系,以及相应的代码:
https://github.com/AnonymGiant/SCALAR。
引言
空间推理是人工智能中的一个基本认知能力,使模型能够以类似人类的方式解释和导航复杂环境。这种几何理解和关系感知构成了场景感知定位[1]的基石,其目标是在语言结构与物理空间中的相应视觉实体之间建立精确的语义对齐。在具有恶劣视觉条件的开放世界中,这种能力尤为重要,因为可靠的空间概念定位对于鲁棒的感知至关重要。传统的场景感知定位方法[2]主要关注视觉理解,提取特征并将其与文本描述对齐。然而,这些方法往往没有充分利用自然语言表达的指称丰富性,从而限制了多样性、通用性和泛化能力。在退化环境中,这种差距更加明显,因为视觉线索稀缺,对语言先验的依赖性变得愈发重要。
大型语言模型(LLMs)的出现通过展示显著的跨领域泛化能力,彻底改变了人工智能。在此基础上,多模态LLMs(MLLMs),包括GPT-5 [3]和Qwen-2.5VL [4],将视觉编码器与强大的语言框架相结合,实现了空间概念推理、从文本到视觉的知识转移以及指令感知的特征融合。尽管取得了这些进展,但三个持续存在的挑战仍然阻碍了鲁棒的场景感知定位,尤其是在不利条件下:
- •
视觉退化下的语义脆弱性:由于依赖于孤立的对象-标题对,当关键视觉线索缺失或损坏时,模型会变得脆弱。
- •
依赖大量数据的微调:严重依赖精心对齐的图像-文本对,并且需要有限的细粒度监督来进行泛化,尤其是在具有恶劣视觉条件的开放世界中。
- •
不利领域中的跨尺度不一致性:由于退化输入加剧了在文本优化架构内协调边界框、关键点和像素级掩码的难度。
为了解决这些挑战,我们提出了SCALAR(通过强化适应学习进行空间概念对齐),这是一个新颖的框架,能够实现数据高效和鲁棒的空间推理。SCALAR整合了三个关键组件:(i)在有限监督下的层次化空间概念对齐;(ii)在恶劣视觉条件下的开放世界中的强化驱动优化;(iii)多维联合表示,统一了区域级、对象级和场景级的定位,并支持基于提示的灵活交互。
具体来说,我们首先介绍了一种场景感知数据集构建策略,该策略增强了语义一致性。它编码了层次化的对象关系和上下文语义,模仿了人类在检测、标注、定位和上下文理解等任务中的空间推理。在此基础上,我们进一步引入了一种受DeepSeek-R1 [5]启发的强化驱动微调范式,探索开放世界以缓解数据匮乏的挑战。它还使用一致性奖励来促进自我进化,并提高对开放世界中退化输入的适应性。最后,SCALAR统一了边界框、关键点和分割掩码的多任务联合训练,促进了视觉定位和指称表达之间的一致性,同时支持基于提示的人机交互。
为了支持更广泛的评估,我们构建了SCALAR-VG,这是一个包含222k张图像的大规模数据集,具有涵盖对象级、关系级和场景级的多粒度注释。在八个基准测试的五个任务上的广泛实验表明,SCALAR在视觉定位和场景感知理解方面达到了最先进的性能,同时在各种视觉退化条件下仍保持鲁棒性。
总结来说,我们的贡献有四个方面:
- •
我们提出了一种监督式的层次化对齐策略,用于编码空间概念链,在视觉退化下增强语义一致性。
- •
我们引入了一种强化驱动的范式,使模型能够在恶劣视觉条件下对开放世界场景进行鲁棒的自我适应,缓解了对大量数据的依赖。
- •
我们通过联合训练统一了多维表示,促进了细粒度定位和基于提示的交互。
- •
广泛的评估证明了SCALAR在多个退化开放集数据集上的卓越定位和场景感知性能。此外,我们还提供了带有多粒度注释的SCALAR-VG数据集。
部分内容
利用大型语言模型的空间概念对齐
大型语言模型(LLMs)最近对自然语言处理领域产生了重大影响。通过监督学习[6]和带有人类反馈的强化学习等对齐技术,LLMs能够有效地泛化以执行各种任务,即使训练数据有限。OpenAI的ChatGPT [3]就是AI影响力的典型例子。有许多开源努力试图复制它们的成功,构建了基础模型
方法论
在本节中,我们介绍了我们的场景感知视觉语言模型SCALAR,它基于三个关键组件:与大型语言模型的空间概念对齐、用于开放世界适应的强化驱动范式以及与外部环境的多任务交互。在3.1节中,我们利用大型语言模型(LLMs)的理解能力,将概念与空间位置对齐,以增强场景关系感知和理解
实验
在本节中,我们进行了一系列全面的实验,系统地验证了我们提出方法的效率、泛化和鲁棒性。
4.1节介绍了实验设置和实现细节。随后,4.2节展示了我们的方法在实现各种形式的空间特征表示方面的精确对齐能力。另一方面,4.3节验证了我们方法的高级场景感知能力。
结论
我们提出了SCALAR,这是一个视觉语言基础模型,旨在加强视觉模型中的空间表示与大型语言模型中的概念知识之间的对齐。除了主要在受控的封闭环境中进行训练外,SCALAR还利用强化微调将其推理和感知能力扩展到开放世界和视觉退化的场景中,提高了一致性和泛化能力。
CRediT作者贡献声明
杨晓宇:概念化、方法论、验证、可视化、撰写——原始草稿、撰写——审阅与编辑。徐立健:方法论、监督、资金获取、撰写——原始草稿、撰写——审阅与编辑。曾星宇:方法论、撰写——审阅与编辑。王晓松:方法论、验证、撰写——审阅与编辑。李洪生:监督、验证、撰写——审阅与编辑。张少婷:方法论、监督、撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
这项研究部分得到了感知与交互智能中心(CPII)有限公司的支持,该中心隶属于创新与技术委员会(ITC)的InnoHK项目(L.X.、H.L.和S.Z.)以及广东省基础与应用基础研究基金会(编号2023B1515130008,XW)。H.L.和S.Z.是CPII的首席研究员和共同首席研究员。感谢Hao Sun和Ziyu Ni在这项研究中的宝贵讨论。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号