换一种说法：基于强化学习（RL）的提示调优方法，用于提升开放词汇表的识别能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Say it better: RL-based prompt tuning for enhancing open-vocabulary recognition

【字体：大中小】 时间：2026年03月15日 来源：Neurocomputing 6.5

编辑推荐：

　　开放词汇图像识别的提示优化方法Say it Better通过LLM辅助的强化学习机制提升模型性能，在RefCOCOg和GOLD-A数据集上验证了其在多种检测分割架构中的有效性。

Mikhail Avshalumov | Zoya Volovikova | Dmitry Yudin | Aleksandr Panov

莫斯科物理技术学院，俄罗斯Dolgoprudny市Institutsky街9号

摘要

随着开放词汇量视觉任务的兴起，使用自然语言提示进行图像识别变得越来越流行。我们提出了一种改进策略，通过微调流程将用户查询重新表述为与视觉识别系统的输入期望更匹配的提示，我们将其称为“Say it Better”（SiB）。这种重新表述由一个辅助的大型语言模型（LLM）完成，并通过强化学习进一步优化。奖励信号来自识别模型的性能，使LLM能够学习出提高视觉定位和识别准确性的提示转换方式。我们在多种检测和分割架构上评估了我们的方法，并在包括RefCOCOg和GOLD-A在内的数据集上进行了基准测试，观察到准确率的一致提升。代码和数据可在此处获取：https://mikle5.github.io/Say_it_Better。

引言

开放词汇量图像识别已成为计算机视觉研究中的一个关键领域，它能够识别超出封闭、预定义标签空间范围的广泛视觉实体。与传统的监督模型不同，这些模型本质上受限于固定的训练类别集，开放词汇量系统旨在泛化到任意文本查询，从而增强其在开放世界场景中的适用性。这些能力对于实际应用尤为重要，在实际应用中很难提前预测所有可能感兴趣的类别。例如，GroundingDINO [1]和YOLO-World [2]模型在领域外检测方面表现出色，能够识别以前未观察到的对象（见图1）。

尽管开放词汇量识别模型具有优势，但它们仍然对输入提示的表述非常敏感。即使是措辞上的微小变化也可能导致模型行为的显著变化，这引入了不可预测性，并限制了其在关键应用中的可靠性。这种现象归因于训练过程中编码的固有文本偏见，这些偏见通常受到大规模数据集中标题或标签分布的影响。因此，能够以与模型内部表示相匹配的方式定制提示成为最大化性能的关键因素。这一挑战促使人们开发出无需人工干预或预定义类别列表即可系统地细化或调整用户查询的方法。

在这项工作中，我们提出了一个针对开放词汇量图像识别模型的目标提示适应框架。我们引入了一种学习机制，用于动态地重新表述自然语言提示，以更好地匹配特定图像识别模型的特点。

我们的方法使用一个辅助的大型语言模型（LLM）进行微调，该模型根据图像识别模型的反馈（例如类别置信度、相似性排名或IoU分数）生成用户提示的替代表述。通过这个反馈循环，系统逐步优先考虑那些能更好地激活模型潜在视觉概念的语言表述，使输出与用户意图保持一致。我们在两个数据集上评估了我们的方法：RefCOCOg [3]（以其在指代表达任务中的语言复杂性而闻名）和GOLD-A（一个新策划的数据集，更能反映所研究模型的训练分布），从而深入分析提示的敏感性和模型特定的偏见。

我们研究的主要贡献如下：

1.
我们提出了一种新颖的开放词汇量图像识别提示适应方法“Say it Better”（SiB），该方法通过基于图像识别模型反馈的强化学习来提高模型性能。
2.
我们引入了两个互补的数据集——RefCOCOg和新策划的GOLD-A，以更好地基准测试开放词汇量识别任务中提示的敏感性和模型特定的偏见。
3.
我们在多种检测和分割模型上展示了持续的性能提升，验证了我们方法的有效性和通用性。

部分摘录

开放词汇量检测和分割算法

开放词汇量检测和分割方法通常基于视觉-语言对齐，将封闭集检测器扩展到开放世界环境。许多方法利用CLIP [4]特征将语义信息注入检测流程中，如OV-DETR [5]、ViLD [6]和GroundingDINO [7]所示，这些方法在DETR [8]或DINO [1]等架构上整合了语言-视觉融合或基于CLIP的区域表示。另一类方法则适配高效的检测器，如YOLO

方法论

我们提出了一种新的图像识别模型提示调整方法，称为“Say it Better”（SiB）。如图2所示，我们的流程微调了一个大型语言模型，以将人类编写的提示重新表述为改进开放词汇量图像识别系统检测和分割性能的替代形式。

SiB的一个关键组成部分是构建一个特定于视觉模型的释义数据集（第3.1节），因为不同的图像识别模型……

实验

本节介绍了一系列旨在研究以下问题的实验。

问题1：通过使用基于识别模型反馈的强化学习来训练大型语言模型（LLM）重新表述提示，是否可以提高特定图像识别模型的性能？

问题2：模型引入的改进应该如何解释？

问题3：初始提示的质量如何影响SiB所实现的相对性能提升？

消融研究

我们方法的每个步骤如何提高图像识别模型的性能？为了量化训练流程中每个组件的贡献，我们进行了消融研究，结果见表3。从没有语言模型适应的基线开始，我们观察到在策划的提示-响应对上进行监督微调后，检测和分割指标都有显著提升。如表所示，SFT阶段显著……

结论与讨论

在这项工作中，我们引入了“Say it Better”（SiB），这是一个针对开放词汇量图像识别的模型感知提示适应框架。SiB通过使用大型语言模型重新表述输入提示来提高最先进的检测和分割模型的性能，而无需修改底层的视觉框架。

我们的实验得出了几个关键发现。SiB在多种检测和分割模型上一致地提高了性能，证实了提示调整的有效性

CRediT作者贡献声明

Mikhail Avshalumov：撰写——原始草稿、软件、方法论、研究、形式分析、数据策划。

Zoya Volovikova：撰写——原始草稿、可视化、验证、监督、方法论、研究、形式分析、概念化。

Dmitry Yudin：撰写——审阅与编辑、监督、项目管理、形式分析、概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Mikhail Avshalumov与莫斯科物理技术学院国立研究大学有雇佣关系。Zoya Volovikova与人工智能研究所有关联，包括雇佣关系。Dmitry Yudin与莫斯科物理技术学院国立研究大学也有关联

Mikhail Avshalumov是计算机科学硕士，2025年从莫斯科物理技术学院获得学位。他的研究兴趣在于人工智能，特别是提高生成神经网络性能和质量的方法。他在多个国际AI会议上展示了他的工作，为深度学习和生成模型的科学讨论做出了贡献。目前，他的研究论文涉及……

热点排行

新闻专题

联系信箱：

粤ICP备09063491号