通过使用大型语言模型学习与类别无关的基础属性来提升开放世界物体检测的性能

《Expert Systems with Applications》:Enhancing Open World Object Detection via Learning Class-Agnostic Foundational Attributes with Large Language Models

【字体: 时间:2026年03月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  开放世界目标检测中提出OW-CFA方法,通过LLM构建类无关属性空间,结合AAR损失增强目标类激活,利用ERAS稀疏化提升属性可解释性,并设计UPE估计未知对象概率,在RWD基准上显著优于SOTA方法。

  
叶琳华|姜一飞|罗荣华
华南理工大学,广州,510006,中国

摘要

开放世界物体检测(OWOD)要求检测器能够持续识别并适应训练数据集中未出现的新物体。现有方法通常依赖于大型语言模型(LLMs)来描述已知类别的视觉特征,并利用这些特征来识别潜在物体。然而,这种对已知类别语义的依赖引入了类别偏见,从而限制了模型对未见类别的泛化能力。在本文中,我们提出了一种新的OWOD方法OW-CFA,该方法学习与类别无关的基础属性,以实现已知和未知物体的鲁棒且可解释的检测。具体来说,我们利用LLMs构建了一个与类别无关的初始属性空间,该空间捕捉了颜色和形状等通用视觉线索。鉴于初始属性空间中的冗余性,我们提出了非对称属性响应(AAR)来增强目标类别的区分性激活,从而建立更稳健的属性到类别的映射。此外,我们提出了熵正则化属性稀疏化(ERAS),该方法利用低熵正则化来提高语义可解释性并改善对未知类别的泛化能力。为了估计未知物体的置信度,我们提出了未知概率估计(UPE)方法,该方法结合了分布内相关性和分布外可能性。在多种应用领域的真实世界物体检测(RWD)基准测试中的广泛评估表明,与最先进的方法相比,OW-CFA在未知物体检测方面实现了6.1 mAP的绝对提升。

引言

物体检测是计算机视觉中的一个基本任务,其目标是在图像中对物体进行分类和定位(Li等人,2024a;Liang和Luo,2024;Sun等人,2025)。它已被广泛应用于自动驾驶(Li等人,2022a;Ma等人,2022)、医学图像分析(Elakkiya, Teja, Jegatha Deborah, Bisogni, & Medaglia,2022;Karri, Annavarapu, Mallik, Zhao, & Acharya,2022)和工业检测(Kim, Hong, Kim, Lee, & Hwang,2023;Zhou等人,2025)等实际场景中。传统方法通常在封闭世界假设下开发,模型被训练来识别一组预定义的类别,在推理过程中不期望遇到新类别。然而,现实世界环境本质上是开放和动态的,物体类别的数量不断增加,难以穷尽标注。因此,检测器不可避免地会遇到未知物体,这对它们的泛化能力构成了重大挑战。在真实的开放世界环境中,预先枚举所有可能的物体类别是不可行的。简单地将未知物体视为背景可能会导致严重的感知失败和安全风险。例如,在自动驾驶场景中,感知系统可能会遇到训练过程中从未出现过的异常障碍物,如大型掉落物体或道路上的小碎片。如果这些未知物体被错误地忽略为背景,它们可能会触发不安全的决策行为,严重危及系统安全。因此,在开放世界场景中检测未知物体是一项基本且必要的能力,重点在于识别新的物体实例,并为后续的未知类别增量学习提供可靠的基础,从而确保检测系统在开放世界环境中的可靠性和鲁棒性。相应地,开放世界物体检测(OWOD)作为一种系统研究范式应运而生(Joseph, Khan, Khan, & Balasubramanian,2021),它明确考虑了未知物体实例的检测及其在不断发展的检测系统中的集成。OWOD通常包括两个阶段:首先在已知类别集上训练检测器,期望其在推理过程中识别潜在的未知物体,即那些在训练数据中没有标记的物体。然后,随着系统的演变,这些物体逐渐被纳入增量学习过程,使模型在保留现有知识的同时逐渐适应新类别,从而实现长期适应开放世界环境。
OWOD领域的最新研究主要沿着两个方向发展。一种研究思路基于特征相似性的假设,认为未知物体在视觉表示空间中与已知类别具有结构上的规律性。例如,PROB(Zohar, Wang, & Yeung,2023c)通过建模已知类别特征的分布来估计物体的概率性得分,从而将潜在物体与背景区分开来。另一种研究思路利用基础视觉-语言模型,将语义属性转换为支持开放词汇表评分的文本嵌入。例如,FOMO(Zohar, Lozano, Goel, Yeung, & Wang,2023b)使用LLM提出了一组视觉/功能属性,然后通过示例图像选择和细化它们,最后在生成的属性空间中对区域提案进行评分以推断物体的存在性。尽管这些方法从特征或语义角度改善了未知物体的检测,但它们仍然从根本上依赖于已知类别的表示或标签语义,不可避免地引入了类别偏见,阻碍了对新类别的泛化。
如图1(左)所示,现有方法通常假设未知物体与已知类别共享某些视觉属性(例如条纹外观)。基于这一假设,大型语言模型(LLMs)被用来为已知类别生成属性描述,然后通过选择与这些描述最相似的前K个属性来执行未知物体检测。然而,这些方法严重依赖于特定类别的语义提示,导致属性往往与特定类别的特征(例如“黑白条纹”、“野生动物”)纠缠在一起,从而引入了类别偏见并限制了对未知类别的泛化。此外,属性选择过程通常依赖于基于排名的相似性,而没有明确建模属性到类别的响应关系。因此,模型难以评估每个属性在不同类别中的区分性贡献,这进一步复杂化了后续增量学习阶段的属性选择。
为了克服上述限制,我们提出了一种新的OWOD方法,称为OW-CFA。如图1(右)所示,我们利用大型语言模型(LLMs)构建了一组与类别无关但与领域相关的基础属性(例如“棕色”、“四条腿”、“光滑的毛发”),这些属性覆盖了广泛且多样的语义空间。然而,由于初始属性集的数量庞大且语义范围广泛,引入了显著的冗余。为了解决这个问题,我们提出了非对称属性响应(AAR)损失,它增强了目标类别的区分性激活,同时抑制了非目标类别的无关响应,从而实现了更稳健的属性到类别的映射。尽管如此,由于缺乏有效的约束,属性响应往往表现出高熵分布,使得难以专注于少数几个信息量大的属性。例如,像“毛茸茸”这样的通用属性可能在猫、狗和熊等多个类别中被激活,导致响应重叠和区分能力有限。为了解决这个问题,我们提出了熵正则化属性稀疏化(ERAS),该方法惩罚冗余激活,并鼓励模型集中于少数几个显著的属性。这提高了属性空间内的可分性和可解释性。基于这个精炼的属性空间,我们进一步结合了分布内相关性和分布外可能性来估计未知物体的置信度。
我们在真实世界物体检测(RWD)基准测试中全面评估了所提方法的有效性,该测试涵盖了五种不同的实际应用场景。结果表明,OW-CFA在几乎所有数据集上一致且显著优于最先进的方法(SOTA),在未知物体检测方面取得了显著改进。值得注意的是,OW-CFA甚至在平均精度方面超过了利用真实类别名称进行开放词汇表检测的上限基线,展示了更强的泛化能力。据我们所知,这是第一项专注于在OWOD中学习与类别无关的属性以解决对未知类别预测偏见的工作。
本工作的主要贡献如下:
  • 我们提出了非对称属性响应(AAR),以增强目标类别的区分性激活,建立了更稳健的属性到类别的映射。
  • 我们提出了熵正则化属性稀疏化(ERAS),该方法利用低熵正则化来提高属性表示的语义特异性和可解释性。
  • 我们提出了未知概率估计(UPE),该方法结合了分布内相关性和分布外可能性,为未知物体提供了概率置信度测量。
  • 在多种实际场景中的RWD基准测试中的广泛实验表明,OW-CFA一致优于SOTA方法,在未知物体检测方面显著超过了使用真实标签(GT)的上限。
  • 部分摘录

    开放世界物体检测

    开放世界物体检测(OWOD)(Joseph等人,2021)旨在超越传统物体检测中的封闭集假设,使模型能够持续识别并适应动态现实世界环境中的新类别(Huang, Geiger, & Zhang,2022;Li等人,2024b;Long等人,2023)。为了解决已知类别、未知类别和背景类别之间边界模糊的问题,现有方法(Sarkar, Chudasama, Onoe, Wasnik, & Balasubramanian)

    方法论

    我们在图2中展示了所提出的方法,该方法包括三个主要模块:基础属性(FA)、非对称属性响应(AAR)和熵正则化属性稀疏化(ERAS)。最后,我们进一步加入了未知推理模块来估计物体属于未知类别的可能性。LLM专门用于构建与类别无关的属性空间,避免特定类别的语义偏见。

    数据集

    现有的OWOD基准测试由COCO(Lin等人,2014)和VOC(Everingham, Van Gool, Williams, Winn, & Zisserman,2010)数据集组合而成,长期以来一直作为标准评估协议。然而,随着基础模型能力的提升,该基准测试上的零样本识别性能已接近上限,区分不同方法的能力有限。遵循FOMO(Zohar等人)建立的评估协议

    结论

    本文解决了OWOD中识别未知物体的挑战,这一问题常常受到类别偏见的影响。为此,我们提出了OW-CFA,这是一种新的检测方法,它构建了一个与类别无关的基础属性空间,以消除对已知类别语义的依赖,并提高了模型识别未知实例的能力。在此基础上,我们提出了非对称属性响应机制和熵正则化属性稀疏化策略

    未引用的参考文献

    算法1。

    CRediT作者贡献声明

    叶琳华:方法论、写作——原始草稿、软件、概念化、可视化。姜一飞:数据整理、监督、验证。罗荣华:资金获取、监督、写作——审稿与编辑。

    利益冲突声明

    作者声明他们没有可能影响本文工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号