物体检测是计算机视觉中的一个基本任务,其目标是在图像中对物体进行分类和定位(Li等人,2024a;Liang和Luo,2024;Sun等人,2025)。它已被广泛应用于自动驾驶(Li等人,2022a;Ma等人,2022)、医学图像分析(Elakkiya, Teja, Jegatha Deborah, Bisogni, & Medaglia,2022;Karri, Annavarapu, Mallik, Zhao, & Acharya,2022)和工业检测(Kim, Hong, Kim, Lee, & Hwang,2023;Zhou等人,2025)等实际场景中。传统方法通常在封闭世界假设下开发,模型被训练来识别一组预定义的类别,在推理过程中不期望遇到新类别。然而,现实世界环境本质上是开放和动态的,物体类别的数量不断增加,难以穷尽标注。因此,检测器不可避免地会遇到未知物体,这对它们的泛化能力构成了重大挑战。在真实的开放世界环境中,预先枚举所有可能的物体类别是不可行的。简单地将未知物体视为背景可能会导致严重的感知失败和安全风险。例如,在自动驾驶场景中,感知系统可能会遇到训练过程中从未出现过的异常障碍物,如大型掉落物体或道路上的小碎片。如果这些未知物体被错误地忽略为背景,它们可能会触发不安全的决策行为,严重危及系统安全。因此,在开放世界场景中检测未知物体是一项基本且必要的能力,重点在于识别新的物体实例,并为后续的未知类别增量学习提供可靠的基础,从而确保检测系统在开放世界环境中的可靠性和鲁棒性。相应地,开放世界物体检测(OWOD)作为一种系统研究范式应运而生(Joseph, Khan, Khan, & Balasubramanian,2021),它明确考虑了未知物体实例的检测及其在不断发展的检测系统中的集成。OWOD通常包括两个阶段:首先在已知类别集上训练检测器,期望其在推理过程中识别潜在的未知物体,即那些在训练数据中没有标记的物体。然后,随着系统的演变,这些物体逐渐被纳入增量学习过程,使模型在保留现有知识的同时逐渐适应新类别,从而实现长期适应开放世界环境。
OWOD领域的最新研究主要沿着两个方向发展。一种研究思路基于特征相似性的假设,认为未知物体在视觉表示空间中与已知类别具有结构上的规律性。例如,PROB(Zohar, Wang, & Yeung,2023c)通过建模已知类别特征的分布来估计物体的概率性得分,从而将潜在物体与背景区分开来。另一种研究思路利用基础视觉-语言模型,将语义属性转换为支持开放词汇表评分的文本嵌入。例如,FOMO(Zohar, Lozano, Goel, Yeung, & Wang,2023b)使用LLM提出了一组视觉/功能属性,然后通过示例图像选择和细化它们,最后在生成的属性空间中对区域提案进行评分以推断物体的存在性。尽管这些方法从特征或语义角度改善了未知物体的检测,但它们仍然从根本上依赖于已知类别的表示或标签语义,不可避免地引入了类别偏见,阻碍了对新类别的泛化。
如图1(左)所示,现有方法通常假设未知物体与已知类别共享某些视觉属性(例如条纹外观)。基于这一假设,大型语言模型(LLMs)被用来为已知类别生成属性描述,然后通过选择与这些描述最相似的前K个属性来执行未知物体检测。然而,这些方法严重依赖于特定类别的语义提示,导致属性往往与特定类别的特征(例如“黑白条纹”、“野生动物”)纠缠在一起,从而引入了类别偏见并限制了对未知类别的泛化。此外,属性选择过程通常依赖于基于排名的相似性,而没有明确建模属性到类别的响应关系。因此,模型难以评估每个属性在不同类别中的区分性贡献,这进一步复杂化了后续增量学习阶段的属性选择。
为了克服上述限制,我们提出了一种新的OWOD方法,称为OW-CFA。如图1(右)所示,我们利用大型语言模型(LLMs)构建了一组与类别无关但与领域相关的基础属性(例如“棕色”、“四条腿”、“光滑的毛发”),这些属性覆盖了广泛且多样的语义空间。然而,由于初始属性集的数量庞大且语义范围广泛,引入了显著的冗余。为了解决这个问题,我们提出了非对称属性响应(AAR)损失,它增强了目标类别的区分性激活,同时抑制了非目标类别的无关响应,从而实现了更稳健的属性到类别的映射。尽管如此,由于缺乏有效的约束,属性响应往往表现出高熵分布,使得难以专注于少数几个信息量大的属性。例如,像“毛茸茸”这样的通用属性可能在猫、狗和熊等多个类别中被激活,导致响应重叠和区分能力有限。为了解决这个问题,我们提出了熵正则化属性稀疏化(ERAS),该方法惩罚冗余激活,并鼓励模型集中于少数几个显著的属性。这提高了属性空间内的可分性和可解释性。基于这个精炼的属性空间,我们进一步结合了分布内相关性和分布外可能性来估计未知物体的置信度。
我们在真实世界物体检测(RWD)基准测试中全面评估了所提方法的有效性,该测试涵盖了五种不同的实际应用场景。结果表明,OW-CFA在几乎所有数据集上一致且显著优于最先进的方法(SOTA),在未知物体检测方面取得了显著改进。值得注意的是,OW-CFA甚至在平均精度方面超过了利用真实类别名称进行开放词汇表检测的上限基线,展示了更强的泛化能力。据我们所知,这是第一项专注于在OWOD中学习与类别无关的属性以解决对未知类别预测偏见的工作。
本工作的主要贡献如下:
•我们提出了非对称属性响应(AAR),以增强目标类别的区分性激活,建立了更稳健的属性到类别的映射。
•我们提出了熵正则化属性稀疏化(ERAS),该方法利用低熵正则化来提高属性表示的语义特异性和可解释性。
•我们提出了未知概率估计(UPE),该方法结合了分布内相关性和分布外可能性,为未知物体提供了概率置信度测量。
•在多种实际场景中的RWD基准测试中的广泛实验表明,OW-CFA一致优于SOTA方法,在未知物体检测方面显著超过了使用真实标签(GT)的上限。