一种新颖的数据集及轻量级蒸馏基线方法,用于高亮透明对象检测

《INTERNATIONAL JOURNAL OF COMPUTER VISION》:A Novel Dataset and Lightweight Distillation Baseline for Highlight Transparent Object Detection

【字体: 时间:2026年03月07日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐:

  高光透明物体检测需解决现有数据集规模小、标注单一的问题。本文构建首个大规模视觉-语言玻璃容器检测数据集GCDet(36,500张图,80,000+实例),包含缺陷检测和产品编号检测子集,并定制对象语言模板支持扩展。基于GCDet提出VLKD架构,通过分布式蒸馏、语言提示蒸馏和解耦蒸馏创新,首次将文本引入知识蒸馏,显著提升学生模型特征迁移能力。实验表明VLKD在多个基准数据集上优于SOTA方法,尤其在透明物体检测中表现突出。

  

摘要

检测具有高光透明特性的物体(如玻璃容器)的缺陷及产品编号是计算机视觉领域中的重要任务。然而,现有的高光透明物体数据集存在一些问题:1) 缺乏大规模和多模态的实际场景数据;2) 缺乏高效且轻量级的基准模型。为了解决这些问题,本文提出了首个大规模的视觉-语言玻璃容器检测数据集(GCDet),用于高光透明物体的缺陷和编号检测。GCDet包含36,500张图像和80,000多个实例,其中包含用于缺陷检测和编号检测的子集。此外,本文还为每个物体定制了语言模板,以便将该数据集扩展到视觉-语言任务中。与现有的透明物体数据集(如Trans10和GDD)相比,GCDet具有更多样化的物体类别和多模态的视觉-文本注释。GCDet为未来工业场景中的多模态模型提供了宝贵的训练数据。基于GCDet,本文引入了一种视觉-语言知识蒸馏(VLKD)架构,用于高光透明物体的检测。VLKD将细粒度的语言提示引入到高光透明物体检测任务中,包括三项重要创新:分布式蒸馏、语言提示蒸馏和解耦蒸馏。与以往的特征或物体蒸馏方法不同,VLKD同时考虑了特征的分布关系以及前景和背景的交互作用,从而实现了更精细的特征迁移。特别是,VLKD首次将文本引入蒸馏过程,有效提升了学生模型理解教师模型关键特征迁移的能力。在GCDet、MSCOCO、Trans10、玻璃缺陷数据集和铝制高光缺陷数据集上的广泛实验表明,VLKD的性能优于当前的最先进方法,尤其是在高光透明物体的检测方面。

检测具有高光透明特性的物体(如玻璃容器)的缺陷及产品编号是计算机视觉领域中的重要任务。然而,现有的高光透明物体数据集存在一些问题:1) 缺乏大规模和多模态的实际场景数据;2) 缺乏高效且轻量级的基准模型。为了解决这些问题,本文提出了首个大规模的视觉-语言玻璃容器检测数据集(GCDet),用于高光透明物体的缺陷和编号检测。GCDet包含36,500张图像和80,000多个实例,其中包含用于缺陷检测和编号检测的子集。此外,本文还为每个物体定制了语言模板,以便将该数据集扩展到视觉-语言任务中。与现有的透明物体数据集(如Trans10和GDD)相比,GCDet具有更多样化的物体类别和多模态的视觉-文本注释。GCDet为未来工业场景中的多模态模型提供了宝贵的训练数据。基于GCDet,本文引入了一种视觉-语言知识蒸馏(VLKD)架构,用于高光透明物体的检测。VLKD将细粒度的语言提示引入到高光透明物体检测任务中,包括三项重要创新:分布式蒸馏、语言提示蒸馏和解耦蒸馏。与以往的特征或物体蒸馏方法不同,VLKD同时考虑了特征的分布关系以及前景和背景的交互作用,从而实现了更精细的特征迁移。特别是,VLKD首次将文本引入蒸馏过程,有效提升了学生模型理解教师模型关键特征迁移的能力。在GCDet、MSCOCO、Trans10、玻璃缺陷数据集和铝制高光缺陷数据集上的广泛实验表明,VLKD的性能优于当前的最先进方法,尤其是在高光透明物体的检测方面。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号