I2EKD:高效且多功能的数据驱动事件知识提取方法

《IEEE Transactions on Circuits and Systems for Video Technology》:I2EKD: Efficient and Versatile Image-to-Event Knowledge Distillation

【字体: 时间:2026年01月29日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  事件相机预训练方法I2EKD通过知识蒸馏将DINOv2的图像特征高效迁移到事件数据,无需增加事件训练数据,并采用跨层多任务学习提升泛化性。实验表明该方法在目标检测、语义分割和深度估计任务中均优于现有SOTA方法,物体识别精度达70.72%。

  

摘要:

近年来,事件相机数据中的通用特征在推进基于事件的视觉应用方面变得越来越重要。目前的方法通常采用预训练范式,取得了有希望的性能。然而,事件数据的有限性和空间信息的稀疏性阻碍了预训练在丰富语义学习中的有效应用。在本文中,我们通过从大型预训练图像模型中转移知识来解决语义信息的稀缺性问题,而无需增加事件训练数据。具体来说,我们提出了一种名为I2EKD的新型图像到事件的知识蒸馏方法。考虑到不同的模型架构适用于不同的应用场景,我们固定了教师模型(teacher),同时保持学生模型(student)的灵活性。为了提高通用性,我们在逻辑斯蒂(logit)和特征层面为I2EKD设计了两个与模型无关的目标函数。此外,由于I2EKD不需要特定的任务目标或标签,因此避免了重新蒸馏的过程,并且能够很好地应用于下游任务。另外,通过使用DINOv2作为教师模型(其特征分布基于数十亿条数据构建),学生模型能够以数据高效的方式快速模仿这种优秀的特征分布。与现有的最佳预训练方法相比,I2EKD生成的特征在性能上更优或相当,且训练成本仅为后者? 1/15(数据量仅为后者的 1/10),训练周期也仅为后者的 1/3。在多种视觉任务(对象识别、语义分割和单目深度估计)上的广泛实验验证了该方法的有效性。值得注意的是,I2EKD在对象识别任务上的准确率达到了70.72%,比现有的最佳预训练方法高出5.89%。

引言

事件相机[3]能够以高时间分辨率和高动态范围捕捉场景动态,在各种视觉任务中展现出巨大潜力,例如对象识别[4]、[5]、[6]、[7]、跟踪[8]、[9]、[10]、[11]、单目深度估计[12]、[13]、[14]、[15]以及光流估计[16]、[17]、[18]、[19]。随着基于事件的应用的兴起,对通用特征[20]、[21]、[22]的研究也引起了广泛关注。最近的方法[2]、[23]、[24]采用了基于图像的预训练范式,取得了有希望的结果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号