基于RGB事件混合双目相机的深度估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于RGB事件混合双目相机的深度估计

《Neurocomputing》：Depth estimation based on RGB-event hybrid binocular cameras

【字体：大中小】 时间：2026年03月16日 来源：Neurocomputing 6.5

编辑推荐：

　　深度估计方法研究基于RGB事件双目相机，提出多尺度相似特征融合模块和局部disparity回归方法，解决传统RGB双目深度估计的挑战，实验验证优于现有方法。

作者：Mi Si

中国南京，网络科学与工程学院

摘要

事件相机作为一种新兴的仿生传感器，具有高动态范围、低功耗以及无运动模糊等优点。本文研究了基于RGB-事件混合双目相机立体设置的深度估计方法。为了解决使用传统RGB相机进行双目深度估计时遇到的困难，本文引入了一种事件相机，并基于RGB-事件混合双目相机设置设计了一个深度估计网络。左侧相机为事件相机，输出图像和事件数据；右侧相机为传统RGB相机，输出图像数据。基于RGB-事件相机的混合双目深度估计需要解决如何提取适当的事件数据特征以及如何进行多模态特征融合等问题。为了融合来自RGB-事件相机的多模态信息，我们提出了一种新的多尺度特征融合模块，用于事件特征和图像特征的多模态融合。此外，我们还提出了一种局部视差回归方法。与以往的方法不同，该方法采用基于窗口的方法来减少匹配计算量，并能有效地输出连续且稳定的视差图，从而在物体局部细节上获得更清晰的视差结果。实验结果验证了我们的方法在深度估计任务上的优越性。

引言

针对使用传统RGB相机进行双目深度估计在某些具有挑战性的场景中存在预测困难的问题，本文介绍了一种新型传感器——事件相机，并设计了一个深度估计网络。该网络基于RGB-事件混合双目相机设置。左侧相机设置为DAVIS相机[1]，输出图像和事件数据；右侧相机为传统RGB相机，输出图像数据，从而结合了两种相机的优点。基于RGB-事件相机的混合双目深度估计需要解决如何提取适当的事件数据特征以及如何进行多模态特征融合等问题。Rogister等人[13]提出了一种基于异步事件的实时立体匹配算法，该方法从特定时间窗口内的事件中选择匹配候选项，然后计算到极线的欧几里得距离，并添加约束条件以匹配具有相同极性和方向的事件，从而减少匹配歧义。Zou等人[21]提出了一种特征表示方法来描述DVS相机的局部环境和事件分布，然后对累积的时间图像应用传统的双目深度估计方法以获得准确的深度预测结果。在深度学习方面，Piatkowska等人[12]提出了一种动态协作网络（Cop-Net）用于每个输入事件的视差估计。Zhou等人[19]提出了一种全局能量最小化方法，该方法使用一对事件相机进行深度估计以获得半密集的深度图。Su等人[14]利用双分辨率分解策略有效协调了全局结构一致性与细粒度局部细节[10]，并结合了一种新颖的自注意力特征融合（SAFF）模块来改善边缘保留和小物体检测。Zhang等人[17]提出了基于Transformer的Spike-Driven Transformer（SDT）深度估计网络，该网络借鉴了DINOv2的跨模态蒸馏技术。Zhang等人[18]集成了一种边缘幅度提取模块和注意力门控循环架构来恢复丢失的边界细节；Yang等人[16]采用了增量知识蒸馏和自解耦增强模块来挖掘隐式深度线索并细化边界；Tan等人[15]提出了一种姿态优化方法，该方法利用相对和绝对外部参数的联合优化，以协方差矩阵迹的最小化作为损失函数来确定最终的最佳姿态。Guan等人[5]基于分层表示框架将图像分解为正负通道进行并行处理，然后通过多曝光融合优化来提升图像质量。Guan等人[6]提出了一种高动态范围（HDR）成像系统，该系统利用数字微镜装置（DMD）的空间调制能力，通过由DMD光学调制单元和自适应计算成像管道组成的集成框架实现HDR场景的自主区域分割和自适应曝光控制。

本文提出了一种新的多尺度相似性特征融合模块，它对事件特征和图像特征进行多模态融合，有效结合了两种模态的特征。此外，本文还提出了一种局部视差回归方法。与以往的方法不同，该方法采用基于窗口的方法来减少匹配计算量，并能有效地输出连续且稳定的视差图，在物体局部细节上获得更清晰的视差结果。

本文提出的混合双目深度估计网络模型采用RGB相机和事件相机相结合的设置作为双目相机。该网络以RGB相机的图像数据作为一侧相机的输入，以DAVIS相机的事件数据和帧图像作为另一侧相机的输入，并通过端到端训练获得深度图。所提出的混合双目深度估计模型的过程如图1所示，包括四个步骤：数据预处理和特征提取、特征融合、代价体积计算与聚合以及视差回归。

双目深度估计首先需要处理左右相机的输入数据。其目的是将扭曲图像中的像素位置投影到新图像中的位置，使得左右特征图对应的像素点在视差估计过程中位于同一水平线上。

我们将提出的事件-RGB立体深度估计网络命名为ERSNet。其中，输入数据为已校正的图像和事件流。为了便于描述，左侧相机设置为DAVIS相机，它具有两种输出模式：帧图像和事件数据流；右侧相机为普通的RGB相机，输出帧图像。这三个数据流被用作模型的输入。由于事件数据流具有离散性和时间性，首先使用体素网格方法对其进行预处理和特征表示，然后通过长短期记忆（LSTM）模型进一步提取特征以获得事件特征图；对于帧图像数据，直接输入到残差网络中进行特征提取。左右图像的特征提取网络共享相同的权重。接下来，在特征融合阶段，设计了一个多模态特征融合模块来融合帧图像特征和事件特征。这些融合后的特征随后被输入到立体匹配模块中进行代价体积计算。最后进行视差回归以输出最终的视差图。由于双目相机的基线和焦距已知，因此可以直接从视差图计算出深度图。

本文的贡献可以总结如下：

1. 我们提出使用RGB-事件混合双目相机的立体设置进行深度估计，设计了左侧DAVIS事件/RGB相机+右侧RGB相机的配置，以最大化两种传感器的互补性。
2. 我们提出了一种针对特定任务的多尺度相似性融合模块，用于解决RGB数据和事件数据异构特征之间的不匹配问题。
3. 实验结果表明，所提出的方法在深度估计方面优于现有方法。

部分内容摘录

我们的方法

双目深度估计问题涉及左右视图的视差估计，这是一个数据关联问题。对于标准双目相机，图像是同步捕获的，因此可以通过提取和匹配特征来找到两个视图之间的数据关联。

RGB数据和事件数据的数据处理方法不同。RGB数据可以直接通过残差模块进行特征提取，然后输入到双目系统中

实验

本文选择使用DSEC数据集[4]中的一部分数据。DSEC提供的数据来自宽基线立体相机设置，该系统由两个高分辨率RGB相机和两个事件相机组成，四个相机分别输出图像和事件流。DSEC数据由作者在户外驾驶过程中收集，涵盖了白天和夜晚、城市区域和山区等多种环境。真实深度标签是通过雷达等手段获得的

结论

本文介绍了一种基于事件相机和RGB相机的混合双目深度估计模型。首先采用体素网格方法进行表示，并引入了LSTM网络进行时空特征提取。同时，为了解决如何有效结合来自混合双目相机的不同模态数据的问题，提出了一种新的多尺度相似性计算方法。在不同尺度上获得的结果被连接起来以实现多模态特征融合

利益冲突声明

作者声明他们没有已知的可能会影响本文研究工作的财务利益或个人关系。

Mi Si于2010年同时获得中国北京邮电大学和英国伦敦大学的学士学位，2011年和2018年分别获得新加坡南洋理工大学的硕士和博士学位。她目前是中国南京东南大学的讲师，研究兴趣包括网络安全领域的数据处理和计算机视觉。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号