在机器人技术和智能感知的新兴领域中,视觉里程计(VO)扮演着关键角色。从根本上说,VO是一项具有高度挑战性和复杂性的任务,其核心目标是从视觉传感器中精确估计机器人的空间位置和方向。本文重点讨论更为困难的单目视觉里程计。在这种情况下,系统依赖于单目相机在时间序列中捕获的连续视频帧作为唯一的数据源(Bi, Sun, Wang, Yuan, Liu, 2026, Liu, Li, Gao, Yuan, 2025a)。系统的目标是准确确定两个相邻图像帧之间相机的6自由度(6-DOF)姿态变换矩阵。
以往的研究通常将VO描述为解决几何运动模型的过程。间接方法首先检测并匹配帧之间的关键点,然后求解姿态和3D点以最小化重投影距离(Campos, Elvira, Rodríguez, Montiel, Tardós, 2021, Leutenegger, Furgale, Rabaud, Chli, Konolige, Siegwart, 2013, Mur-Artal, Montiel, Tardos, 2015)。相反,直接方法直接处理像素强度,试图求解姿态和深度以对齐图像(Engel, Koltun, Cremers, 2017, Engel, Sch?ps, Cremers, 2014, Forster, Pizzoli, Scaramuzza, 2014, Zhu, Jiang, Fang, Gao, Fujita, Hwang, 2021)。现有系统的主要问题在于它们的鲁棒性不足。这在自动驾驶车辆等关键应用中尤为突出,因为这类故障发生得太频繁。这些故障通常归因于移动物体、特征跟踪丢失和收敛不良。
为了解决这些问题,引入了几种深度学习方法(Sun, Shen, Wang, Bao, Zhou, 2021, Teed, Deng, 2021, Truong, Danelljan, Van Gool, Timofte, 2021)来提高传统视觉里程计的鲁棒性。DF-VO(Zhan et al., 2020)尝试将深度学习和传统几何方法相结合。该方法利用深度学习生成的鲁棒特征点来辅助姿态计算,并利用深度网络生成的深度图来校准姿态尺度,从而确保最佳结果。这些方法被称为混合方法,其工作流程如图1(a)所示。
最近,端到端方法(Wang, Clark, Wen, Trigoni, 2017, Wang, Hu, Scherer, 2021)利用纯深度学习网络直接建模姿态变换,在推理速度和鲁棒性方面显示出显著潜力。然而,现有的端到端方法仍存在一些局限性。一个主要挑战在于有效利用输入序列的完整时间上下文来优化姿态估计(Phan and Kim, 2025)。许多方法采用LSTM(Beck et al., 2024)或Transformer(Fran?ani, Maximo, 2025, Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin, 2017)架构来提取时间特征;然而,这些方法面临实际限制。LSTM架构由于其固有的遗忘机制,难以在远距离帧之间保持信息,从而限制了其捕捉长距离时间依赖性的能力。尽管基于Transformer的模型理论上能够建模这种长距离依赖性,但其计算和内存成本随序列长度呈二次方增长。这导致在高分辨率图像或扩展序列应用时需要大量资源,阻碍了其在实时系统中的适用性。
为了更好地利用整个时间序列中的信息,我们采用正弦-余弦谐波函数将每个帧的时间戳编码为高维表示,从而在网络内实现时间信息到姿态的隐式映射。这种设计不仅显著降低了计算负担,还保持了整个序列的全局时间上下文,使网络能够有效建模长时间范围内的姿态变化依赖性。
其次,现有研究通常采用联合学习策略,使用组合损失函数同时监督深度估计和姿态估计任务,以缓解尺度不确定性和相关问题。然而,深度估计和姿态估计本质上是不同的预测任务,在特征表示和抽象方面有不同的重点。简单地使用联合损失可能导致优化冲突,即提高一个任务的性能可能会对另一个任务产生负面影响。此外,这种输出级指导忽略了深度特征级之间的交互,从而限制了深度信息对姿态估计的动态约束。
为了解决现有方法在利用深度信息方面的局限性,我们摒弃了传统的联合损失优化范式,引入了一种小波注意力机制,该机制能够高效捕获全局深度特征,同时保持计算效率。这些特征直接嵌入到姿态估计网络输出的特征向量中。在监督方面,我们的方法完全不需要深度损失优化,仅依赖姿态监督进行训练。这种设计不仅简化了训练目标,还增强了推理过程中深度信息的整合和利用,从而实现了更鲁棒和准确的姿态估计。
整个网络架构如图1(b)所示。我们的具体贡献可以总结如下:
•我们提出了一种新的端到端视觉里程计模型,该模型将基于混合的视觉里程计的每个步骤的关键元素动态集成到一个可学习的深度框架中。在姿态估计阶段引入了一个多源融合模块,以整合时间和全局深度信息,显著提高了姿态精度。
•我们设计了TimePoseNet,它利用正弦-余弦谐波函数将原始时间输入投影到高维空间,隐式地将时间映射到姿态变换。这使得网络能够有效地捕捉整个序列中的时间依赖性。
•为了充分利用深度信息进行姿态引导,我们提出了一个小波卷积注意力模块,该模块能够高效提取全局深度信息,同时降低计算开销。同时,我们将深度特征直接嵌入到姿态特征提取过程中,使深度信息能够动态指导姿态估计结果。
在公共数据集KITTI的测试中,MVO的姿态估计精度达到了当前的最佳水平。此外,在推理阶段,进一步降低了内存消耗。为了验证算法在现实世界场景中的有效性,我们通过无人机数据收集构建了一个名为UAV-2025的视觉里程计(VO)数据集,并在该数据集上进行训练和测试。实验结果表明,MVO只需少量训练即可实现高精度姿态估计,并且能够有效适应各种现实世界场景条件。