多源时空深度融合技术在鲁棒端到端视觉里程计中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Multi-Source Temporal-Depth Fusion for Robust End-to-End Visual Odometry

【字体：大中小】 时间：2026年01月20日 来源：Neural Networks 6.3

编辑推荐：

　　端到端多源视觉里程计模型MVO，通过时间编码网络TimePoseNet捕获长时序依赖，结合小波卷积注意力机制提取全局深度特征，并设计多源融合模块动态整合时空信息，在KITTI和UAV-2025数据集上达到最优精度，同时降低计算复杂度。

张思航|曹聪琪|高强|刘甘超

西北工业大学人工智能、光学与电子学院（iOPEN），中国西安

摘要

端到端的视觉里程计模型最近已经实现了与传统技术相当的定位精度，同时有效减少了灾难性故障的发生。然而，相关模型无法利用完整的时间序列数据进行姿态调整和优化。此外，这些模型仅将联合深度预测任务作为尺度约束的手段，未能有效利用深度信息。在本文中，我们提出了一种端到端的多源视觉里程计（MVO）模型，该模型将混合视觉里程计流程的关键组件动态集成到一个统一的、可学习的深度框架中。具体来说，我们提出了TimePoseNet来建模时间到姿态的映射关系，捕捉整个序列中的时间依赖性。此外，还采用了小波卷积注意力机制从深度图提取全局深度信息，然后直接将其嵌入到姿态特征中，以动态约束尺度不确定性。该方法在KITTI基准测试和新引入的UAV-2025数据集上都取得了最先进的性能，同时在推理过程中保持了计算效率。

引言

在机器人技术和智能感知的新兴领域中，视觉里程计（VO）扮演着关键角色。从根本上说，VO是一项具有高度挑战性和复杂性的任务，其核心目标是从视觉传感器中精确估计机器人的空间位置和方向。本文重点讨论更为困难的单目视觉里程计。在这种情况下，系统依赖于单目相机在时间序列中捕获的连续视频帧作为唯一的数据源（Bi, Sun, Wang, Yuan, Liu, 2026, Liu, Li, Gao, Yuan, 2025a）。系统的目标是准确确定两个相邻图像帧之间相机的6自由度（6-DOF）姿态变换矩阵。

以往的研究通常将VO描述为解决几何运动模型的过程。间接方法首先检测并匹配帧之间的关键点，然后求解姿态和3D点以最小化重投影距离（Campos, Elvira, Rodríguez, Montiel, Tardós, 2021, Leutenegger, Furgale, Rabaud, Chli, Konolige, Siegwart, 2013, Mur-Artal, Montiel, Tardos, 2015）。相反，直接方法直接处理像素强度，试图求解姿态和深度以对齐图像（Engel, Koltun, Cremers, 2017, Engel, Sch?ps, Cremers, 2014, Forster, Pizzoli, Scaramuzza, 2014, Zhu, Jiang, Fang, Gao, Fujita, Hwang, 2021）。现有系统的主要问题在于它们的鲁棒性不足。这在自动驾驶车辆等关键应用中尤为突出，因为这类故障发生得太频繁。这些故障通常归因于移动物体、特征跟踪丢失和收敛不良。

为了解决这些问题，引入了几种深度学习方法（Sun, Shen, Wang, Bao, Zhou, 2021, Teed, Deng, 2021, Truong, Danelljan, Van Gool, Timofte, 2021）来提高传统视觉里程计的鲁棒性。DF-VO（Zhan et al., 2020）尝试将深度学习和传统几何方法相结合。该方法利用深度学习生成的鲁棒特征点来辅助姿态计算，并利用深度网络生成的深度图来校准姿态尺度，从而确保最佳结果。这些方法被称为混合方法，其工作流程如图1（a）所示。

最近，端到端方法（Wang, Clark, Wen, Trigoni, 2017, Wang, Hu, Scherer, 2021）利用纯深度学习网络直接建模姿态变换，在推理速度和鲁棒性方面显示出显著潜力。然而，现有的端到端方法仍存在一些局限性。一个主要挑战在于有效利用输入序列的完整时间上下文来优化姿态估计（Phan and Kim, 2025）。许多方法采用LSTM（Beck et al., 2024）或Transformer（Fran?ani, Maximo, 2025, Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin, 2017）架构来提取时间特征；然而，这些方法面临实际限制。LSTM架构由于其固有的遗忘机制，难以在远距离帧之间保持信息，从而限制了其捕捉长距离时间依赖性的能力。尽管基于Transformer的模型理论上能够建模这种长距离依赖性，但其计算和内存成本随序列长度呈二次方增长。这导致在高分辨率图像或扩展序列应用时需要大量资源，阻碍了其在实时系统中的适用性。

为了更好地利用整个时间序列中的信息，我们采用正弦-余弦谐波函数将每个帧的时间戳编码为高维表示，从而在网络内实现时间信息到姿态的隐式映射。这种设计不仅显著降低了计算负担，还保持了整个序列的全局时间上下文，使网络能够有效建模长时间范围内的姿态变化依赖性。

其次，现有研究通常采用联合学习策略，使用组合损失函数同时监督深度估计和姿态估计任务，以缓解尺度不确定性和相关问题。然而，深度估计和姿态估计本质上是不同的预测任务，在特征表示和抽象方面有不同的重点。简单地使用联合损失可能导致优化冲突，即提高一个任务的性能可能会对另一个任务产生负面影响。此外，这种输出级指导忽略了深度特征级之间的交互，从而限制了深度信息对姿态估计的动态约束。

为了解决现有方法在利用深度信息方面的局限性，我们摒弃了传统的联合损失优化范式，引入了一种小波注意力机制，该机制能够高效捕获全局深度特征，同时保持计算效率。这些特征直接嵌入到姿态估计网络输出的特征向量中。在监督方面，我们的方法完全不需要深度损失优化，仅依赖姿态监督进行训练。这种设计不仅简化了训练目标，还增强了推理过程中深度信息的整合和利用，从而实现了更鲁棒和准确的姿态估计。

整个网络架构如图1（b）所示。我们的具体贡献可以总结如下：•

我们提出了一种新的端到端视觉里程计模型，该模型将基于混合的视觉里程计的每个步骤的关键元素动态集成到一个可学习的深度框架中。在姿态估计阶段引入了一个多源融合模块，以整合时间和全局深度信息，显著提高了姿态精度。

•

我们设计了TimePoseNet，它利用正弦-余弦谐波函数将原始时间输入投影到高维空间，隐式地将时间映射到姿态变换。这使得网络能够有效地捕捉整个序列中的时间依赖性。

•

为了充分利用深度信息进行姿态引导，我们提出了一个小波卷积注意力模块，该模块能够高效提取全局深度信息，同时降低计算开销。同时，我们将深度特征直接嵌入到姿态特征提取过程中，使深度信息能够动态指导姿态估计结果。

在公共数据集KITTI的测试中，MVO的姿态估计精度达到了当前的最佳水平。此外，在推理阶段，进一步降低了内存消耗。为了验证算法在现实世界场景中的有效性，我们通过无人机数据收集构建了一个名为UAV-2025的视觉里程计（VO）数据集，并在该数据集上进行训练和测试。实验结果表明，MVO只需少量训练即可实现高精度姿态估计，并且能够有效适应各种现实世界场景条件。

章节摘录

基于几何的视觉里程计

经典几何VO：传统的单目视觉里程计系统完全基于多视图几何原理，不包含基于学习的组件。代表性的基于特征的流程（如ORB-SLAM及其变体（Campos, Elvira, Rodríguez, Montiel, Tardós, 2021, Mur-Artal, Montiel, Tardós, 2015, Mur-Artal, Tardós, 2017）提取并匹配帧间的手工制作的关键点，构建稀疏的2D–3D对应关系，并通过

方法

在这项工作中，我们提出了一种新的端到端视觉里程计框架，称为MVO，它将混合视觉里程计的优化原理集成到一个统一的深度学习架构中。具体来说，我们引入了TimePoseNet来建模时间信息到相机姿态的映射关系，从而捕捉整个图像序列中的长距离时间依赖性。此外，还采用了小波卷积注意力机制从

在KITTI上的实验

KITTI里程计数据集是自动驾驶和计算机视觉研究中的一个广泛使用的基准测试集，由KIT和TTI Chicago共同发布。它包含22个以无损PNG格式保存的立体序列。其中11个序列（00 - 10）包含真实轨迹，而10个序列（11 - 21）不包含真实轨迹，常用于测试。这些数据来自德国城市、农村地区和高速公路上的行驶车辆。

KITTI里程计

局限性和未来工作

尽管提出的MVO框架有效缓解了传统几何流程中常见的灾难性故障，并在端到端视觉里程计方法中实现了最先进的精度和泛化能力，但仍存在一些局限性，需要仔细讨论。

首先，其在少量序列上的姿态估计精度仍低于理想条件下的基于几何的方法。在具有丰富纹理的结构化场景中，静态内容

结论

本文提出了一种新的端到端视觉里程计模型，该模型隐式捕捉了整个序列中从时间到姿态的连续映射关系。为了增强尺度约束，引入了小波变换注意力机制，将频域信息注入深度图，同时提高了全局深度信息提取的效率。此外，多源融合模块动态地将时间和深度线索结合到初始姿态中

CRediT作者贡献声明

张思航：写作 – 审稿与编辑，撰写原始草稿，方法论。曹聪琪：监督，资金获取。高强：资源，资金获取，数据管理。刘甘超：写作 – 审稿与编辑，监督，方法论。

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号