无结构视觉定位指南

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：A Guide to Structureless Visual Localization

【字体：大中小】 时间：2026年05月10日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　摘要视觉定位算法，即估计查询图像在已知场景中的相机姿态的方法，是许多应用的核心组成部分，包括自动驾驶汽车和增强/混合现实系统。最先进的视觉定位算法基于结构，即它们存储场景的3D模型，并利用查询图像与模型中3D点之间的2D-3D对应关系来估计相机姿态。虽然这些方法非常精确，但在

　　摘要

视觉定位算法，即估计查询图像在已知场景中的相机姿态的方法，是许多应用的核心组成部分，包括自动驾驶汽车和增强/混合现实系统。最先进的视觉定位算法基于结构，即它们存储场景的3D模型，并利用查询图像与模型中3D点之间的2D-3D对应关系来估计相机姿态。虽然这些方法非常精确，但在场景发生变化后调整底层3D模型时却相对不灵活。无结构定位方法将场景表示为具有已知姿态的图像数据库，因此提供了一种更加灵活的表示方式，可以通过添加或删除图像轻松更新。尽管关于基于结构的方法有大量文献，但关于无结构方法的研究却明显较少。因此，本文旨在提供我们所知的第一个关于无结构方法的全面讨论和比较。广泛的实验表明，使用更高程度经典几何推理的方法通常能够实现更高的姿态精度。特别是基于经典绝对或半通用相对姿态估计的方法，在准确度上大大超过了基于姿态回归的非常新的方法。与最先进的基于结构的方法相比，无结构方法的灵活性是以（略微）较低的姿态精度为代价的，这为未来的工作指出了一个有趣的方向。

引言

视觉定位是从给定图像拍摄的位置和方向（即相机姿态）进行预测的任务。解决视觉定位问题是许多应用的核心步骤，包括自动驾驶汽车和无人机等自主机器人以及增强/混合现实应用（Heng等人，2018；Lim等人，2012；Lynen等人，2015；Middelberg等人，2014；Panek等人，2022）。最先进的视觉定位算法使用查询图像中的像素与场景中的3D点之间的2D-3D匹配来估计相机姿态（Panek等人，2022；Sarlin等人，2019；Sattler等人，2017；Taira等人，2021；Wang等人，2024；Zhou等人，2022）。这些匹配通常是通过匹配局部特征描述符（Li等人，2012；Panek等人，2022，2023；Sarlin等人，2019，2020；Sattler等人，2017）建立的，或者直接通过神经网络回归建立的（Brachmann等人，2023；Brachmann & Rother，2020；Cavallari等人，2019；Shotton等人，2013）。有了这样的2D-3D匹配，就可以通过应用透视N点（PnP）姿态求解器（Grunert，1841）来估计相机姿态，例如，适用于校准相机的P3P求解器（Ding等人，2023；Fischler & Bolles，1981；Haralick等人，1994；Persson & Nordberg，2018），在RANSAC框架内（Baráth等人，2019；Chum & Matas，2008；Fischler & Bolles，1981；Lebeda等人，2012）。或者，也可以通过细化初始姿态估计来估计相机姿态，例如，从图像检索获得的姿态估计（Jégou等人，2010；Arandjelovic & Zisserman，2013；Arandjelovi?等人，2015；Berton等人，2023；Gordo等人，2017；Revaud等人，2019），通过渲染和比较的方法（Botashev等人，2024；Chen等人，2023，2022；Lin等人，2020；Liu等人，2024，2023；Pietrantoni等人，2024，2023；Sarlin等人，2021；Sun等人，2023；Trivigno等人，2024；Zeller，2024；Zhou等人，2024）：给定当前的姿态估计，将查询图像与场景的渲染（以颜色形式或通过渲染特征空间）进行比较。然后优化姿态以提高实际图像与渲染之间的一致性。

这些方法的共同点是它们通过3D模型来表示场景，要么显式地存储模型，例如以运动结构（SfM）点云、网格或3D高斯斑点（Kerbl等人，2023）的形式，要么隐式地存储，例如在神经网络的权重或神经辐射场（NeRF）中（Mildenhall等人，2020）。虽然基于3D模型的场景表示有助于高度精确的相机姿态估计，但它们也相对不灵活。在场景发生变化的情况下，例如新建建筑物、建筑物翻新、家具移动或更换等，检测变化（Adam等人，2022；Yew & Lee，2021）并相应地更新3D模型通常本身就是复杂任务（Torii等人，2021）。即使简单的操作，如切换到不同类型的局部特征，也可能导致数小时的停机时间，因为基于结构的定位系统的底层场景表示正在更新。

上述基于结构的方法的另一种替代方法是无结构视觉定位方法（Arnold等人，2022；Balntas等人，2018；Bhayani等人，2021；Dong等人，2023；Laskar等人，2017；Zhang & Kosecka，2006；Zhou等人，2019）。无结构方法通过图像数据库来表示场景，每个图像都与相机姿态和相机内参相关联。注1：给定一个查询图像，它们首先使用图像检索来识别一组相关的数据库图像。然后，它们根据检索到的顶部图像的姿态来估计查询图像的相机姿态（Arnold等人，2022；Bhayani等人，2021；Kazhdan & Hoppe，2013；Zheng & Wu，2015；Zhou等人，2019）。由于每个数据库图像都是独立处理的，因此添加带有新观察结果的图像或删除显示过时场景版本的图像非常简单。注2：存储带有姿态的图像通常比存储3D模型占用更少的内存。

当我们可以在不运行SfM的情况下获得准确的参考图像姿态时，无结构方法具有优势。这种情况可能出现在使用具有精确定位功能的硬件平台时，例如通过RTK（实时运动定位）来捕获参考图像。另一个使用案例是逐步扩展现有地图（Panek等人，2025），其中基于结构的方法用于具有足够3D信息的区域的定位，而无结构方法用于地图边缘或新映射的区域，无需重建3D结构。这两种方法甚至可以结合成一种混合方法（Panek等人，2025）。这一应用也得到了观察结果的支持，即使用无结构方法在参考图像覆盖稀疏的区域中具有更大的鲁棒性。与基于结构的方法相比，无结构方法在实践中部署得更快，因为首先不需要重建3D场景。在快速部署非常重要的场景中，这可能非常重要。例如，在灾难场景中，机器人可以首先探索一个地方，以确定哪些区域是安全的，以及哪里最紧急需要人类第一响应者。然后，人类团队可以使用这个地图来定位自己并导航。当需要更新场景表示时，例如建筑物被拆除或建造、家具被移动或更换时，同样的速度优势也成立。整个更新过程包括移除捕捉受影响场景部分的图像并添加新的图像。由于场景表示中没有3D结构需要重新计算，因此切换到不同类型的局部特征或匹配器也更容易。

无结构方法是最早的视觉定位方法之一（Zhang & Kosecka，2006）。然而，关于无结构方法的研究明显少于关于基于结构的方法的研究。有趣的是，关于基于结构的方法的很多文献并没有与无结构方法进行比较。同时，据我们所知，甚至没有无结构方法之间的全面比较。本文旨在填补这一文献空白。

图1

第2节中描述的结构化和无结构方法的比较图表

详细来说，本文做出了以下贡献：（1）我们提供了无结构定位方法的全面回顾。（2）通过广泛的实验，我们比较了最重要无结构方法家族的最先进版本：姿态三角测量、半通用相对姿态估计、通过局部三角测量的3D点云进行绝对姿态估计和相对姿态回归。对于每种方法，我们首先消除了多个变体（主要是通过评估不同局部特征的使用）。然后我们使用之前实验中表现最好的版本来比较不同的方法家族。（3）我们的实验结果带来了几个有趣的见解：（a）更明确地使用几何推理通常会带来更好的姿态精度。也就是说，依赖于从相对姿态进行姿态三角测量的方法比基于半通用相对姿态估计的方法表现更差（后者同时估计查询图像相对于多个数据库图像的姿态，而不仅仅是计算成对的相对姿态）。反过来，基于局部三角测量3D场景结构然后进行绝对姿态估计的方法可以提供比基于半通用相对姿态估计的方法更准确的姿态预测。有趣的是，尽管最近有了很大的进展（Dong等人，2024；Leroy等人，2024；Wang等人，2024），基于相对姿态回归的方法表现最差。（c）在姿态精度与运行时间的权衡方面，使用较少几何推理的方法可以提供更好的性能，即那些不提供最高姿态精度的方法在实践中仍然有用。（d）没有某种类型的特征在所有场景中都表现最好。使用哪种类型的特征取决于方法和数据集。（4）我们将表现最好的无结构方法与最先进的基于结构的方法进行了比较。我们的结果表明，无结构方法可以与基于结构的方法竞争。因此，提高无结构定位算法的精度是未来工作的一个有趣方向。

相关工作

由于本文专注于比较视觉定位的无结构方法，我们的讨论也集中在这些方法上。为了完整性，我们还回顾了基于结构的方法。我们在图1.2.1中提供了一个选定的基于结构和无结构方法的比较图表。

2.1 地点识别

与（无结构）视觉定位问题高度相关的是视觉地点识别任务（Baatz等人，2010，2011；Berton等人，2022，2023；Chen等人，2011，2017；Hausler等人，2021；Lowry等人，2016；Torii等人，2015；Arandjelovi? & Zisserman 2014；Singh & Ko?ecká 2016；（Ardeshir等人，2014；Cao & Snavely，2013；Zamir & Shah，2010，2014）。给定一个查询图像和一个带有地理标签的照片数据库，地点识别的目标是识别查询中描绘的场景。这通常是通过检索描绘相同地点的数据库图像来完成的。因此，地点识别方法建立在图像检索技术之上（Arandjelovi?等人，2015；Berton等人，2022，2023；Radenovic等人，2019；Torii等人，2015）。经典图像检索任务旨在识别所有描绘与查询照片相同内容的图像（Philbin等人，2007，2010；Sivic & Zisserman，2003；Tolias等人，2016）。相比之下，地点识别只需要从检索到的 top-n 张图片中找到一张相关的图片即可（Torii 等人，2015 年）。在无结构视觉定位的背景下，地点识别方法可以被视为姿态近似方法，通过将查询图片的姿态与检索到的 top 张图片的姿态进行匹配来近似查询图片的姿态。2.2 基于结构的定位基于结构的方法的特点是使用环境的 3D 模型作为场景表示。基于特征匹配的早期视觉定位方法通过结构从运动（Structure-from-Motion，SfM）点云来表示场景（Arth 等人，2009 年；Choudhary 和 Narayanan，2012 年；Irschara 等人，2009 年；Li 等人，2010 年和 2012 年；Sattler 等人，2011 年、2012 年和 2012 年；Se 等人，2002 年）。每个 3D 点都是从用于构建 SfM 模型的数据库图片中提取的特征进行三角测量的。因此，可以通过比较从查询图片中提取的特征描述符与与 3D 点关联的描述符来建立 2D-3D 匹配（Choudhary 和 Narayanan，2012 年；Li 等人，2010 年和 2012 年；Sattler 等人，2011 年、2012 年；Se 等人，2002 年）。然后使用得到的 2D-3D 对应关系 x-X，通过应用 PnP 求解器（通常是针对校准相机的 P3P 求解器，Ding 等人，2023 年；Fischler 和 Bolles，1981 年；Haralick 等人，1994 年；Persson 和 Nordberg，2018 年）在 RANSAC（Baráth 等人，2019 年；Chum 和 Matas，2008 年；Fischler 和 Bolles，1981 年；Lebeda 等人，2012 年）中估计查询图片的相机姿态（旋转矩阵 R 和平移向量 t）。PnP 通过解基于透视投影方程的方程组来估计姿态
$$\begin{aligned} \lambda \begin{bmatrix} x \\ 1 \end{bmatrix} = K \begin{bmatrix} R&t \end{bmatrix} \begin{bmatrix} X \\ 1 \end{bmatrix}, \end{aligned}$$
其中 K 是校准矩阵，$\lambda$ 是投影深度标量。尽管这种基于直接匹配查询和 3D 点描述符的直接方法可以在移动设备上运行（Arth 等人，2009 年；Lynen 等人，2015 年），但它们难以扩展到更大的场景（Li 等人，2012 年）。这是由于在更大、更复杂的场景中会出现局部外观的模糊性：在较大规模下，可能存在许多具有相似描述符的 3D 点，使得难以确定给定查询特征的对应 3D 点（Li 等人，2012 年）。这些模糊性可以通过接受更多的错误匹配并通过几何推理来过滤掉（Sv?rm 等人，2017 年；Zeisl 等人，2015 年），或者通过使用图像检索来将匹配限制在 3D 模型的子部分（Humenberger 等人，2022 年；Irschara 等人，2009 年；Sarlin 等人，2019 年、2018 年；Sattler 等人，2015 年、2012 年；Taira 等人，2019 年）来解决。后一种方法被称为层次化方法，它们只将查询特征与检索到的 top 张数据库图片中可见的 3D 点进行匹配，代表了当前的技术水平。尽管 SfM 点云是基于特征的方法的主要场景表示，但还使用其他表示方法，包括网格（Panek 等人，2022 年、2023 年）、神经辐射或特征场（Chen 等人，2023 年；Liu 等人，2023 年；Zhou 等人，2024 年）和 3D 高斯斑点（Matteo 等人，2025 年）。然而，这些方法都是基于使用局部特征建立 2D-3D 匹配。场景坐标回归。与依赖于描述符匹配来建立 2D-3D 对应关系不同，场景坐标回归方法训练机器学习模型来直接为给定输入的补丁回归相应的 3D 点位置（Brachmann 和 Rother，2018 年；Brachmann 等人，2017 年、2023 年；Brachmann 和 Rother，2020 年；Budvytis 等人，2019 年；Cavallari 等人，2019 年、2019 年；Dong 等人，2022 年；Guzman-Rivera 等人，2014 年；Li 等人，2020 年；Massiceti 等人，2017 年；Shotton 等人，2013 年；Tang 等人，2021 年；Valentin 等人，2015 年；Wang 等人，2023 年）。早期方法使用了随机森林（Guzman-Rivera 等人，2014 年；Massiceti 等人，2017 年；Shotton 等人，2013 年；Valentin 等人，2015 年），而最近的方法使用神经网络。与基于特征的方法一样，得到的 2D-3D 对应关系随后用于基于 RANSAC 的姿态估计。无论是场景坐标回归器还是基于特征的方法更准确仍然是一个未解决的问题（Brachmann 等人，2021 年）。相对于 3D 模型的相机姿态回归。基于特征的方法和场景坐标回归器都建立 2D-3D 匹配以进行姿态估计。鉴于通常可以获取一个初始的粗略姿态估计，例如通过图像检索获得，基于结构的定位的另一种方法是姿态细化。这些方法迭代地将查询图片与从当前姿态估计得到的 3D 模型的渲染进行比较（Sarlin 等人 2021 年；Pietrantoni 等人 2023 年、2024 年；Trivigno 等人 2024 年；Lin 等人 2020 年；Chen 等人 2023 年；Sun 等人 2023 年；Botashev 等人 2024 年；Zeller 2024 年；Liu 等人 2024 年；Von Stumberg 等人 2020a、b）。然后调整姿态以减少图片和渲染之间的差异。在姿态精度和鲁棒性方面，这种回归方法不如层次化基于特征的方法。2.3 无结构定位无结构方法不存储任何类型的 3D 结构，而是使用一组具有已知相机姿态的参考图片来表示场景。仅存储图片和姿态的优势在于相对于基于结构的方法，表示更新步骤显著更简单。更新包括简单地添加新的或移除过时的带姿态的图片并更新检索索引。我们在表 9 中比较了这两种方法的更新步骤。姿态近似。给定一个具有已知相机姿态的图片数据库，可以通过检索到的 top 张图片的姿态来高效地近似查询图片的姿态（Torii 等人，2015 年）。通过插值检索到的 top-n 张图片的姿态可以获得更好的近似（Sattler 等人，2019 年；Torii 等人，2015 年）。（Thoma 等人，2020 年）提出学习用于图像检索的描述符，使得描述符空间中的距离与姿态相似性成正比。得到的描述符使得姿态近似更加准确。然而，姿态质量仍然远远低于精确视觉定位的要求。因此，我们在这项工作中不评估姿态近似方法。姿态三角测量。可以从查询图片与检索到的 top 张数据库图片之间的相对姿态中获得更精确的查询姿态（Dong 等人，2023 年；Laskar 等人，2017 年；Zhang 和 Kosecka，2006 年；Zhou 等人，2019 年）。成对的相对姿态，例如，通过估计本质矩阵或单应性计算得到的，只提供了旋转 $R_\text {i}$ 和相对平移的方向 $t_\text {uts~i}$，但没有提供其幅度。鉴于数据库图片的姿态是已知的，可以从两个或更多相对平移方向中三角测量出查询照片的位置（Laskar 等人，2017 年；Zhang 和 Kosecka，2006 年；Zhou 等人，2019 年）。用于三角测量的射线可以定义为
$$\begin{aligned} C_\text {ref~i} + \gamma _\text {i}R^\top _\text {ref~i} R_\text {i}t_\text {uts~i}, \end{aligned}$$
其中 $C_\text {ref~i}$ 是第 $\text {i}$ 个查询-参考对中参考相机的已知相机中心，$R_\text {ref~i}$ 是其旋转矩阵，$\gamma _\text {i}$ 是未知的平移比例。一旦我们有了射线，就可以使用 DLT（Direct Linear Transform）方法（Hartley 和 Zisserman，2001 年）来三角测量查询相机中心。受到全局 SfM 方法的启发（Cui 和 Tan，2015 年；Pan 等人，2024 年；Zhu 等人，2018 年），LazyLoc（Dong 等人，2023 年）通过添加旋转和平移平均阶段以及随后的后优化来进一步提高姿态精度，该优化共同优化了查询相机姿态和从 2D 特征轨迹中三角测量的 3D 点。在这项工作中，我们考虑了“标准”的姿态三角测量方法（Zhou 等人，2019 年）和 LazyLoc（Dong 等人，2023 年）。半通用相对姿态估计。在计算查询相对于两张或更多数据库照片的姿态时可以恢复平移的比例（Zheng 和 Wu，2015 年），即计算半通用相对姿态而不是两张图片之间的相对姿态。鉴于数据库图片的已知姿态，然后可以直接将查询的相对姿态转换为绝对姿态。“半通用”一词是指结合了通用参考相机（属于多个针孔参考相机的射线集合）和单个针孔查询相机。Zheng 和 Wu（2015 年）推导了多种求解器来计算查询和两张数据库照片之间的半通用相对姿态，其中数据库照片之间的相对姿态是已知的。这些求解器根据查询与其他两张图片之间的对应点数量不同而有所区别。然而，除了一个之外，所有求解器在实际应用中都太慢了。剩下的求解器假设查询与一张数据库图片之间有 5 个对应点，以及查询与另一张数据库图片之间有一个对应点。这 5 个匹配用于通过估计本质矩阵 E 来计算相对姿态，这可以高效完成（Nistér 2004a）。每个估计的本质矩阵（（Nistér 2004a）最多可以给出 10 个可能的解决方案）可以分解为 2 个旋转（方向相反）R 和一个按比例缩放的平移 $t_\text {uts}\）。完整的平移可以表示为
$$\begin{aligned} t = R C_\text {ref1} + \gamma t_\text {uts}, \end{aligned}$$
其中 \(C_\text {ref1}$ 是第一个采样参考图片的相机中心。然后使用剩余的点对应关系 $\hat{x}_\text {q}$ - $\hat{x}_\text {ref2}$（在归一化坐标 $\hat{x} = K^{-1}x$ 中）来解决平移比例 $\gamma$：
$$\begin{aligned} R (C_\text {ref~2} - C_\text {ref~1} + \lambda _\text {2} \hat{x}_\text {ref~2}) + \gamma t_\text {uts} = \lambda _\text {q} \hat{x}_\text {q}. \end{aligned}$$
该求解器被称为 E5+1 求解器。我们使用在 RANSAC 循环中应用该求解器作为我们的一个基线。正如我们的实验所示，这种方法非常具有竞争力。有趣的是，它在其他关于无结构定位的工作中尚未被用作基线，例如 Laskar 等人（2017 年）；Dong 等人（2023 年）；Zhou 等人（2019 年）。Bhayani 等人（2021 年）表明，通过假设场景是局部平面的，可以推导出更有效的求解器。这些求解器基于估计单应性，因此（Bhayani 等人，2021 年）解决了半通用单应性估计问题。在我们的实验中，我们仅评估了围绕 E5+1 求解器构建的方法，因为它的效率和实现简单。动态构建 SfM 模型。一种常见的姿态三角测量和半通用相对姿态估计的方法是在查询图片和检索到的数据库图片之间建立 2D-2D 对应关系。这些匹配隐式地定义了检索到的数据库图片之间的点对应关系。结合数据库图片的已知姿态，这些对应关系可以用于三角测量 3D 点。这为查询产生了 2D-3D 匹配，然后可以用于姿态估计。正如我们的实验所示，动态构建这样的本地 SfM 模型的方法（Humenberger 等人，2022 年；Pion 等人，2020 年；Torii 等人，2021 年）在所有测试的无结构定位策略中获得了最佳的姿态精度。它们的缺点是三角测量造成的计算开销。绝对姿态回归。上述讨论的无结构定位方法，除了姿态近似方法之外，都建立了查询图片和数据库图片之间的 2D-2D 特征匹配。这些匹配反过来用于显式估计图片之间的几何关系。另一种方法是训练神经网络直接回归查询图片的姿态（Brahmbhatt 等人，2018 年；Kendall 和 Cipolla，2017 年；Kendall 等人，2015 年；Moreau 等人，2021 年；Shavit 等人，2021 年；Walch 等人，2017 年）。然而，正如 Sattler 等人（2019 年）所示，大多数这些绝对姿态回归方法并没有显著优于姿态近似方法。这些方法通过神经网络的权重隐式地存储了场景。因此，更新场景表示并不简单，需要微调网络。出于这些原因，我们在实验比较中没有考虑绝对姿态回归方法。相对姿态回归。相对姿态回归方法不是回归单张图片的绝对姿态，而是回归两张输入图片之间的相对姿态（可能包括平移的比例）（Balntas 等人，2018 年；Ding 等人，2019 年；Dong 等人，2024 年；Laskar 等人，2017 年；Leroy 等人，2024 年；Ng 等人，2022 年；Wang 等人，2025 年、2024 年；Zhou 等人，2019 年）。在无结构定位的背景下，可以使用相对姿态回归器来代替基于特征匹配的显式几何推理。尽管最初的方法并不比姿态估计算法（Sattler等人，2019年）有显著的优势，但最近的方法（Dong等人，2024年；Leroy等人，2024年；Wang等人，2025年，2024年）至少与经典方法具有竞争力。在具有挑战性的条件下，尤其是在图像之间的视觉重叠很少的情况下，它们可以显著优于经典方法。因此，我们在评估中包括了这些基于姿态回归的最新方法（Dong等人，2024年；Leroy等人，2024年）。

本文旨在通过广泛的实验来理解现有的无结构视觉定位方法的性能。在下文中，我们讨论了我们选择用于比较的方法，并根据它们所属的方法类别进行了分组。

**姿态三角测量**。我们评估了两种姿态三角测量方法：**从基本矩阵进行定位**（Zhou等人，2019年）使用众所周知的5点算法（Nistér 2004a）（进一步称为5Pt）在RANSAC（Fischler & Bolles，1981年；Lebeda等人，2012年）循环中计算查询图像与检索到的数据库图像之间的相对姿态。通过平均相对旋转来计算查询图像的最终方向。使用估计的平移方向通过三角测量来估计相机位置。为了评估这种方法，我们重新实现了原始出版物（Zhou等人，2019年）提供的代码功能。我们还评估了Ess. mat.的一个变体，该变体使用3点求解器（Ding等人，2025年）而不是5点求解器来计算相对姿态。3点求解器利用单目深度预测从更少的2D-2D匹配中计算相对姿态，使其更适合内点率较低的场景。当使用相当精确的深度图时，3点求解器的准确性类似于5点求解器（Ding等人，2025年）。我们将该方法表示为Ess. mat.（3Pt+depth）。我们使用了Ding等人（2025年）的求解器实现以及我们自己对Ess. mat.方法的重新实现。

**LazyLoc**（Dong等人，2023年）也使用5点算法（Nistér 2004a）来获得检索到的图像和查询图像之间的相对姿态。然后使用鲁棒运动平均和异常值排斥来计算查询姿态，接着基于2D-3D匹配进行查询姿态优化。对于后者，从检索到的数据库图像之间的2D-2D匹配中三角测量3D点。然后通过最小化重投影误差来优化姿态。所使用的实现由Dong等人（2023年）的作者友好地提供。

我们选择Ess. mat.作为一个相对直接的姿态三角测量方法的例子，而LazyLoc代表了姿态三角测量领域的当前最先进技术。

**半 generalized相对姿态估计**。如上所述，我们围绕E5+1求解器（Zheng & Wu，2015年）构建了一个定位系统。该求解器首先使用5点求解器（Nistér 2004b）从5个2D-2D对应关系中估计查询图像和一张数据库图像之间的相对姿态。然后使用另一个检索到的图像与查询图像之间的另一个2D-2D匹配来根据两个数据库图像的已知姿态恢复平移的比例。我们在RANSAC中应用该求解器，并进行局部优化（Lebeda等人，2012年）。局部优化是通过最小化Sampson误差（Hartley & Zisserman，2001年）来执行的，从E5+1求解器估计的姿态开始。我们使用了PoseLib（Larsson，2020年）提供的实现，并将该方法称为E5+1。对于Ess. mat.，我们还评估了使用Ding等人（2025年）的3点求解器而不是5点求解器来计算相对姿态的变体。我们将这种方法表示为E3+1。

**SfM on the fly**。我们评估了两种即时SfM流程的变体。两者都使用查询图像和数据库图像之间的2D-2D匹配来获得数据库照片之间的2D-2D对应关系。

**注3** 在这两种情况下，这些2D-2D匹配用于三角测量3D点。反过来，这些点为查询图像定义了2D-3D匹配，然后使用P3P求解器（Ding等人，2023年）在RANSAC中进行绝对姿态估计，并进行局部优化。由于我们是根据需要构建局部3D模型的，即基于检索到的数据库图像，并不构建和维护单一的全局模型，我们将这两种方法都称为Local triangulation。第一种变体使用所有为单个查询图像检索到的数据库图像进行三角测量（因此表示为Local triangulation - all）。查询图像中的每个特征定义了一个包含在检索到的数据库图像中找到的特征关键点的轨迹。然后在RANSAC中对轨迹中的每个关键点进行三角测量，选择具有给定重投影误差阈值下最多内点的3D点。第二种变体表示为Local triangulation - pairs，它考虑使用成对的数据库图像进行三角测量和姿态估计。对于每一对潜在的检索到的数据库图像，它三角测量3D点并从得到的2D-3D匹配中估计查询姿态。最终的查询姿态是具有最多内点的那个。

在我们的实验中，我们使用了基于稀疏关键点检测的特征（DeTone等人，2017年；Zhao等人，2023年，2022年）和基于密集特征匹配器的特征（Edstedt等人，2024年；Leroy等人，2024年）。后者通过匹配两幅图像之间密集提取的特征来获得2D-2D对应关系。因此，图像对之间没有可重复的关键点检测（Sun等人，2021年；Zhou等人，2020年）。为了能够为密集匹配器形成轨迹，那些在查询图像中具有相互最近坐标的特征点对（直到一个距离阈值）被建立为参考图像之间的匹配。在我们的实验中，我们选择了基于网格搜索的5像素的距离阈值。我们使用OpenCV（Bradski，2000年）的点三角测量方法和PoseLib（Larsson，2020年；Persson & Nordberg，2018年）的P3P求解器来实现这些流程。

**基于回归器的方法**（图2）。这个图像的替代文本可能是使用AI生成的。

**基于回归器的流程概述** 我们评估了多种基于回归的方法（Dong等人，2024年；Leroy等人，2024年）。下面介绍了四种流程的概述，如图2所示。第一种方法是基于MASt3R（Leroy等人，2024年）基础模型构建的。MASt3R并不直接回归相对姿态，而是回归一对点图（每张图像一个），这些点图可以对齐以产生相对姿态估计。给定查询图像和若干张检索到的数据库图像，我们使用MASt3R构建一个局部3D模型。为此，MASt3R首先为所有查询-参考和参考-参考对回归成对深度图（基本上使用DUSt3R（Wang等人，2024年）方法），然后对这些结果进行对齐，接着优化所有得到的相机姿态。然后我们使用Kabsch-Umeyama对齐（Kabsch，1976年；Umeyama，1991年）在两个阶段将这个局部重建与数据库图像的已知姿态对齐：第一阶段仅使用相机位置进行对齐，从而对齐相机位置并恢复局部重建的比例。如果数据库图像的相机中心（几乎）共线，则对齐是不确定的，因为它定义在包含相机中心的轴线的旋转范围内。因此，我们在每个参考图像的光轴上添加了一个距离相机中心一个长度单位的单一点。然后我们使用数据库图像位置和这些额外的点重新计算对齐。

**注4** 在我们的实验中，我们观察到，如果检索到的参考图像与查询图像或其他检索到的图像没有任何重叠，优化器仍然会为它生成一个任意的姿态。由于错误的姿态可能会使全局对齐倾斜，我们希望防止使用这样的图像。因此，回归、优化和对齐的整个过程是使用随机抽取的检索到的参考图像子集进行的，并重复多次。我们还过滤掉了与查询图像没有足够对应的所有检索到的图像。最终的姿态估计是根据给定的极心误差阈值下的内点数量来选择的。我们使用了MASt3R代码库中实现的深度图回归器、匹配器和相机优化器，以及我们对相机姿态与世界框架对齐的实现。我们将这种基于MASt3R的定位方法称为MASt3R pose align。请注意，MASt3R姿态对齐方法并不是最优的，因为Leroy等人（2024年）发布的MASt3R实现不能利用数据库图像的已知内参和相机姿态。然而，据我们所知，所有其他基于相对姿态回归的3D重建方法（Dong等人，2024年；Wang等人，2025年，2024年）也有同样的限制。在所有情况下，调整实现都非常非平凡，我们没有尝试进行修改。相反，我们将MASt3R姿态对齐方法视为一种衡量现有基于相对姿态的方法开箱即用的效果的方式。

基于MASt3R论文（Leroy等人，2024年），深度回归器被训练来进行度量尺度预测。如果深度图是度量尺度的，它们可以用来将2D-2D对应关系提升到3D。得到的2D-3D匹配可以用来与P3P（Persson & Nordberg，2018年）进行姿态估计。我们将这种方法称为MASt3R depth + P3P。

我们测试的另一种方法是使用MASt3R生成的成对相对姿态与深度图对齐，并使用Ess. mat.方法估计查询相机姿态。这种方法进一步被称为Ess. mat.（MASt3R poses）。

我们评估的最后一种方法是Reloc3r（Dong等人，2024年）。Reloc3r使用神经网络来回归查询-数据库图像对之间的相对相机姿态。然后通过姿态三角测量获得查询图像的绝对姿态：查询图像的方向是通过将相对姿态到数据库图像的旋转矩阵与数据库图像的已知姿态相加得到的。查询的相机位置是通过相对平移方向使用三角测量来计算的。评估是使用论文作者提供的实现进行的。

**实验评估** 我们在多个常用的视觉定位算法基准测试的大数据集上评估了上述无结构视觉定位方法：Aachen Day-Night v1.1（Sattler等人，2018年，2012年；Zhang等人，2020年）是一个室外数据集，捕捉了亚琛的历史中心，包括一天中的不同时间和季节变化。Extended CMU Seasons（Badino等人，2011年；Sattler等人，2018年）是一个具有季节变化的室外数据集，包含从移动汽车中拍摄的多个城市、郊区和公园场景。NAVER LABS大型室内空间定位数据集（Lee等人，2021年）（以下简称NAVER数据集）包括购物 malls和大型地铁站的多个场景。对于Aachen Day-Night，我们使用未失真的参考图像，并调整大小，使较长的一侧最大为800像素。对于所有其他数据集，我们使用原始的未修改图像。

**评估协议**。我们遵循数据集的常见做法，并报告在特定误差阈值内定位的查询图像的百分比（Sattler等人，2018年）。即，我们报告在X厘米位置误差和$Y^\circ $旋转误差范围内定位的查询图像的百分比。我们使用Long-Term Visual Localization基准网站（Sattler等人，2018年）来获取这些测量结果。

**图像的替代文本可能是使用AI生成的。**完整的图像。

**不同来源的深度图比较 - 左上角是源图像。相应的源相机被用来渲染网格模型（MeshLoc（Panek等人，2022年）中的AC-14模型）。源图像及其焦距是Metric3D v2（Hu等人，2024年；Yin等人，2023年）单目深度估计器的唯一输入。由于MASt3R（Leroy等人，2024年；Wang等人，2024年）是一个立体模型，它还使用第二张图像（显示在左下角）来预测3D几何形状。MASt3R在进行预测时不需要任何关于相机参数的知识。Metric3D和MASt3R的深度图都在尺度和位移上与网格深度图对齐，以便于比较；然而，在实验中它们是以原始的未缩放形式使用的。实现细节如下：所有方法都假设给定了一组具有已知姿态和相机内参的参考图像。所有基线方法都使用图像级描述符进行初始图像检索步骤。基于先前的经验和初步实验，我们使用了学习到的EigenPlaces描述符（Berton等人，2023年）。大多数选定的方法使用查询图像与检索到的参考图像之间的2D-2D特征匹配来计算姿态。我们评估了两种稀疏局部特征提取器，即SuperPoint（DeTone等人，2017年）和ALIKED（Zhao等人，2023年，2022年），并结合了LightGlue（Lindenberger等人，2023年）匹配器。此外，我们还使用了两种密集匹配器，即RoMa（Edstedt等人，2024年）和MASt3R（Leroy等人，2024年；Wang等人，2024年）。对于RoMa，我们在Aachen Day-Night v1.1和Extended CMU Seasons数据集上使用“室外”模型，在NAVER数据集上使用“室内”模型。在与MASt3R匹配时，我们只使用粗略匹配阶段，以保持评估时间在合理的范围内。对于局部三角测量方法，我们对SuperPoint和ALIKED特征使用2px的重投影误差阈值，对RoMa和MASt3R使用8px的阈值。这些值是基于在Aachen Day-Night v1.1数据集上对1px、2px、4px、8px和16px阈值进行的网格搜索选出的（Sattler等人，2018年，2012年；Zhang等人，2020年）。对于MASt3R姿态对齐，我们抽样3张检索到的参考图像并迭代姿态估计10次。只有与查询图像有超过50个对应点的参考图像才会被使用，因为与查询图像没有重叠的错误检索到的图像会显著歪曲最终的姿态估计。我们使用了MASt3R中实现的两阶段优化（Leroy等人，2024年）。第一阶段在仅优化相机的同时最小化3D点图距离。第二阶段在同时改变点图的同时最小化重投影误差。每个阶段使用300次迭代，学习率分别为第一阶段的0.2和第二阶段的0.02。对于内点计数，我们使用12px的重投影和极线误差阈值。对于E5+1、E3+1和局部三角测量方法，我们使用局部优化的RANSAC，最小迭代次数为1000次，最大迭代次数为100,000次。我们使用了两种最先进的深度预测方法：单目度量深度估计器Metric3D v2（Hu等人，2024年；Yin等人，2023年）和来自MASt3R的立体几何回归器（Wang等人，2024年）。我们在图3中展示了几张生成深度图的定性样本。这两张估计的深度图都在全局尺度和位移上与从网格渲染的深度图对齐。

尽管Metric3D深度图在细节上不够精确，并且在深度不连续处包含上采样伪影，但它能够相对较好地恢复全局尺度。对于展示的图像，单目深度在对齐过程中缩小了0.85倍，并且向右移动了+1.54米。MASt3R模型能够以显著的细节重建几何结构，但其估计场景尺度的能力非常差。展示的样本放大了15.83倍，并向左移动了-0.10米。对于Aachen v1.1数据集中的其他图像，这两种深度预测器的表现相似。

图4
这张图像的替代文本可能是使用AI生成的。

图5
Ess. mat.（5Pt）方法在不同特征下的定位结果。我们在Y轴上报告了多个姿态阈值（X轴）下的定位召回率（召回率越高越好）。对于室外场景，RoMa匹配器的效果最好。对于室内场景，MASt3R匹配器在较粗的阈值下表现最佳。

图6
这张图像的替代文本可能是使用AI生成的。

图7
Ess. mat.（3Pt + depth）方法在不同特征和单目深度预测器下的定位结果。我们在Y轴上报告了多个姿态阈值（X轴）下的定位召回率（召回率越高越好）。对于大多数场景，深度预测器的选择并不关键。对于室外场景，RoMa产生了最好的结果。对于室内场景，MASt3R在大多数情况下能达到最高的姿态精度。

图8
这张图像的替代文本可能是使用AI生成的。

图9
所有检索到的图像的局部3D点三角测量的定位结果（局部三角测量 - 全部）。我们在Y轴上报告了多个姿态阈值（X轴）下的定位召回率（召回率越高越好）。

图10
参考图像对的局部3D点三角测量的定位结果（局部三角测量 - 对）。我们在Y轴上报告了多个姿态阈值（X轴）下的定位召回率（召回率越高越好）。

4.1 消融研究
在第一组实验中，我们评估了某些设计选择（通常是使用的特征类型和适用的深度图类型）对各种无结构定位方法性能的影响。第4.2节将不同无结构方法中表现最好的版本进行比较。最后，第4.3节将无结构方法与基于结构的方法进行比较。运行时间和内存需求的分析分别在表6和表7中呈现。

第4.2节比较了不同无结构方法中表现最好的版本。第4.3节将无结构方法与基于结构的方法进行比较。表6和表7展示了运行时间和内存需求的分析。

第4.3节我们使用5Pt求解器在图4中展示了Ess. mat.的结果，使用3Pt+depth求解器在图5中展示了结果。从图5可以看出，深度预测器的选择似乎并不关键，两种预测器的表现都相当好。

图6显示了使用不同特征时LazyLoc的结果。与Ess. mat.方法不同，没有一种特征类型在所有场景（或室内或室外场景）中都表现最佳。然而，MASt3R匹配器通常都能取得良好的结果，并且似乎是首选特征。

表1 比较了在Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上基于回归的方法。我们使用了使用EigenPlaces（Berton等人，2023年）图像级描述符检索到的前10张图像。我们在（0.25米、2度）/（0.5米、5度）/（5米、10度）的姿态阈值下报告了定位召回率（召回率越高越好）。

表2 在Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上评估的每种方法的最佳设置（匹配方法和深度图来源）。我们使用了使用EigenPlaces（Berton等人，2023年）图像级描述符检索到的前10张图像。我们在（0.25米、2度）/（0.5米、5度）/（5米、10度）的姿态阈值下报告了定位召回率（召回率越高越好）。

表3 在Extended CMU Seasons数据集（Badino等人，2011年；Sattler等人，2018年）上评估的每种方法的最佳设置（匹配方法和深度图来源）。我们使用了使用EigenPlaces（Berton等人，2023年）图像级描述符检索到的前10张图像。我们在（0.25米、2度）/（0.5米、5度）/（5米、10度）的姿态阈值下报告了定位召回率（召回率越高越好）。

表4 在NAVER室内定位数据集（Lee等人，2021年）Gangnam Station（GS）和COEX场景上的基准测试。我们使用了使用EigenPlaces（Berton等人，2023年）图像级描述符检索到的前10张图像。我们在（0.1米、1度）/（0.25米、2度）/（1米、5度）的姿态阈值下报告了定位召回率（召回率越高越好）。

表5 在NAVER室内定位数据集（Lee等人，2021年）Hyundai Department Store（HDS）场景上的基准测试。我们使用了使用EigenPlaces（Berton等人，2023年）图像级描述符检索到的前10张图像。我们在（0.1米、1度）/（0.25米、2度）/（1米、5度）的姿态阈值下报告了定位召回率（召回率越高越好）。

图11
这张图像的替代文本可能是使用AI生成的。

图12
在NAVER室内定位数据集（Lee等人，2021年）COEX 1F场景中，具有高相机位置误差的查询图像（上排）和低相机位置误差的图像（下排）的比较。前者经常包含重复的模式或其他结构，这些结构会复杂化3D点三角测量。

图7和图8分别展示了E5+1和E3+1方法的结果。对于E5+1，密集的RoMA匹配器在室外场景中通常表现最好，而在室内场景中密集的MASt3R匹配器表现最佳。对于E3+1，在Extended CMU Seasons数据集上RoMA匹配器表现最佳，而在所有其他场景中MASt3R匹配器的表现同样好或更好。与Ess. mat.（3Pt + depth）一样，单目深度预测器的选择并不关键。需要注意的是，与Ess. mat.（3Pt + depth）一样，预测深度图的尺度并不重要，因为会使用与第二个数据库图像的额外点对应关系来恢复平移的尺度。

图9分别展示了两种局部3D点三角测量方法的结果。对于Local triangulation - all方法（图9），我们观察到除了MASt3R之外，所有特征在Aachen Day-Night数据集上的表现都相当好。对于Extended CMU Seasons数据集，RoMA明显提供了最佳结果，而MASt3R通常在室内场景中表现最佳。有趣的是，SuperPoint和ALIKED在Extended CMU数据集上的表现都优于MASt3R。相比之下，对于Local triangulation - pairs（图10），RoMa和MASt3R的表现与SuperPoint和ALIKED相当或更好。有趣的是，当使用对齐合时，MASt3R在Extended CMU上的表现最佳，而使用所有图像进行三角测量时表现较差。我们推测MASt3R的一些关键点位置可能相当嘈杂，这在使用所有图像时会影响三角测量3D点的精度。使用对齐合时，通过选择两个具有共同关键点的数据库图像，有机会获得更准确的点位置。相比之下，其他特征从使用所有图像中受益。

表1展示了四种基于回归的方法在Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上的结果。与所有之前评估的方法相比，所有基于回归的姿态回归方法的表现都显著较差。Ess. mat.（MASt3R姿态）在这些方法中表现最好，但仍然显著不如Ess. mat.（5Pt）准确。尽管MASt3R深度回归器被训练用来预测度量深度图，但我们的实验表明，预测的深度与度量深度相差甚远。因此，使用它们将2D-2D对应关系提升为2D-3D匹配，然后通过P3P-RANSAC进行姿态估计，会导致非常不准确的姿态（见表1中的MASt3R depth + P3P）。我们的MASt3R姿态对齐流程比Reloc3r取得了更好的结果，但仍然不如Ess. mat.（MASt3R姿态）准确。

鉴于Aachen数据集观察到的不准确姿态估计以及较长的运行时间，我们没有在其他数据集上评估基于姿态回归的方法。

讨论：对于大多数方法来说，RoMa（Edstedt等人，2024年）（及其室外模型）通常在室外数据集（尤其是Extended CMU Seasons数据集）上表现最佳，而MASt3R（Leroy等人，2024年）通常在室内数据集上表现更好。在室内数据集上，我们观察到使用RoMa的室外模型代替其室内模型平均可以得到相似的结果。对于某些方法和场景（例如，在大多数场景中使用LazyLoc以及对于Aachen数据集使用局部三角测量方法），稀疏特征（SuperPoint和ALIKED）可以达到与密集匹配器相似甚至更好的准确率。对于其他方法和特定场景，它们的表现明显较差，尤其是在Extended CMU Seasons数据集上使用局部三角测量时。总体而言，密集匹配方法通常的表现与稀疏特征相似或更优。然而，它们并不总是最佳选择。用于Ess. mat.（3Pt+depth）和E3+1的两种深度估计器得到的姿态准确率非常相似，尽管从图3中可以看出有所不同。如上所述，这两种单目深度估计器在尺度估计的准确性上存在差异。然而，如上所述，这两种方法都没有使用深度估计的尺度信息。尽管如此，图3仍然显示了Metric3D深度图中的明显错误（Hu等人，2024年；Yin等人，2023年）。这可能是由于两个原因：通过在RANSAC内部应用3Pt求解器（Ding等人，2025年），我们可以忽略深度估计不准确的区域。同时，通过3Pt求解器获得的初始姿态随后会进行细化。这种细化不使用深度图，从而让我们能够更好地处理不准确性。

4.2 比较无结构定位方法
表6 展示了运行时间和内存需求的比较，这些数据来自表7的平均测量值。我们假设这些流程从一组已知的参考图像姿态开始。基于结构的流程（Hloc）存储局部和全局特征（并丢弃图像，从而防止之后切换到不同类型的特征）。相比之下，无结构方法只存储图像和全局特征，并在运行时提取局部特征。

4.3 与基于结构的方法的比较
表8 将最佳的无结构方法与Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上的最先进的基于结构的方法进行了比较。我们使用了EigenPlaces（Berton等人，2023年）的图像级描述符来检索前10名和前20名图像。我们报告了 localization 方法在Aachen Day-Night v1.1数据集上的平均运行时间。

4.4 映射密度的影响
图12 这张图像的替代文本可能是使用AI生成的。

4.5 与基于结构的方法的比较
表8 将最佳的无结构方法与Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上的最先进的基于结构的方法进行了比较。我们使用了EigenPlaces（Berton等人，2023年）的图像级描述符来检索前10名和前20名图像。我们报告了 localization 方法在Aachen Day-Night v1.1数据集上的平均运行时间。

在下一组实验中，我们比较了不同的无结构定位方法。如前所述，我们排除了基于姿态回归的方法。对于每种方法，我们选择了每个数据集上表现最好的配置（特征类型和深度估计器）。

4.6 结构化与无结构化方法的比较
表2显示了Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）的结果，表3显示了Extended CMU Seasons数据集（Badino等人，2011年；Sattler等人，2018年）的结果，表4和表5显示了NAVER室内定位数据集（Lee等人，2021年）的结果。此外，表6报告了这些定位方法在Aachen Day-Night v1.1数据集上的平均运行时间。

在姿态准确性方面，依赖更广泛几何推理的方法通常表现更好：Ess. mat.（5Pt）使用从2D-2D匹配中获得的成对相对姿态，其表现始终不如同样使用深度图进行相对姿态估计的Ess. mat.（3Pt+depth）。LazyLoc使用基于2D-3D匹配的运动平均和细化，这可以进一步提高性能。有趣的是，在某些场景中（Aachen Night、Extended CMU Seasons公园、NAVER GS B1 & B2、NAVER HDS 1F & B1），LazyLoc的表现明显不如Ess. mat.（3Pt+depth）。在某些场景中，即使Ess. mat.（5Pt）的表现也优于LazyLoc，这表明额外的细化步骤可能在所有条件下并不总是有效的。使用5Pt算法结合旋转平均和相机中心三角测量的流程（Ess. mat. - 5Pt）的结果与文献中报道的小数据集上的结果一致（Arnold等人，2022年；Dong等人，2023年）。

Ess. mat. 和 LazyLoc首先使用检索到的数据库图像计算成对相对姿态估计，然后将其融合到最终的查询姿态预测中。相比之下，E5+1 和 E3+1 直接计算相对于多个数据库图像的查询姿态，这进一步提高了性能。与Ess. mat.不同，将深度图作为求解器的一部分使用（即使用E3+1 而不是E5+1 求解器）可能会导致较差的结果。然而，这种行为似乎依赖于场景：对于Aachen数据集，场景结构通常距离查询图像有几十米远，在这种情况下，深度图中的不准确性会传播成较大的姿态误差。因此，未来一个有趣的研究方向是自动决定何时使用单目深度图预测。

在运行时间方面（参见表6），E5+1 在姿态准确性和运行时间之间提供了更好的平衡。当运行时间是主要考虑因素时，LazyLoc 是这些方法的良好替代品，因为它在室外数据集上提供了最快的运行时间，同时实现了合理的姿态准确性。

在比较无结构方法与基于结构的方法时，我们使用了EigenPlaces（Berton等人，2023年）的图像级描述符来检索前10名和前20名图像。表8将表现最佳的无结构方法与Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）上的最先进的基于结构的方法进行了比较。结合它们场景表示的灵活性，无结构方法因此成为目前占主导地位的基于结构方法的有趣替代方案。为了评估参考图像采样密度的影响，我们遵循了Panek等人（2025年）提出的实验方法，生成了Aachen Day-Night v1.1数据集（Sattler等人，2018年，2012年；Zhang等人，2020年）参考图像集的多个子集。由于我们希望用参考视图均匀覆盖整个场景，我们使用了一个贪心算法，该算法迭代地选择迄今为止所有选定相机中距离最远的相机，直到采样到所需数量的视图。该算法还考虑了相机之间的相对角度，如果相对角度大于或等于90度，则在距离得分中加上一个常数距离奖励（在我们的案例中为$b_\text {max} = 100米$）。如果相对角度在$\langle 0^\circ , 90^\circ )$范围内，我们计算奖励为$(\alpha / 90^\circ )^2 \cdot b_\text {max}$。得到的子集既用于无结构定位，也用于基于结构方法的点云三角剖分。我们在图12中展示了不同数据集子集的比较。实验结果如表10所示，所有方法都受到参考图像集稀疏化的影响，然而，基于结构的Hloc方法（Sarlin等人，2019年，2020年）的准确性随着下采样级别的增加而下降得更快，而无结构方法的准确性下降得相对较慢。基于结构和无结构定位流程在不同数据集上的比较可以在Panek等人（2025年）的研究中找到。

**5. 经验总结**
本节总结了实验中的主要观察结果，为不同的设计选择提供了快速指导。表现最好的两种方法是Local triang.- all（在室外数据集上表现更好）和E5+1（在室内略好）（见表格2、3、4和5）。平均而言，表现最好的两种局部特征匹配器是RoMa（在室外表现更好）和MASt3R（在室内表现更好）（见图表4、5、6、7、8、9和10）。3Pt+depth相对姿态求解器在姿态三角剖分方面的效果优于5Pt求解器。LazyLoc并不明显优于或劣于这两种Ess. mat.方法（见表格2、3、4和5）。而在半 generalized 方法中，情况则相反，E5+1的表现优于E3+1（见表格2、3、4和5）。对于3Pt+depth和E3+1姿态求解器来说，选择深度图并不关键。使用Metric3D深度图和MASt3R深度图时，两者的表现相似（见图表5和8）。在进行即时重建时，从所有检索到的参考图像进行三角剖分（Local triang.- all）比仅从图像对进行三角剖分（Local triang.- pairs）能获得更好且更稳定的结果（见表格2、3、4和5）。测试的相对姿态回归方法尚未在大规模数据集上达到标准基于几何的方法的准确性（见表格1和2）。基于MASt3R推断的相对姿态进行姿态三角剖分（Ess. mat. (MASt3R poses)）在测试的相对姿态回归方法中表现出最佳效果（见表1）。基于结构的方法在密集覆盖的场景中表现优于无结构方法，但随着参考图像集的稀疏化，其性能下降得更快（见表8和10）。

**6. 结论**
在本文中，我们提供了无结构视觉定位方法的全面概述和详细比较。通过广泛的实验，我们比较了不同家族的无结构方法。我们的结果表明，更广泛的几何推理通常会带来更好的性能，其中通过在飞行中构建局部SfM模型获得了最佳结果。然而，最佳的准确性与运行时间权衡是由基于半 generalized 相对姿态估计的方法提供的。我们的实验没有揭示出单一的最佳定位或匹配方法，但它们可以为读者根据使用场景选择方法提供参考。我们还研究了基于回归的方法，从我们的评估来看，这些方法仍需成熟才能达到更经典方法的准确性。与基于结构的方法相比，无结构方法通常准确性较低，但性能可以相当。

热点排行