基于无人机的通用图像配准框架，用于提升民用基础设施的视觉检查效率

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》：Generalizable UAV-based image registration framework for enhancing visual inspection of civil infrastructure

【字体：大中小】 时间：2026年05月11日 来源：ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐：

　　阿纳斯·阿尔沙罗（Anas Alsharo）| 马克斯·米德温特（Max Midwinter）| 朱尔·敏·柳姆（Chul Min Yeum）| 姜成哲（Jongseong Choi）加拿大安大略省滑铁卢大学土木与环境工程系摘要从使用无人机（UAV）收集的大规

　　阿纳斯·阿尔沙罗（Anas Alsharo）| 马克斯·米德温特（Max Midwinter）| 朱尔·敏·柳姆（Chul Min Yeum）| 姜成哲（Jongseong Choi）
加拿大安大略省滑铁卢大学土木与环境工程系

摘要
从使用无人机（UAV）收集的大规模图像数据集中管理和检索信息，在视觉检测领域仍然是一个重大挑战。为了解决这一挑战，本研究提出了一种通用且准确的图像配准算法，使检测人员能够将任何新收集到的结构图像与现有的基于结构运动（Structure from Motion, SfM）的模型进行配准，而无需依赖图像描述符数据库或3D点云来实现配准。配准后的新图像用于从旧图像中检测出感兴趣区域（Regions of Interest, ROIs）。该算法的性能已在公开的高分辨率多视图立体基准测试和公开的水泥桥摄影测量数据上进行了验证。结果显示，与现有算法相比，该方法在估计姿态（包括角度和位置）方面表现出色。此外，还使用商用无人机收集的数据对通信塔进行了实验测试，并展示了在新图像中检索和定位ROI的功能。实验中使用了在不同视角、光照条件、背景可见度以及相机类型（如不同传感器尺寸或焦距）下收集的图像。

引言
结构的视觉检测涉及查看大量在结构现场收集的图像，以检查缺陷并协助进行状况监测（Yeum等人，2019年）。无人机性能和感测能力的显著提升极大地促进了这些技术在各种民用基础设施视觉检测中的应用（Greenwood等人，2019年）。无人机能够收集大量重叠的高分辨率图像，这些图像可用于利用SfM技术构建结构的高精度3D重建。除了3D重建外，SfM还能将贡献图像注册到构建的3D场景中，并提取3D模型与贡献图像之间的几何关系（Yeum等人，2017年）。图像配准涉及估计相机相对于3D场景的6自由度姿态（3个用于相机位置，3个用于相机旋转）。图像配准是视觉检测中的关键步骤，因为它可以通过将3D模型中识别的ROI投影到这些图像中来检索视觉信息。然而，在实际检测阶段，检测人员通常只收集到结构目标区域的少量图像，这些图像的角度、比例（缩放）、距离和视角各不相同。这些图像集可能不足以使用标准SfM流程构建完整的3D模型，因此需要专门的配准方法将视觉数据与现有3D场景对齐。

图像配准通常采用两种主要方法：基于结构特征的图像配准和基于回归的直接图像配准（Xu等人，2024年）。在基于结构特征的方法中，可以通过在查询图像和3D场景中的对应点之间建立稳健的匹配来估计相机姿态。匹配过程是在与3D场景的3D点相关联的2D图像特征描述符数据库与从查询图像中提取的2D特征描述符之间进行的（Yeum等人，2019年）。在建立3D场景点和查询图像之间的2D-3D对应关系后，会使用透视n点（Perspective-n-Point, PnP）求解器来估计新图像的姿态。该求解器通常在随机采样一致性（Random Sampling Consensus, RANSAC）框架内实现，以处理异常值（Fischler和Bolles，1981年）。另一方面，基于回归的或绝对姿态回归（Absolute Pose Regression, APR）方法利用训练有素的神经网络模型来估计图像的绝对姿态，创建端到端的姿态估计模型（Kendall等人，2015年；Xu等人，2024年）。一般来说，基于深度学习的方法需要在包含从SfM流程中提取的真实姿态的大量结构图像上进行训练。APR模型的输入可以是单个图像、图像序列或视频，并通过使用不同类型的损失函数进行了多种改进以提高其准确性（Xu等人，2023年）。

现有图像配准技术，无论是基于特征的还是基于回归的，都在工作流程中存在一些重大缺点，这些缺点限制了它们的通用性和实用性。换句话说，这些方法在没有大量额外工作和与现有专有软件集成的情况下难以直接应用。例如，APR需要在大批量图像（或视频）上训练深度学习模型，这些图像具有真实姿态数据。由于真实姿态是通过SfM流程提取的，因此需要为所有要添加到训练数据集中的新场景生成SfM模型。如果配备了强大的图形处理单元（GPU），APR方法可以是端到端的相机姿态估计方法，并且计算效率较高。然而，研究发现，APR（或基于CNN的方法）并不能保证能泛化到训练数据集之外的场景，因为它是一种数据驱动的方法，对于与训练数据集相似的视觉场景可能表现不佳（Sattler等人，2019年）。此外，基于回归的方法在相机姿态估计的准确性方面通常不如基于结构特征的方法（Xu等人，2024年）。基于特征的方法需要建立查询图像和3D场景之间的2D-3D对应关系，然后通过PnP求解器来估计姿态。然而，在建立这种对应关系时可能会遇到许多挑战。首先，通常假设存在图像特征描述符数据库，且这些描述符与3D点云相关联，但这一假设并不总是成立的，因为许多广泛使用的商业SfM平台并不向用户提供这些描述符。例如，当用户使用商业软件构建SfM模型时，他们无法访问用于注册新图像的特征描述符数据库。其次，即使通过开源项目获得了描述符数据库，用户也受到限制，必须使用相同的特征提取器和描述符来处理数据库中的图像和查询图像（Deretey等人，2015年），这阻碍了他们应用更先进的算法或模型。此外，即使是先进的基于深度学习的特征检测器和描述符，其性能也会根据场景类型（如室内与室外）和用于训练模型的数据集而大相径庭（Cueto Zumaya等人，2024年）。这强调了评估多种方法以确定适合特定应用的最佳方法的必要性。尽管SfM软件允许注册新图像，但这些软件通常是专有的，并且受限于其原生平台。因此，承包商或测量人员必须拥有并操作相同的软件才能访问特征数据库，从而限制了其更广泛的可用性和互操作性。

本研究提出了一种先进且通用的图像配准算法，以克服现有图像配准方法的缺点。该方法利用基于深度学习的密集和半密集的特征匹配算法，在无需描述符数据库或3D点云的情况下，通过新图像（查询图像）与基础图像（用于重建基线SfM模型）之间的多视图匹配来稳健地建立2D-3D对应关系。通过密集和半密集的特征匹配算法，只需使用基础图像的校准姿态（通过三角测量）就能同时构建结构的部分3D场景，并建立估计新图像姿态所需的2D-3D对应关系。用户只需将基础图像的相机姿态（以旋转和平移或投影矩阵的形式）输入到算法中，即可估计出新图像的姿态。因此，无论使用哪种专有的SfM平台构建基础模型，只要存在校准姿态，用户就可以将新图像注册到基础模型。

提出的方法的验证分为两部分：1）基准验证：在两个主要的公开可用的摄影测量数据集上测试了配准算法。第一个数据集是一个多视图几何基准测试，包含具有不同照明条件和场景类型的内外场景；第二个数据集是公开可用的带有复合甲板的水泥桥摄影测量数据；2）实验验证：然后将该算法应用于全尺寸的通信塔，以研究该方法在改进视觉检测过程中的效果。

该方法的主要贡献在于它能够支持使用各种商业SfM平台和无人机系统收集结构新图像的行业用户。这些新图像通常用于识别关键ROI，并通过与之前收集的（基础）图像中的对应ROI进行比较来评估时间变化。该方法允许用户使用单个基础图像定义ROI，之后系统会自动在新图像中识别和定位相同的ROI，从而无需从3D场景中分割或提取ROI。因此，整个过程仅需使用带有近似EXIF数据的图像即可完成，显著降低了视觉检测的复杂性，避免了与3D模型的交互或对专用3D查看器的需求。此外，通过绕过描述符数据库或存储在3D模型中的显式3D场景的需求，该方法可以在3D场景不完整或包含重复图案时即时生成3D点云，从而克服了2D-3D对应关系较差的问题。在这种情况下，描述符匹配可能会失败，因为查询图像中的特征可能对应于3D场景中的空缺区域，或者在重复区域产生多个误匹配。因此，该方法为图像配准和ROI检索提供了一种稳健、灵活且通用的解决方案。

**文献综述**
由于无人机在基础设施检测中的广泛应用，无人机收集的图像的图像配准已成为视觉检测中的关键步骤。无人机被广泛用于桥梁等关键基础设施的检查，包括状况评估和损坏检测与定位（Congress等人，2025年；Kerle等人，2019年；Ni等人，2024年），混凝土大坝的状况评估（Zhao等人，2022年），以及交通基础设施的监测（Mei等人，2025年）。

**技术概述**
所提出的图像配准算法能够将任何新获取的结构图像与现有的基础SfM模型对齐，无论用于3D重建的平台或3D重建期间使用的特征匹配算法是什么。这一切都是通过使用基础图像的相机姿态来实现的。这样做的目的是提高检测过程的灵活性，确保其不受特定SfM平台、特征描述或匹配方法的限制。

**实验验证**
为了验证该方法的通用性和效率，实验验证分为两个步骤进行。第一步是基准验证。在基准验证中，我们将提出的配准方法与两个公开可用的数据集进行了测试：一个是包含各种室外和室内场景及其真实姿态的多视图几何基准ETH3D（Schops等人，2017年）；另一个是公开可用的混凝土桥摄影测量数据集。

**结论**
本研究提出并验证了一种稳健且通用的图像配准方法，旨在改进难以访问结构的图像中ROI的检索和定位，从而提高视觉检测的效果。该方法旨在克服使用无人机或手持相机收集的新图像与基于任意平台构建的SfM模型进行配准的困难。

**作者贡献声明**
阿纳斯·阿尔沙罗（Anas Alsharo）：撰写——原始草案、可视化、验证、方法论、形式分析
马克斯·米德温特（Max Midwinter）：撰写——原始草案、资源、方法论
朱尔·敏·柳姆（Chul Min Yeum）：撰写——审稿与编辑、监督、方法论、概念化Jongseong Choi：负责写作、审稿与编辑工作以及概念化设计。
利益冲突声明：
作者声明不存在任何可能影响本文所述研究的已知财务利益冲突或个人关系。
致谢：
本项工作得到了安大略省高等教育部提供的早期职业研究奖励支持，以及由韩国政府（科技信息通信部）资助的韩国国家研究基金会（NRF）项目（项目编号：RS-2022-NR067080）的支持。

联系信箱：

粤ICP备09063491号

热点排行