一种适用于不同光照条件下地形感知的视觉-触觉融合系统

《Journal of Systems Architecture》：A visual-tactile fusion system for terrain perception under varying illumination conditions

【字体：大中小】 时间：2026年02月11日 来源：Journal of Systems Architecture 4.1

编辑推荐：

　　本文提出基于光照条件的视觉-触觉融合系统（IVTF），通过智能轮胎和摄像头采集多模态数据，动态调整融合权重以应对不同光照和车速，实验表明其显著提升自动驾驶地形感知的鲁棒性和安全性。

王睿|杨世春|陈宇毅|李卓扬|卢嘉毅|童泽翔|徐建毅|孙斌|冯新杰|曹耀光

北京航空航天大学交通科学与工程学院，中国北京

摘要

道路地形条件对于确保自动驾驶车辆（AVs）的行驶安全至关重要。然而，传统的传感器（如摄像头和激光雷达）对光照和天气的变化非常敏感，这给实时道路状况感知带来了挑战。在本文中，我们提出了一种基于光照意识的视觉-触觉融合系统（IVTF），用于地形感知，该系统在融合过程中整合了视觉和触觉数据，并根据光照特性进行了优化。该系统利用摄像头和智能轮胎在各种光照条件和车辆速度下捕获视觉和触觉数据。此外，我们还设计了一个视觉-触觉融合模块，该模块可以根据光照特征动态调整不同模态的权重。与单一模态感知方法的对比结果表明，视觉-触觉融合在多种光照条件下能够更准确地感知道路地形。这种方法显著提高了自动驾驶车辆中地形感知的鲁棒性和可靠性，从而提升了行驶安全性。

引言

随着各种传感器（包括摄像头[1]和激光雷达[2]）以及深度学习算法[3]的集成，自动驾驶技术取得了迅速发展。然而，当前关于自动驾驶的研究对道路表面条件的关注有限，而道路表面条件对自动驾驶车辆的行驶安全有着重要影响。事实上，正如世界道路协会[4]所强调的，“道路基础设施与道路碰撞中的致命和严重伤害有密切关联”。不同类型的道路表面（例如潮湿、泥泞、碎石或沥青）会显著影响车辆的稳定性[5]、制动距离和操控性能。

现有的道路状况识别研究可以分为两类：视觉感知方法和触觉感知方法[6]。视觉传感器（如摄像头[7]和激光雷达[8]）可以从远处感知地形，使车辆能够在不直接与环境交互的情况下对其周围环境进行分类[6]。然而，这些传感器容易受到天气和光照条件的影响，从而在复杂环境中难以实现准确的感知[9]。此外，激光雷达的高成本限制了其在车辆中的广泛应用[10]。触觉方法（包括智能轮胎[11]）通过车辆与环境的交互来感知地形特性，其数据可用于训练准确的地形分类器[12]。

鉴于自动驾驶场景的动态变化，仅依赖单一模态来捕获所有道路表面特征具有挑战性[13]。最近关于视觉-触觉深度学习的研究表明，这种融合方法具有学习互补特征的潜力[14]。视觉-触觉融合在机器人技术中得到了广泛应用。张等人[15]提出了一种部分融合框架，将稀疏的触觉区域与局部视觉特征对齐，从而提高了物体识别能力。他们的后续工作[16]使用图神经网络利用触觉数据来补偿无监督聚类中的视觉遮挡问题。此外，[17]引入了FusionNet-A/B，通过早期/晚期融合和置信度校准来增强多模态识别和泛化能力。这些研究突显了视觉和触觉在复杂环境中的互补性，促使我们采用类似的融合方法来实现鲁棒的道路表面感知。

目前，视觉-触觉融合方法可以分为基于聚合的方法、基于对齐的方法和基于通道交换的方法[18]。其中，基于通道交换的方法能够在每种模态内的特定通道之间促进信息的方向交换，在多个研究领域（如疾病识别[19]、遥感[20]和语义分割[21]）中显示出显著优势。大量研究表明，这些方法能够提升融合性能，优于基于聚合[22]和基于对齐[23]的技术。受视觉-触觉融合优异性能的启发，[24]提出了一种将车辆与道路表面之间的触觉信息与图像相结合的视觉-触觉融合方法，用于道路状况感知。

尽管在道路表面感知的视觉-触觉融合方面取得了显著进展，但仍存在一些关键挑战。正如[25]所讨论的，并非所有多模态数据中的模态都始终可靠；不同模态容易受到环境干扰，需要在融合过程中动态评估它们的贡献。然而，现有的视觉-触觉融合方法通常采用隐式的权重分配，而没有明确考虑光照条件[17]，这是直接影响视觉质量的关键因素——导致融合过程的可解释性有限，并且在极端光照条件下缺乏足够的鲁棒性。

为了解决这个问题，本文创新性地提出了一种基于光照的视觉-触觉融合系统，将光照条件作为显式的先验信号纳入融合过程，如图1所示。通过在低光照条件下降低视觉权重，在高光照条件下优先使用视觉信息，该方法实现了更强的可解释性。此外，通过将光照作为监督信号明确注入融合过程，增强了在极端或分布外光照条件下的鲁棒性，防止了由于视觉模态故障导致的性能急剧下降。这对于自动驾驶尤为重要。先前的研究[26]、[27]已经证明，基于光照条件指导多模态融合可以更好地适应各种环境，并减少对训练数据的依赖。

在本文中，我们介绍了一种用于地形感知的基于光照的视觉-触觉融合系统。该系统利用触觉传感器克服了低光照环境下视觉感知的局限性，使用摄像头和智能轮胎在不同光照条件和车辆速度下收集视觉和触觉数据。具体来说，我们开发了一个视觉-触觉融合模块，根据光照特性优化了这些数据类型的整合。通过引入挤压激励（SE）机制，网络可以根据当前光照条件动态调整分配给每种模态的权重。广泛的实验表明，我们的方法在多种光照和驾驶场景下的性能优于其他基线方法。这种视觉-触觉融合系统为在不同光照条件下识别道路地形提供了一种新的解决方案，提升了自动驾驶车辆（AVs）的行驶安全性。

本文的其余部分组织如下。第2节详细介绍了我们提出的基于光照的视觉-触觉融合系统（IVTF），包括问题定义、系统架构和优化过程。第3节比较了IVTF和基线方法在测试车辆数据上的性能。第4节简要总结了一些观点和未来的工作。

架构

本文提出的视觉-触觉融合道路感知系统的结构如图2所示，包括数据输入模块、数据预处理模块和视觉-触觉融合感知算法模块。该系统集成在真实车辆中，配备了摄像头作为视觉传感器和智能轮胎系统作为触觉传感器，以在不同光照条件和车辆运行条件下收集视觉和触觉数据。原始数据是

与基线方法相比

为了验证所提出算法的有效性，将IVTF的道路识别结果与其他基线方法进行了比较。如第1节所述，近年来基于通道交换的方法在多模态任务上的表现显著优于前两类方法（即基于聚合和基于对齐的方法）。因此，在本文中，我们选择了近年来具有代表性的、最先进的基于通道交换的方法作为基线。

结论

在本文中，我们提出了一种基于光照特征的视觉-触觉融合系统（IVTF），该系统通过基于光照特征的视觉-触觉融合模块动态整合摄像头和智能轮胎数据。在各种光照条件和车辆速度下的实验评估表明，我们的方法具有优越性。在夜间场景中，与不使用光照特征的模型相比，我们的方法在精度上提高了4.5%，F1分数提高了4.3%

CRediT作者贡献声明

王睿：撰写——原始草稿、可视化、验证、方法论、形式分析、数据整理、概念化。杨世春：资金获取、概念化。陈宇毅：可视化、监督。李卓扬：资源获取、调查、数据整理。卢嘉毅：可视化、验证、监督。童泽翔：撰写——审稿与编辑、验证。徐建毅：撰写——审稿与编辑、验证、软件。孙斌：软件、资源获取、调查。冯新杰：

利益冲突声明

作者声明他们没有已知的可能会影响本文所报告工作的竞争性财务利益或个人关系。

摘要

引言

架构

与基线方法相比

结论

CRediT作者贡献声明

利益冲突声明

热点排行