一种基于注意力增强变分自编码器与深度强化学习的自主导航系统在低光照环境中的鲁棒性研究

《Advanced Intelligent Systems》：VAE+DDPG: An Attention-Enhanced Variational Autoencoder for Deep Reinforcement Learning-Based Autonomous Navigation in Low-Light Environments

【字体：大中小】 时间：2026年02月24日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　本文提出了一种名为VAE+DDPG的新型自主导航控制模型，旨在解决深度相机在极低光照（最低至30勒克斯）环境下感知能力严重退化的问题。作者设计了一个融合特征金字塔网络（FPN）和卷积块注意力模块（CBAM）的变分自编码器（VAE+），用于从噪声深度图像中提取与光照无关的几何特征。该编码器与深度确定性策略梯度（DDPG）智能体协同优化，实现了感知与控制的端到端联合学习。实验结果表明，该模型在Gazebo模拟的杂乱走廊环境中，能在300到30勒克斯的大范围光照变化下维持85%-95%的成功导航率，显著优于基线方法。这项工作为实现仅依赖低成本红外深度相机（无需激光雷达或额外光源）的全天候室内自主机器人提供了一种高效、经济的解决方案。

1 引言

自主导航已成为工厂和家庭机器人的核心能力，但其在复杂走廊中的安全移动仍依赖于一致的避障能力。基于相机的深度感知提供了相对廉价的三维传感方案，但其输出在环境亮度变化时波动剧烈，尤其是在昏暗走廊中。当光照接近1勒克斯时，深度图像会变得嘈杂、对比度下降、距离被低估，导致碰撞风险攀升。许多导航系统隐含地假设了明亮的实验室光照，或通过搭载昂贵的主动传感器（如激光雷达）来弥补夜间感知的不足，但这增加了硬件成本和系统复杂性。一个紧迫的问题是，如何仅依靠普通成像传感器在黑暗环境中保持可靠的避障能力，使整个平台保持经济轻便。现有研究要么忽略了光照变化，要么只提出问题而未给出可行的方案，工程挑战持续至今。

为了应对低光照下的视觉退化，研究者们开始探索基于学习的解决方案。现有方法如RetinexNet、EnlightenGAN和Zero DCE等，通常被用作导航智能体之前的独立预处理模块。但这种固定的、与控制学习分离的模块，会在感知与控制之间造成鸿沟，损害整体行为。评估表明，结合RetinexNet与深度强化学习器的复合系统，在100勒克斯下成功率约为70%，但当进入仅90勒克斯的走廊时，性能急剧下降。另一分支是直接在原始深度图上训练近端策略优化（PPO）智能体，其在明亮办公室环境中能保持超过90%的成功率，但一旦亮度降至同一90勒克斯阈值以下，便会因噪声主导而崩溃。大多数深度强化学习导航研究很少涉及低于此阈值的场景，研究者通常假设光照充足或开启额外LED灯，而非要求鲁棒性。

因此，一个将表征与行动模块共同演化的集成方案，对于极低光照任务变得尤为紧迫。本文提出了一种名为VAE+DDPG的新型自主驾驶控制模型，用于在极低光照条件下实现基于深度相机的避障。该管道的核心模块是一个变分自编码器前端，称为VAE⁺。它试图从深度图像中收集形状线索，同时对光照波动保持不敏感。VAE⁺不同于经典VAE，因为它嵌入了用于跨尺度融合的特征金字塔网络（FPN）和卷积块注意力模块（CBAM），使编码器能够聚焦于障碍物密集出现的空间和通道区域。在第一阶段，VAE⁺作为图像到图像的翻译器接受监督，学习输出看起来像是在明亮场景中捕获的深度帧，从而使其潜在向量丢弃像素强度，主要保留几何属性。然后，训练好的编码器直接插入到一个深度确定性策略梯度（DDPG）智能体中，整个链条变为端到端可训练的。与以往冻结视觉提取器的研究不同，本文决定让梯度流经编码器，从而使表征在训练过程中与导航目标保持一致。

在杂乱走廊内进行的模拟实验表明，VAE+DDPG能使机器人成功避开墙壁，成功率在85%–95%左右，而在相同设置下，不具备光照感知编码器的基线智能体成功率降至40%以下。所提出的智能体在仅30勒克斯（极暗房间环境）下仍能正确驾驶，并且仅依赖廉价红外深度相机，无需额外灯具。这表明，无需硬件升级，强化学习能够应对苛刻的照明条件。

2 相关工作

2.1 视觉强化学习的表征学习

早期推动强化学习从原始像素中学习的研究需要大量的模拟调用。World Models通过首先将变分自编码器拟合到长帧序列来减轻这种负担，产生了一个简洁的随机代码，供小型循环预测器和单独的控制器处理。PlaNet遵循相同的方案，将模型预测与行动搜索相结合。Dreamer则将参与者-评论者更新与持续的世界模型优化交织在一起，使策略能通过长序列的想象轨迹接收梯度，从而以比早期系统更少的环境步数获得更高的回报。最近的研究通过将辅助无监督损失注入循环中来改进视觉编码器，例如附加对比目标或自预测头。这些信号共同塑造出保持紧凑、几何感知且对剧烈亮度变化相当不敏感的特征空间，从而转化为智能体中更稳定的控制。然而，这些益处大多在场景多样性有限的模拟环境中报告。

2.2 联合编码器策略训练与辅助目标

当前的深度强化学习框架通常仅从稀疏的任务奖励中学习视觉编码器和控制策略，这导致训练进展缓慢，学习曲线趋于平缓，并出现过拟合。为解决此问题，研究者引入了辅助目标，并解决一个多目标程序，以在策略改进的同时保持编码器的参与。UNREAL智能体增加了像素控制、奖励预测和合成回报流。这些频繁的信号引导编码器朝向那些稍后能简化控制的状态因素。CURL将对比表征学习与策略梯度相结合，为决策提取更深层次的特征。实验表明，由额外反馈指导的编码器相比仅暴露于稀疏任务奖励的编码器，能达到更高的最终得分。

2.3 视觉退化与低光照条件下的鲁棒性

确保感知在不断变化的图像中持续工作是任何具身智能体的基本要求。在模拟研究中，数据增强与领域随机化被用作常见的对策。领域随机化改变合成世界中的纹理、背景、光照甚至相机姿态，使策略避免过拟合到单一的像素布局。图像增强为强化学习提供了另一层保护，研究人员应用实时裁剪、空间平移和强度变化，旨在使视觉管道更加坚固。专门针对合成低光照的研究仍然有限。一些研究将学习到的增强模块连接到智能体前端，但评估往往依赖于图像质量指标，而忽视了检查下游的奖励表现。

2.4 注意力机制与多尺度视觉编码器

随着从原始像素进行强化学习的研究日趋成熟，许多团队开始质疑普通卷积神经网络编码器的能力。一个明显的趋势是持续增加注意力模块，使策略能够定位每帧中的相关区域或物体。Zambaldi等人将一个多头自注意力关系模块嵌入到一个深度智能体中。在三维迷宫中进行的钥匙-门谜题实验数据显示，基于注意力的智能体得分高于基线CNN-LSTM智能体，并且在迷宫布局无预警变化时表现出更强的弹性。与此同时，视觉变换器与多尺度编码器在强化学习中的近期兴起也揭示了相同的趋势。ViT将图像分割为补丁令牌，全局自注意力作用于所有令牌，这是具有狭窄视野的普通CNN无法达到的。尽管额外的样本需求和偶尔出现的不稳定性仍然存在，但文献的趋势倾向于认为，跨尺度的弹性聚焦能力为机器人同时权衡近处障碍物间距和远处路线环境提供了一条实用路径。

2.5 控制模拟中的低光照增强

先前关于低光照图像增强的研究主要集中在为人类观察者提供美学上的改善，很少评估修复后的帧如何影响后续的视觉或控制模块。在合成驾驶模拟器中，一个直接的验证路径是确认增强管道是否能提高强化学习智能体的得分，而不是仅仅关注结构相似性或峰值信噪比。Chen等人在CARLA框架中进行了消融实验，使用增强输入训练的智能体在夜间取得了更高的成功统计数据，而基于原始昏暗帧学习的基线则经常停滞和碰撞。这类方法有意忽略传统的保真度指标，追求直接的奖励增益或检测置信度。这一理念与为自主机器提供感知感知增强的新兴观点产生了共鸣。在强化学习文献中，添加视觉增强模块仍然是应对苛刻照明的常见做法。研究人员要么放置一个与智能体共同训练的前端来突出低勒克斯下的任务线索，要么依赖领域随机化，让编码器暴露于混合亮度下，使潜在图起到内部去噪器的作用。本研究部分采用了第二种路径，并将其与第一种路径混合。

2.6 领域适应与仿真到现实的迁移

模拟仍然是塑造驾驶策略的安全可控场所。研究人员努力缩小所谓的“现实差距”，即模拟中调整的行为与自然环境中性能之间的不匹配。一系列研究专注于强化学习框架内的显式适应。DARLA使用来自源世界（例如简化的模拟渲染）的帧对β-VAE进行预训练，然后将潜在因子传递给策略学习器。这些代码保留了任务因子，忽略了背景、颜色或光照，因此表征在不同域之间保持稳定。像素级适应提供了另一条路径，翻译网络将来自一个域的每帧图像重写，使其看起来像目标域。Pan等人依赖条件GAN将模拟器图像转换为逼真的图像，策略在此类帧上进行训练，在评估时，真实帧通过相同的翻译器传递，从而使输入分布匹配。在线适应形成了第三条路径，模拟器视觉效果在策略更新的同时逐渐演变。最近的强化学习方法，如RADA，将对抗性领域分类器附加到编码器上；联合损失推动跨域的共享特征。这些技术在模拟器或光照设置之间迁移时显示出令人鼓舞的结果，但在物理机器人场景中的证据仍然稀少。

2.7 多任务与分层强化学习

最近的深度强化学习研究集中在单任务设置上，尽管一些报告展示了能处理多样化视觉场景的智能体。IMPALA研究在三十个DeepMind Lab关卡和五十七个Atari游戏中训练了一个高容量网络。其联合策略在每个任务上达到了与独立基线相当甚至更高的得分，并在未见过的领域中表现出正向迁移。这表明共享的ResNet风格编码器捕获了跨不同场景可迁移的通用轮廓和边缘。在自主驾驶沙盒中，一些社区试验通过辅助目标或多头分支将导航、避障和标志分类打包到一个学习器中，但评估仍局限于合成道路。分层强化学习方法将大任务分割成较小的片段，使得策略能够在较长的时域上操作。视觉驱动的变体面临由部分可观测性和高维图像流带来的障碍。FeUdal Networks中，管理器产生基于嵌入的目标，工人执行原始动作，智能体在三维迷宫中导航，并发现诸如在发现门道前进入走廊等子目标，这是平面基线很少能匹配的行为。一个关键要素似乎是捕获空间抽象的表征，从而允许从管理器到工人有更清晰的指导。

2.8 研究空白与动机

尽管前面的综述概述了表征学习、视觉鲁棒性和领域迁移，我们仍然认识到四个未解决的问题构成本研究的框架。2.8.1 低于100勒克斯的严谨研究有限：大多数基于视觉的强化学习研究在明亮的模拟器中进行，或仅注入轻微的光照波动。标准红外深度相机的失效模式，包括散斑噪声、距离丢失和量化，仍未得到探索。我们的实验明确扫过11个光照等级直至30勒克斯，并且仍能达到约95%的任务完成率，证明了可靠的导航能力，而早期的智能体则会崩溃或超时。2.8.2 光照变化下感知与控制缺乏协同适应：保持编码器和策略分离通常带来训练稳定性，但它阻止了面向任务的特征优化。完全端到端的CNN智能体获取的特征与某一光照域绑定；它们会严重过拟合。之前的工作从未在优化显式重构成本的同时，对变分注意力增强编码器与连续动作策略进行联合微调。我们的VAE⁺实现了这种集成，其参数通过双重损失（重构加奖励）更新，并且潜在向量同时保持了几何感知和光照不变性。2.8.3 深度强化学习中缺乏注意力驱动的多尺度编码：特征金字塔网络和卷积块注意力模块经常出现在目标检测中，但没有人将它们嵌入到为强化学习智能体提供输入的VAE瓶颈中，特别是针对噪声深度图。所提出的编码器通过空间和通道注意力融合多分辨率线索。它能够对局部散斑噪声进行去噪，并保持全局布局；这种能力在早期深度强化学习论文采用的普通CNN骨干中是缺失的。2.8.4 忽视传感的成本效益：许多鲁棒系统通过增加激光雷达或额外照明来避免低光照，其后果是物料清单成本更高和功耗需求更大。相反，我们指出，一个约150美元的商品深度相机，结合适度的GPU内存（推理时小于1GB），在模拟中可以等于甚至超过配备激光雷达的基线。这一特性对于物流、零售和家庭服务机器人具有吸引力。

2.9 意义

本研究贡献在于：(i) 首个涵盖30至300勒克斯光照范围的、仅依赖视觉的导航开放基准；(ii) 首个通过双重VAE加强化学习优化联合学习光照鲁棒性、几何抽象和控制效用的编码器；(iii) 一种无需昂贵传感器或额外照明即可实现全天候室内自主的经济高效方案。因此，我们提出VAE⁺/DDPG作为一个可复现的基线，也是未来资源受限的极端低光照机器人导航研究的跳板。

3 方法论

3.1 系统概述

该框架建立在一个两阶段的感知-控制流水线上，目标是在低光照房间内实现可靠的自主导航。在视觉驱动的控制文献中，类似的分离出现在许多基准套件中，其中视觉表征学习和强化驱动的策略优化并行运行。该架构允许视觉推理在执行的同时，运动规则在独立的循环上刷新；这种并发性可以在传感器反馈快速波动时增加样本吞吐量。

3.1.1 第一阶段：光度补偿与潜在表征

在第一阶段，流水线专注于补偿在稀缺光照下出现的光度衰减。一个变分自编码器被训练用于从黑暗观测中重建明亮深度图像。编码器集成了两种跨空间和尺度的特征选择机制。首先，卷积块注意力模块应用空间和通道注意力；在某些镜头中，权重会突出障碍物，而在其他情况下，权重分布则广泛扩散。其次，特征金字塔网络融合多尺度线索，允许额外的场景几何信息，尽管现场实验表明增益在不同数据集间波动。这种配置期望编码器关注与避障相关的区域，尽管无关的背景线索并未被完全过滤掉。潜在向量通过重参数化技巧进行采样，原则上，它在变化的光照下保持场景细节，尽管在极低光照下某些维度会失去一致性。

3.1.2 第二阶段：基于强化学习的控制

在第二阶段，从前端编码器获得的潜在向量被注入到一个基于深度确定性策略梯度（DDPG）的深度强化学习控制器中。在策略优化期间，将先前线速度、角速度、目标距离和目标角度等本体感知线索与之拼接，从而形成一个状态向量。DDPG智能体遵循参与者-评论者方案，参与者输出连续动作，评论者进行评估并发出时间差分信号。VAE⁺编码器在训练过程中不被冻结，其参数与参与者和评论者联合演化，因此表征能够跨光照条件跟踪与导航相关的特征。与早期将感知与控制分离或将视觉编码器固定的研究相比，我们的集成方法同时更新两者，并倾向于提高跨光照设置的鲁棒性，证据虽是初步的，但令人鼓舞。

3.2 VAE⁺架构

VAE⁺包含一个编码器和一个解码器，该对接收一个单通道深度帧，并通过通道注意力和空间注意力单元传递特征张量，每个单元都嵌入到一个融合粗糙和精细表征的金字塔中。编码器寻求一个能拒绝光照漂移的嵌入，因此在潜在空间中，对应于明亮和昏暗帧的潜在向量彼此接近。这种行为是在配对曝光数据的预训练中诱导出来的，并在智能体探索环境时在线保持调谐。压缩后，信号变成一个128维向量，随后解码器为下游策略产生经过光度校正的帧。自重构损失结合了逐像素均方误差和Kullback-Leibler正则化器，后者将潜在变量近似后验锚定到标准正态先验。

3.2.1 编码器

编码器接收形状为的单通道深度帧，并通过链处理以收集分层表征。(i) ResBlock和CBAM：四个残差块将空间分辨率在每个阶段减半；在每个块内，使用两个卷积来提取局部线索，同时应用批量归一化以稳定梯度并加速训练。跳跃连接也被包含在内，以保留来自较早层的特征完整性，并使更深的网络架构能够有效训练，这是残差学习的核心原则。CBAM依次执行通道注意力和空间注意力，该序列旨在增强重要特征（如物体边界附近的深度不连续性），同时帮助抑制均匀区域的无关传感器噪声。(ii) FPN融合：来自最后三个块的特征图分别具有的分辨率。每个图首先经过一个卷积，将通道宽度固定为128；然后通过自上而下的通路上采样并与相加，结果再次上采样并与相加，产生。(iii) 潜在采样：全局平均池化将压缩为128维向量，随后两个全连接头输出均值和方差。潜在向量通过重参数化技巧进行采样。这个随机采样步骤是VAE框架的一个关键组成部分。它通过引入受控噪声来正则化编码器，防止模型过拟合，并鼓励它学习输入数据的更平滑、更广义的潜在表征。

3.2.2 解码器

解码器接收潜在编码，首先应用一个线性投影层，随后将向量重塑为的张量。然后，三个转置残差块处理该张量，每个块都配备了一个CBAM模块。解码器然后从潜在向量重建图像，使用一系列转置残差块逐步将特征表示上采样回原始图像维度。跳跃连接也在该架构中使用，允许来自编码器阶段的细粒度细节直接传递到相应的解码器阶段。这有助于显著提高最终重建质量并保留清晰细节。空间分辨率在每个层级翻倍，在最终块之后，张量大小返回到并流向输出头。

3.2.3 优化目标

使用Adam优化器（学习率，迷你批次大小为64）进行200个epoch的训练。数据集包含5000张明亮图像以及同等数量的合成变暗对应图像。如果增强管道配置不当，光照类别之间会出现不平衡，这种效应后来会反映在验证曲线中。潜在宽度为128确保了大约20倍的压缩；同时将重构误差保持在以下，并在300勒克斯到30勒克斯的完整光照范围内保持超过90%的导航成功率。

3.3 深度强化学习控制骨干

控制模块被实例化为一个深度确定性策略梯度智能体，因其样本效率和天生支持连续动作空间而被选中。DDPG维护一对参数化函数：参与者和评论者，它们通过离策略梯度下降共同优化。

3.3.1 参与者-评论者形式化

(i) 参与者：给定当前观测，参与者输出代表线速度和角速度的连续动作。其参数被更新以最大化预期回报。(ii) 评论者：评论者估计动作价值函数，通过时间差分损失训练以满足贝尔曼一致性，其中目标由延迟网络计算得出。

3.3.2 感知-控制接口

在线操作期间，编码器组装光照不变的表征。VAE⁺编码器生成的潜在表征被设计为光照不变的。潜在空间的这种一致性，即使在变化的照明条件下，对于为DRL智能体提供稳定的状态表示至关重要，进而带来评估中观察到的稳健导航性能。我们将它们附加到导航元组上，获得状态向量，该向量被并行转发给参与者和评论者，从而保持语义基础的一致性。

3.3.3 参与者网络

参与者接收包含双重视觉潜在表征和四个本体感知通道的状态向量，并通过一个具有架构和ReLU激活函数的多层感知机进行处理。这种配置被证明是有效的，并在我们的训练过程中带来了稳定的收敛。确定性动作被发送到低级控制器。为了鼓励在连续动作空间中进行有效探索，在训练期间，向参与者的输出添加了标准差为0.1的Ornstein-Uhlenbeck噪声过程。这种类型的噪声特别适合物理控制任务，因为它产生时间相关的探索信号。

3.3.4 评论者网络

评论者网络估计状态-动作价值。它采用双通路架构，其中状态向量和动作向量在拼接之前通过独立的特征提取分支进行处理。这种设计是一种标准做法，旨在允许网络更有效地学习状态和动作的独立表示，从而有助于更稳定地学习价值函数。

3.3.5 优化过程

(i) 策略梯度：参与者的优化依赖于确定性策略梯度定理。对重放缓冲区分布的期望允许梯度利用旧的轨迹，这一特性在实践中降低了样本相关性，从而提高了样本效率。当缓冲区携带跨情节和条件的多样化经验时，这种改进变得可见。在梯度算子内部，雅可比矩阵将参数扰动映射到动作变化，而则记录了评论者输出随动作变化的变化。它们的乘积，在当前策略动作处进行评估，揭示了一个预期以最快速度提高预测回报的方向。采用局部线性方法；然而，全局最优性在一般情况下无法保证。由于评论者重用视觉编码器，反向传播通过控制信号调谐潜在编码，这种交互鼓励提取在变化光照下真正与决策相关的视觉线索。(ii) 软目标更新：当慢速移动的目标网络跟随在线权重时，时间差分学习的稳定性会增加；参数在每个步骤遵循，因此微小的平均值平滑了振荡行为。然而，不当的学习率或系数会在长时间训练期间引发发散。

4 实验环境与训练

4.1 模拟测试平台

所有实验均在Gazebo 11模拟器中进行，并使用了ROS Foxy接口。使用了模拟器的标准深度相机插件，该插件生成包括散斑噪声、范围量化和径向模糊在内的真实传感器数据。由于物理引擎准确复制了车轮打滑和恢复等关键物理现象，在模拟中调整的策略可以仅通过微小的增益调整迁移到物理TurtleBot3 Waffle Pi平台。快速重置例程加上自动化的脚本参数扫描使得单个工作站能在一个晚上内产生接近一百万次转换的轨迹。

4.1.1 环境布局

虚拟场地被创建为一个平方米的方形房间，砖墙高于传感器桅杆，因此结构光图案的反射会返回，虽然复合桌以固定布局放置，但导航目标在每集开始时被随机重新定位，在整个数据采集过程中促成了非平凡的变异性。

4.1.2 机器人平台

模拟机器人保留了TurtleBot3 Waffle Pi的原始质量分布和差速驱动运动学，并保持了图4中的传感器配置。两个Intel RealSense风格的深度相机放置在地面以上处，每个覆盖水平视场，其光轴向外偏航，提供总计的水平覆盖范围。控制命令是连续的，线速度范围为，角速度范围为，物理效应如车轮惯性、控制延迟和库仑摩擦被包括在内，导致机器人在激进转向时偶尔打滑，这与真实观察在性质上相似。机器人足迹尺寸为，碳纤维柱将相机额外延伸，提供了不受桌边阻挡的视野，尽管在碰撞时偶尔仍会发生不稳定性。

4.1.3 动作与观测空间

机器人接收两个维度为的同步深度张量，这种配对提供了视差的时间证据。我们附加本

热点排行

新闻专题