一种具有可学习颜色恢复和语义引导的多模态图像融合网络：面向实时机器人感知与场景解析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：A Multi-Modal Image Fusion Network with Learnable Color Restoration and Semantic Guidance: Towards Real-Time Robot Perception and Scene Parsing

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　多模态图像融合网络LCSFusion通过语义引导联合训练和可学习颜色恢复策略，解决传统方法在任务对齐、颜色失真和计算延迟问题，实现机器人实时场景解析的SOTA性能。

薛伟民|刘一莎|何国健

大连海事大学信息科学与技术学院，中国大连，116026

摘要

在具身人工智能的背景下，强大的连续感知能力对于机器人在非结构化环境中的导航至关重要，而多模态数据融合显著增强了这一能力。现有的最先进方法通常存在融合-分割任务不对齐、颜色失真和计算延迟等问题，这阻碍了它们在资源受限的机器人平台上进行实时语义场景解析的应用。为了解决这些问题，我们提出了LCSFusion，这是一个轻量级的多模态图像融合网络，它结合了语义引导和可学习的颜色恢复功能。具体来说，LCSFusion首先将RGB图像分解为亮度和色度分量。然后采用双阶段架构：一个内容特征融合子网络将亮度分量与辅助模态特征合成，接着是一个可学习的颜色恢复子网络来重建融合图像。这种策略有效地整合了辅助模态信息，并保持了RGB数据固有的颜色保真度和语义一致性。此外，我们通过联合训练策略集成了一个语义分割网络来监督融合过程。这使得融合模型能够根据语义反馈自适应地优化多模态信息融合，并微调颜色分布，确保生成的图像不仅在视觉上连贯，而且在语义上也具有高区分度，以满足机器人的感知需求。我们的架构专为具身人工智能机器人设计，采用了轻量级设计以最小化计算开销。这种效率使得LCSFusion能够在资源受限的平台上作为高速感知前端运行。实验表明，LCSFusion在图像融合质量和语义分割准确性方面都达到了最先进的水平。

引言

在具身人工智能领域，使机器人能够在非结构化环境中实现强大的感知能力是一个关键挑战。与被动观察系统不同，如自动驾驶汽车和服务机器人这样的具身代理必须持续处理多模态数据。这种能力对于全面的机器人感知和准确的环境解析至关重要，使代理能够在动态环境中做出实时决策。

由于固有的物理限制[1]，依赖单一传感器模态通常是不足的。例如，RGB相机在低光照条件下性能下降，而热传感器缺乏纹理丰富度。因此，多模态数据融合已成为一项关键技术。通过整合来自不同模态（例如热成像、深度感知）的互补信息，融合算法旨在构建一个全面的环境表示，从而提高感知的鲁棒性并促进下游任务（如语义场景解析）[2]、[3]的进行。

为此，基于深度学习的方法，利用卷积神经网络（CNN）和Transformer等先进架构，已成为图像融合的主流方法，因为它们能够利用强大的特征提取能力直接从数据中学习最优的融合策略。然而，在具身感知系统中有效部署这些模型面临三个关键障碍。

首先，传统的融合算法通常作为独立任务运行，优先考虑像素级别的视觉重建而非高级感知的需求。这种关注导致了融合输出与下游场景解析目标之间的差距。因此，虽然生成的图像在视觉上可能看起来很自然，但它们往往缺乏机器人决策所需的关键语义特征。其次，颜色失真仍然是一个重大挑战。这个问题源于严格的内容-颜色分离和恢复方式，其中RGB色度通常直接注入到融合图像中，导致光谱不一致和颜色恢复不准确。这会降低语义分割的性能，因为预先在自然图像上训练的网络严重依赖于RGB分割的先验知识。由此产生的领域偏移会导致相当大的语义混淆。最后，计算限制是具身应用的主要障碍。机器人感知需要高频处理以确保与环境的安全交互。然而，许多最先进的融合模型采用复杂的架构，计算负担重，这在边缘设备上造成了实时性能的瓶颈。高延迟会破坏连续感知循环。

为了解决这些限制，我们提出了LCSFusion，这是一个为具身代理设计的轻量级多模态图像融合网络，作为实时感知前端。LCSFusion通过三种战略设计克服了上述障碍。首先，为了解决传统任务无关范式中固有的融合-分割任务不对齐问题，我们通过联合训练策略引入了语义引导。与独立的融合任务不同，该机制利用来自下游分割网络的反馈来监督融合过程。其次，为了减轻颜色失真，我们通过引入可学习的颜色恢复策略来改进严格的内容-颜色分离范式，从而自适应地重建色度特征。这确保了颜色分布与分割模型的预训练特征空间保持一致，从而保持了语义一致性并防止了由不自然伪影引起的混淆。最后，为了满足具身人工智能系统中连续感知的低延迟要求，我们采用了轻量级和低延迟的设计。我们的方法将推理延迟降至最低，从而无缝支持机器人系统所需的高频感知循环。我们的主要贡献可以总结如下：

章节片段

多模态融合的深度架构

多模态图像融合旨在将来自不同传感器的互补信息整合成一个更具信息量的表示。早期的深度学习方法侧重于设计特定的架构来提取和合并特征。为了更好地处理RGB-T场景中的变化光照条件，PIAFusion [4]引入了一种照明感知注意力机制，根据光照条件自适应地融合特征。为了更有效地建模全局上下文，SwinFusion [5]

方法论

本节详细介绍了提出的LCSFusion框架。我们首先介绍动机，然后描述了整个框架、训练策略和损失函数。

实验设置

为了评估LCSFusion在语义分割和图像融合任务上的性能，我们使用了三个公开可用的数据集：MSRS [4]、MFNet [19] 和 PST900 [20]。具体来说，MSRS数据集包含1,444对高质量的红外可见光对（361对用于测试），专注于带有像素级注释的城市场景。MFNet包含1,569对RGB-T图像（480×640），涵盖了多样的交通条件，其中393对用于测试。最后，PST900包含1,038

讨论

我们发现了LCSFusion的两个主要局限性。首先，我们的方法在极端条件下可能会失败。如图6所示，由于RGB图像中的低光照和模糊，以及红外图像中的弱热辐射，车辆可能会被遗漏。由于两种模态捕获的信息有限，轻量级设计缺乏从这些稀疏输入中恢复语义信息的能力。在未来的工作中，我们计划探索从退化数据中提取有效特征的技术

结论

在本文中，我们提出了LCSFusion，这是一个为实时机器人感知和场景解析量身定制的轻量级多模态融合网络。通过采用可学习的颜色恢复策略和语义引导的联合训练，我们的方法有效地解决了颜色失真和任务不对齐问题，同时最小化了实时机器人应用的计算开销。在MSRS、MFNet和PST900数据集上的实验结果表明，LCSFusion达到了最先进的性能

CRediT作者贡献声明

薛伟民：写作——审阅与编辑，撰写——原始草稿，可视化，验证，软件，项目管理，调查，形式分析，数据管理，概念化。刘一莎：写作——审阅与编辑，监督，资源管理，项目管理，资金获取，概念化。何国健：写作——审阅与编辑，监督，数据管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62473070和U23A20384）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号