利用流匹配模型的多模态增强水下图像生成方法

《Digital Signal Processing》:Multimodal enhanced underwater image generation method using flow matching model

【字体: 时间:2026年01月29日 来源:Digital Signal Processing 3

编辑推荐:

  水下图像增强与目标检测协同优化方法MEUIG通过双分支流匹配模型实现图像增强与特征保留,融合模块整合增强图像、原始特征及生成图像的多模态信息,复合损失函数约束像素运动路径、特征差异与重建损失,实验表明在YOLOv11上检测精度较传统方法提升18.8%和9.7%,代码及数据集开源。

  
余海峰|朱长旭|张瑞成|冯彦凯|李新斌
华北科技大学电气工程学院,唐山,063210,中国

摘要

水下图像增强(UIE)方法和水下物体检测(UOD)算法被用于监测海水养殖生物的生长情况。然而,与原始水下图像相比,图像增强会影响物体检测的准确性。本文提出了一种基于流匹配的多模态增强水下图像生成方法(MEUIG),以生成包含物体特征信息的增强型水下图像。首先,设计了一个双分支流匹配模型,该模型包括特征提取分支和图像增强分支。特征提取分支从原始水下图像中提取物体特征信息。图像增强分支中的增强型水下图像是通过颜色线方法实现的。然后,我们提出了一个融合模块来结合不同模态的信息。该模块融合了由流匹配生成的图像、特征信息和增强图像的多模态特征信息。此外,我们还构建了一个特征提取模块来提取原始图像中的物体特征。最后,设计了一个新的损失函数,该函数考虑了像素移动路径、条件图像与输出图像之间的特征差异以及重建损失。定性和定量评估表明,MEUIG在保留原始信息的同时提高了图像质量。与现有的水下增强方法相比,我们的方法在YOLOv11上的检测准确性显著提高。在检测海胆时,MEUIG方法的准确率分别比对比度增强方法高18.8%和9.7%。MEUIG模型及其用于训练的4889数据集的代码可以在以下链接找到:https://github.com/Warmth-0213/MEUIG.git。5455水下物体检测数据集的链接为:https://github.com/Warmth-0213/data1.git

引言

UOD是监测海水养殖生物生长情况、识别海水养殖生物种类以及辅助水下机器人[1]、[2]捕捉海水养殖生物[3]的关键技术。水中的光吸收和散射会导致水下图像质量下降[4]。UIE方法有效地解决了水下图像退化的问题,如颜色偏差校正和雾霾去除[5]。然而,最近的研究表明,UIE会对UOD的准确性产生负面影响[6]。图像增强会导致原始图像中物体特征信息的丢失。UIE和UOD的联合研究有助于在增强图像上实现更好的海水养殖生物检测结果。这些联合研究的方法对现代海水养殖的发展和海洋牧场的建设非常重要。
大多数UIE方法没有考虑UOD的任务要求,导致后续UOD操作的性能显著下降[7]。UIE方法过于关注增强图像的人类视觉感知。例如,通过增强对比度、调整饱和度和抑制图像噪声等方法使图像更加自然。UIE在图像处理过程中改变了原始图像特征信息的分布[8]。与增强后的水下图像相比,原始水下图像上的物体检测结果具有更高的准确性[9]。现有的研究在UIE和UOD之间建立了端到端的联合训练网络,以实现原始水下物体的特征学习[10]。UIE和UOD的联合研究生成的特征信息更符合UOD的任务要求。然而,这种方法存在网络结构复杂和模型收敛困难的问题。一些研究仅在特征层使用UIE模块进行图像增强[11],并利用不同的先验知识来改进模型。但是,依赖先验知识的方法会导致模型的泛化能力不足。上述方法在进行图像增强时没有单独考虑原始水下图像中物体特征的学习。
扩散模型[12]通过独特的“逐步去噪”结合“逐步注入真实特征”来生成图像。生成的图像更加自然,同时保留了更多原始图像的特征信息。扩散方法全局构建了原始数据分布的模型。扩散方法找到从均匀分布的高斯噪声到真实图像的像素移动路径[13]。在通过迭代步骤逐步生成真实图像的过程中,最大限度地保留了原始图像的特征信息。扩散模型将像素移动路径构建为二阶随机微分方程(SDE)。SDE本身包含随机项(噪声项),使得扩散模型在从噪声生成图像的每一步都会受到噪声的干扰。研究人员提出了一个受扩散模型原理和核心优势启发的流匹配模型[14]。流匹配模型将像素移动路径构建为一阶常微分方程(ODE)。ODE不包含随机项,生成的路径是确定性的且平滑的。生成的增强图像具有更好的连续性,有利于保留生成增强图像上的原始特征信息。流匹配模型为后续的UOD任务提供了包含原始特征信息的增强图像。
本文是我们之前论文MABO[15]研究的延续。在MABO的研究中,我们发现水下图像增强会降低水下物体检测的性能,因为水下图像增强改变了原始图像中的物体特征分布。在之前的工作中,通过同时改进增强和检测模块,增强图像上的检测性能与原始图像上的检测性能相当。基于这一发现,本文进一步研究了水下图像增强仅从水下图像增强的角度会降低水下物体检测性能的现象。
流匹配模型在之前的研究中已被广泛讨论。现有的流匹配模型方法通常采用单路径生成模式,并没有建立物体特征与增强过程之间的明确关系。此外,大多数基于流匹配或扩散模型的方法仅在后期或早期阶段进行特征融合,这不利于保留和学习原始水下图像中的特征信息。本文提出了一种基于流匹配的多模态增强水下图像生成方法(MEUIG)。MEUIG不同于基于随机高斯噪声的传统流匹配模型。我们的方法直接使用原始水下图像作为流匹配模型的初始分布,并利用图像结构信息明确约束轨迹的生成。我们设计了一个融合模块,该模块融合了增强型水下图像、原始图像特征信息和由流匹配模型生成的图像的多模态信息。与仅在输入或输出阶段进行融合的现有方法不同,融合模块嵌入在流匹配模型内部,并参与MEUIG每个时间步的迭代训练。我们的方法学习了原始图像特征信息。在生成增强型水下图像的过程中,减轻了UIE对UOD的不利影响。在相同的YOLOv11设置下,MEUIG方法的检测准确性优于现有的UIE方法。我们还为所提出的框架制定了相应的损失函数。MEUIG方法生成的增强型水下图像如图1所示。MEUIG的贡献如下:
  • 1.
    设计了一个双分支流匹配模型,包括特征提取分支和图像增强分支。特征提取分支从原始水下图像中提取物体特征信息。图像增强分支中的增强型水下图像是通过颜色线方法[16]实现的。跳过连接结构被设计为在每个时间步骤直接参与图像生成过程,从而减少了图像生成过程中特征信息的丢失。双分支流匹配模型在生成增强型水下图像的同时学习了原始图像特征信息。
  • 2.
    我们提出了一个基于变压器的融合模块。该模块融合了由流匹配生成的图像、原始物体特征信息和增强图像的多模态特征信息。该融合模块与其他仅在输入或输出阶段进行特征融合的水下图像增强方法不同。融合模块嵌入到MEUIG模型的流匹配过程中,使得多模态信息在每个时间步骤的训练中得到充分利用。跳过连接操作用于连接连续阶段之间的融合模块,确保特征信息在整个生成过程中得到保留和传播。
  • 3.
    我们构建了一个特征提取模块来提取原始图像中的物体特征。特征提取模块的输入是原始水下图像。两个连续的Swin-T块提取特征。在Swin-T块之前引入了MobileNetv3块以降低模型的计算复杂性。我们引入了一个复合损失函数来更好地约束模型。损失函数包括条件流匹配损失、图像重建损失、条件图像一致性损失和条件特征一致性损失。通过损失函数,我们的方法在图像和特征层面实现了联合监督。

相关工作

相关工作

近年来,研究人员发现水下图像增强会导致水下物体检测的准确性下降。水下图像增强与水下物体检测的联合研究引起了广泛关注。本节简要回顾了这些研究的相关工作。

提出的方法

本节首先概述了MEUIG的架构和MEUIG中每个步骤的生成过程。随后详细解释了流匹配的基本原理、融合模型的工作原理以及特征提取的工作原理。最后介绍了损失函数的计算过程。

实验

本节详细介绍了实验设置和结果分析。我们首先描述了使用的数据集和实验配置。然后,介绍了比较方法和评估指标。在实验部分,我们首先进行消融实验以验证所设计模块对模型整体性能的影响。其次,我们进行水下图像增强实验以验证我们的方法在改善人类视觉感知方面的性能。

结论

水下图像增强改变了原始的结构特征,降低了水下目标检测的准确性。本文提出了MEUIG,以提高人类视觉感知并减轻水下图像增强对水下物体检测的负面影响。我们在改进的双分支流匹配模型中添加了特征提取模块和融合模块。MEUIG方法生成了增强型水下图像,并减轻了UIE对UOD检测的影响。

CRediT作者贡献声明

余海峰:论文的撰写和工作流程的总体结构。朱长旭:手稿的修订、内容修改、相关实验。张瑞成:论文撰写和实验过程中的监督和指导。冯彦凯:手稿的修订、内容修改、相关实验。李新斌:论文撰写和实验过程中的监督和指导。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号