基于改进鲸鱼优化算法的多尺度融合注意力增强SwinIR模型在电泳显示文本图像超分辨率与识别中的应用

【字体：大中小】 时间：2026年03月07日 来源：Biomimetics 3.9

编辑推荐：

　　本综述创新性地提出一种基于改进鲸鱼优化算法(IWOA)的多尺度融合注意力增强SwinIR模型(IWOA-MFA-SwinIR)，旨在解决电泳显示器(EPD)因硬件限制导致的文本图像模糊、笔画断裂与识别率低等问题。该模型通过融合通道、空间与门控注意力机制，在SwinIR架构中精确捕捉高频文本细节并抑制背景噪声。同时，利用IWOA自适应优化关键超参数，避免了传统方法的依赖硬件校准与易陷入局部最优等问题。在TextZoom和EPD数据集上的实验表明，模型在PSNR、SSIM与字符识别准确率(CRA)上均达到领先性能，为提升电子纸文本可读性提供了一种不依赖硬件修改的计算机视觉解决方案。

1. 引言

电泳显示器(EPD)，凭借其超低功耗、反射式护眼、柔性与阳光下可读等优势，在电子阅读器、便携设备、电子价签等多个领域得到广泛应用。然而，其固有的硬件局限性，如低分辨率、响应速度慢和显示退化，常导致笔画模糊、对比度低，严重影响了小字号文本的可读性和结构完整性，进而损害字符识别精度。尤其是在中国儿童青少年近视率高企的公共卫生问题背景下，提升电子纸文本视觉质量显得尤为重要。

传统解决方案主要通过优化驱动波形来调节电泳粒子动力学，但这类方法设备依赖性强，需要大量手动校准，且对文本结构细节的鲁棒性有限，易受背景噪声干扰。近年来，基于学习的人工智能(AI)方法被引入EPD领域，如卷积神经网络(CNN)被用于重影检测和波形优化。然而，CNN在建模长程依赖和全局结构信息方面存在局限。Swin Transformer及其在图像恢复中的应用SwinIR模型，通过窗口自注意力和移位窗口策略，在全局依赖建模与局部高效计算间取得了更好平衡。尽管如此，现有基于学习的EPD研究多聚焦于伪影检测或波形选择，而非直接增强显示的文本图像本身，且通常作为硬件干预的辅助模块，无法独立应用于旧式或固定波形的EPD设备。

为此，本文旨在从计算机视觉的感知图像重建角度，提出一种不依赖硬件修改或驱动波形优化的端到端解决方案，以直接提升EPD上渲染的文本图像质量。

2. 相关研究

提升EPD文本图像质量的研究主要围绕驱动波形设计和AI技术应用展开。

2.1. 驱动波形设计

EPD技术自上世纪70年代发展以来，研究者们设计了多种驱动波形以优化性能，如减少驱动时间、降低闪烁、抑制重影等。然而，由于电泳微胶囊中黑白粒子在体积、密度和电荷上的差异，驱动波形设计极易产生重影，严重损害高分辨率图像性能，且此类方法主要调制粒子动力学，而非直接提升视觉信息保真度。

2.2. 用于增强EPD图像分辨率的AI技术

随着AI技术的发展，CNN等模型被用于EPD图像质量增强任务，例如自动检测重影、优化波形查找表(LUT)以实现更精确的灰度重建。Transformer的自注意力机制能捕获全局交互信息，在高级视觉任务中表现优异。Swin Transformer结合了局部窗口注意力和移位窗口策略，而基于其构建的SwinIR模型则在图像恢复任务中实现了性能与效率的良好权衡。

2.3. 用于改进AI模型的元启发式优化算法

现有工作也应用了多种元启发式优化算法（如改进粒子群优化(SMCPSO)、灰狼优化(GWO)）来进一步优化AI模型的超参数，以提升性能。然而，许多算法容易过早收敛于局部最优或需要大量计算时间才能达到全局最优。

综上，现有方法或依赖硬件，或未能充分利用文本语义结构，且缺乏对模型鲁棒性和泛化能力的系统性增强，难以独立、高效地解决EPD文本图像的超分辨率与识别问题。

3. 方法论

为更好地实现EPD文本图像的超分辨率与识别，本文提出了一种新颖的基于改进鲸鱼优化算法的多尺度融合注意力增强SwinIR(IWOA-MFA-SwinIR)模型。其整体流程遵循原始SwinIR的三阶段结构：浅层特征提取、深层特征提取和高质量图像重建。模型以低分辨率(LR)图像(3, 32, 32)为输入，通过嵌入注意力模块和融合机制，最终输出高分辨率(HR)图像(3, 64, 64)。

3.1. 原始SwinIR模型

原始SwinIR模型由三个模块构成。浅层特征提取模块通过单卷积层捕获初始特征；深层特征提取模块由多个残差Swin Transformer块(RSTB)组成，每个块内集成多个Swin Transformer层进行局部自注意力计算，并带有残差连接；高质量图像重建模块融合浅层和深层特征，输出恢复后的图像。相比传统CNN模型，SwinIR的自注意力机制能够基于图像内容自适应分配权重，实现动态卷积效果，并通过移位窗口策略捕获长距离依赖，在保持较低模型复杂度的同时获得优异的重建性能。

3.2. 关键改进模块原理

3.2.1. 通道注意力(CA)模块

为突出与文本语义相关的特征通道并抑制无效背景信息，本研究采用通道注意力模块。它通过对特征图的通道维度进行平均池化和最大池化的统计学习，并通过全连接层学习权重分布，自适应调整不同通道的重要性。其核心表达式涉及对输入特征图F进行全局平均池化(AvgPool)和全局最大池化(MaxPool)操作，再经过权重矩阵W₁、W₂和非线性激活函数处理。

3.2.2. 空间注意力(SA)模块

空间注意力模块旨在聚焦图像中的关键空间位置（如文本边缘），抑制无关背景区域。它通过聚合通道信息来生成空间注意力图，对特征图每个位置进行加权。具体通过沿通道维度应用平均池化和最大池化，将生成的两个二维映射连接后经卷积层生成空间注意力权重图。

3.2.3. 门控注意力(GA)模块

门控注意力机制通过引入门控单元，动态控制信息流，使模型能自适应地选择性地强化或抑制特定特征。它通常通过一个全连接层或卷积层生成门控信号，该信号取值在0到1之间，与原始特征逐元素相乘，实现特征的重校准。

3.2.4. 多尺度融合注意力(MFA)模块

为充分利用Transformer不同层次的特征，本文提出了多尺度融合注意力(MFA)模块。该模块将来自不同深度的特征图（包含浅层纹理信息和深层语义表达）进行自适应加权与融合。通过设计特定的融合路径（例如相加或拼接后接卷积），MFA模块能显著增强模型在复杂文本图像场景下的鲁棒性和泛化性能。

3.2.5. 改进的鲸鱼优化算法(IWOA)

为解决传统鲸鱼优化算法(WOA)易陷入局部最优的问题，本文提出了改进的鲸鱼优化算法(IWOA)。IWOA融合了三种改进机制：基于Sobol序列的种群初始化以提高初始解的质量和多样性；非线性收敛因子调整策略以平衡算法全局探索和局部开发能力；增强的边界处理机制以防止搜索过程中个体溢出有效解空间。IWOA被用于自适应优化MFA-SwinIR模型的四个关键超参数：嵌入维度(d)、注意力头数(h)、学习率(lr)和降维系数(r)。

4. 提出的IWOA-MFA-SwinIR模型

最终提出的IWOA-MFA-SwinIR模型结构，在SwinIR的深层特征提取模块中嵌入了集成的CA、SA、GA注意力机制，并通过MFA模块进行多尺度特征融合。该设计使模型能够精确建模字符边缘，有效抑制冗余信息。随后，利用IWOA对模型超参数进行自动寻优，从而在无需人工调参的情况下，获得鲁棒性强、泛化性能佳的模型配置，直接学习从EPD渲染的低质量文本图像到高质量图像的映射。

5. 实验与评估

为全面评估所提IWOA-MFA-SwinIR模型的性能，在TextZoom和EPD数据集上进行了消融实验和对比实验。

5.1. 消融实验

消融实验验证了各个改进模块的有效性。实验结果表明，引入CA、SA、GA注意力机制以及MFA模块后，模型的峰值信噪比(PSNR)、结构相似性(SSIM)和字符识别准确率(CRA)均逐步提升。最终完整的IWOA-MFA-SwinIR模型取得了PSNR 24.406、SSIM 0.8837、CRA 89.81%的优异性能，证实了各模块贡献的协同作用。

5.2. 对比实验

在对比实验中，将IWOA-MFA-SwinIR模型与多种主流文本图像超分辨率模型进行比较。在TextZoom数据集按难度分成的简单、中等、困难三个子集上，所提模型在PSNR、SSIM和CRA指标上均一致性地优于其他对比模型。与第二名模型相比，PSNR提升约1%，SSIM提升约0.8%，CRA提升约8%。这充分证明了该模型在恢复文本保真度和提高识别率方面相对于主流模型的优越性。

6. 结论与展望

本文提出了一种创新的基于改进鲸鱼优化算法的多尺度融合注意力增强SwinIR模型，用于解决电泳显示器上文本图像的超分辨率与识别问题。模型通过集成多种注意力机制与多尺度融合策略，强化了对文本结构细节的捕捉与背景噪声的抑制；并利用改进的元启发式优化算法自适应搜索最优超参数，增强了模型的鲁棒性。实验结果表明，该模型在多个评估指标上达到了领先水平，为在不修改显示硬件或驱动波形的前提下，从计算机视觉层面提升EPD文本可读性提供了一种有效且通用的解决方案。

未来工作可探索将该框架应用于更广泛的低质量文档图像恢复场景，或进一步研究模型在柔性、可穿戴EPD设备上的实时部署与优化。

热点排行