基于提示引导选择性频率网络的真实场景文本图像超分辨率研究

《Pattern Recognition》：Prompt-Guided Selective Frequency Network for Real-world Scene Text Image Super-Resolution

【字体：大中小】 时间：2026年01月06日 来源：Pattern Recognition 7.6

编辑推荐：

　　本研究针对真实场景文本图像超分辨率（STISR）中存在的复杂笔画、随机文本分布和多样化退化等挑战，提出了一种提示引导选择性频率网络（PGSFNet）。该网络采用双分支结构，结合自适应频率调制器（AFM）和文本信息增强模块（TIE），有效利用文本内容感知先验和选择性频率信息。研究人员还设计了基于Sobel算子的文本边缘感知损失函数以优化网络。实验结果表明，PGSFNet在Real-CE数据集上实现了×2超分辨率8.75%的PSNR增益和×4超分辨率2.28%的SSIM增益，显著提升了文本图像的视觉质量和可读性，为OCR应用提供了有力支持。

在当今数字化时代，场景文本图像超分辨率（STISR）技术已成为计算机视觉领域的重要研究方向。随着智能手机和监控摄像头的普及，我们每天都会接触到大量低质量的文本图像，如模糊的路牌、低分辨率的文档照片等。这些图像中的文字信息对于自动驾驶、文档数字化、智能安防等应用至关重要。然而，传统的超分辨率方法在面对真实场景中的文本图像时往往力不从心，存在字符笔画细节丢失、边缘模糊、多行文本处理困难等问题。

现有的文本超分辨率方法大多专注于处理纯净文本图像或固定大小的单行文本，这在很大程度上限制了它们的实际应用价值。真实场景中的文本图像往往伴随着复杂的书写笔画、随机的文本分布以及多样化的场景退化，使得传统方法难以取得理想的效果。更为先进的扩散模型虽然在某些方面表现出色，但其迭代去噪和采样过程导致计算开销巨大，训练和推理效率低下，难以应对大规模真实场景文本图像中复杂的布局和多样化退化。

为了解决这些挑战，西安电子科技大学的研究团队在《Pattern Recognition》上发表了一项创新性研究，提出了一种名为提示引导选择性频率网络（PGSFNet）的新方法。这项研究旨在实现重建质量与效率之间的良好平衡，通过显式集成文本内容感知先验和频域细节，使提出的方法能够在保持实用计算效率的同时恢复高质量的文本图像。

PGSFNet的核心创新在于其独特的双头神经网络架构，包含超分辨率分支和提示引导分支。研究人员开发了自适应频率调制器（AFM）模块，该模块能够基于输入文本图像自适应生成拉普拉斯滤波器参数，通过SKNet风格的通道选择机制动态加权不同频带，选择性增强文本相关的局部频率特征。同时，文本信息增强（TIE）模块从文本检测角度提取空间-语义融合特征，为超分辨率过程提供文本内容感知信息。此外，研究团队还设计了基于Sobel算子的文本边缘感知损失函数，利用文本边缘信息约束机制来控制文本场景图像超分辨率网络的优化方向。

在技术方法层面，该研究主要采用了以下几种关键方法：首先，构建了基于Transformer的双分支网络架构，其中超分辨率分支负责图像的整体恢复，提示引导分支则专门提供文本内容感知信息先验。其次，开发了自适应频率调制器（AFM），通过自适应拉普拉斯滤波器和多注意力结构来利用图像中的选择性频率信息。第三，设计了文本信息增强（TIE）模块，结合残差CNN结构和通道注意力Transformer来感知图像中的文本先验。最后，引入了基于Sobel算子的文本边缘感知损失函数，定量测量超分辨率图像中文本边缘的清晰度。实验在两个具有挑战性的真实世界数据集上进行，包括Real-CE和CTR数据集，使用PSNR、SSIM、LPIPS和FID等多种指标进行评估。

方法概述

PGSFNet采用双分支设计，超分辨率分支通过嵌入AFM的Transformer阶段提取和增强场景文本图像特征，提示引导分支则利用TIE模块和Transformer编码器结构获取文本内容感知信息。这种设计使得网络能够同时处理整体图像质量和文本特定特征，在保持计算效率的同时显著提升重建质量。

自适应频率调制器

AFM模块通过自适应生成内容感知的拉普拉斯滤波器来捕捉高频信息，如字符结构和笔画边缘。与传统的FFT-based方法不同，AFM不仅自适应生成滤波器参数，还采用通道选择机制动态加权不同频带，选择性增强文本相关的局部频率特征。该模块首先对输入特征应用高斯滤波提高稳定性，然后通过全局平均池化、卷积层和批量归一化生成自适应拉普拉斯滤波器，最后通过注意力加权融合多通道高频特征。

文本信息增强

TIE模块包含残差CNN子网络和基于通道的Transformer，能够有效提取多尺度空间特征并建模语义依赖关系。该模块通过6个卷积层提取不同感受野的空间信息特征，同时利用Swin Transformer建模字符组件间的上下文关系，最后通过特征融合获得最终文本特征。与依赖预训练文本识别器的方法不同，TIE从文本检测角度提取特征，能更好地处理多行文本和几何失真。

文本边缘感知损失

基于Sobel算子的损失函数通过约束边缘平滑度来提升视觉质量。实验证明，该损失函数能够有效改善重建文本图像的边缘清晰度，与重建损失结合后形成复合损失函数，在保持整体图像质量的同时特别优化文本边缘结构。

研究结果表明，PGSFNet在多个数据集上均表现出色。在Real-CE数据集上，PGSFNet在×2超分辨率任务中取得了20.94/21.75的PSNR值和0.6699/0.6867的SSIM值，在×4超分辨率任务中取得了20.19/20.63的PSNR值和0.6806/0.6937的SSIM值，显著优于其他对比方法。在CTR数据集上，PGSFNet同样表现优异，在×2超分辨率任务中取得了31.42的PSNR值和0.9398的SSIM值。特别是在TextZoom数据集的困难子集上，PGSFNet在没有微调的情况下取得了最佳结果，证明了其优秀的泛化能力。

消融研究进一步验证了各个组件的贡献。AFM模块的加入使PSNR提高了0.08-0.17，SSIM提高了0.0146-0.0149，证明其在捕捉高频细节方面的有效性。Sobel损失函数的引入显著改善了文本边缘质量，而不同上采样方法的比较表明Pixel Shuffle在避免色域失真方面优于Deep Fourier上采样。此外，TIE模块和两种注意力机制（锚点注意力和窗口注意力）都被证明对提升性能至关重要。

这项研究的结论部分强调，PGSFNet通过频率选择和提示引导学习为复杂文本恢复任务提供了一种有效的解决方案。该方法不仅在重建质量上达到state-of-the-art水平，同时保持了计算效率，为场景文本恢复和相关OCR应用提供了实用且可扩展的框架。然而，研究也指出在处理极小或被遮挡文本以及跨语言泛化方面仍存在挑战，这为未来研究指明了方向。

总体而言，这项工作的重要意义在于它成功地将频率域处理与文本内容感知先验相结合，为真实场景下的文本图像超分辨率问题提供了新的解决思路。通过精心设计的网络架构和损失函数，PGSFNet在保持实用性的同时显著提升了文本图像的视觉质量和可读性，为后续的OCR应用奠定了坚实基础。这项研究不仅推动了文本图像超分辨率技术的发展，也为相关领域的实际应用提供了有价值的技术参考。

热点排行

新闻专题