《Pattern Recognition》:Multi-Masking Strategies for Self-Supervised Low- and High-Level Text Representation Learning
编辑推荐:
文本识别中合成数据与真实场景的差距导致模型性能不足,本研究提出多掩码策略(MMS)结合随机块、跨度掩码,在MAE框架下实现低级纹理与高级上下文联合表示,经实验验证在文本识别、分割及超分辨率任务中优于现有自监督方法。
唐正米 | 三井雄人 | 宫崎智也 | 大町信一郎
中国温州温州大学人工智能与先进制造研究所(AIAMI)
摘要
由于真实世界标注数据集的稀缺,大多数现有的文本识别方法都是基于大规模合成数据集进行训练的。然而,合成图像无法真实再现现实世界中的场景,例如不均匀的照明、不规则的布局、遮挡和图像质量下降,这导致在处理复杂的真实世界图像时性能存在差异。最近的自监督学习技术,尤其是对比学习(Contrastive Learning)和掩码图像建模(Masked Image Modeling, MIM),通过利用未标注的真实文本图像来缩小这一领域差距。本研究首先分析了原始的Masked AutoEncoder(MAE),发现随机块掩码主要捕获了低级别的纹理特征,但忽略了高级别的上下文表示。为了充分利用高级别的上下文表示,我们在文本识别任务中引入了随机块状掩码和跨度掩码。这些策略可以遮盖连续的图像块并完全移除某些字符,迫使模型推断单词内字符之间的关系。我们的多掩码策略(Multi-Masking Strategy, MMS)将随机块状掩码、块状掩码和跨度掩码集成到MIM框架中,共同学习低级和高级别的文本表示。经过真实数据的微调后,MMS在各种文本相关任务(包括文本识别、文本分割和文本图像超分辨率)中的表现优于现有的自监督方法。
引言
场景文本识别(Scene Text Recognition, STR)是一项关键任务,它专注于在自然场景中读取文本,并在自动驾驶导航[1]、标志和菜单翻译[2]、基于内容的图像检索[2]等领域有广泛的应用。尽管在深度学习的帮助下,光学字符识别(Optical Character Recognition, OCR)领域取得了显著进展,但由于字体多样、文本形状以及图像捕获时的环境条件不同,STR仍然是一项具有挑战性的任务。大多数现有的文本识别方法都是使用大规模合成数据集进行训练的[3]、[4]、[5],主要是因为真实世界标注数据集的有限性。然而,这些方法难以解决现实世界的问题,因为合成数据和真实数据之间存在领域差距。因此,人们越来越感兴趣于利用自监督学习方法,通过利用未标注的真实图像来预训练文本识别模型。
对比学习和掩码图像建模已被引入作为自监督学习方法。对比学习利用判别性预训练任务(如对不同视图应用数据增强)来提取对增强操作不变的潜在特征。因此,数据增强流程在当前的对比学习中起着重要作用,主要基于剧烈的裁剪、翻转、颜色扭曲和模糊等操作。然而,与用于对象分类的对象图像不同,对象图像表示单一的(语义)属性,而文本图像由一系列字符组成,文本图像的原子元素应该是字符。在序列级文本表示学习方法的背景下,直接应用传统方案中的强几何变换可能会导致不同视图之间的字符对齐问题。为此,SeqCLR[6]将文本图像建模为一系列相邻的图像切片,并水平分割特征以获得多个用于对比学习的比较元素。它还使用了受限的数据增强来保留序列信息。PerSec[7]在低级笔画和高级语义上下文空间引入了分层对比学习,以探索文本图像中包含的视觉和语义属性。CCD[8]提出了一种特征级字符对齐策略,以实现用于对比学习的字符级对比元素。该方法利用了彩色图像的增强矩阵和字符掩码。字符掩码是由自监督字符分割模块生成的,该模块使用K-means的伪标签从未标注的真实图像中提取字符结构。DiG[9]将对比学习和掩码图像建模集成到一个统一模型中。它对对比学习的一个视图应用随机块状掩码,从而同时利用判别性和生成性来进行文本识别。然而,DiG中使用的数据增强流程遵循SeqCLR[6]的方法。
掩码图像建模(Masked Image Modeling, MIM)不需要剧烈的数据增强。然而,掩码策略、掩码比例和块大小对于MAE学习简洁而全面的对象信息至关重要。在对象分类任务的背景下,Kong等人[10]发现MAE[11]中的随机块状掩码在学习高级表示方面面临挑战,通常只能获得相对低级别的表示。这些低级别表示主要捕获纹理信息,可以通过周围可见像素进行预测,例如插值。相反,高级表示包含语义信息,如果不理解图像的含义,则无法有效捕获。文本图像由字符序列组成,其中包含纹理(笔画)和语义(字符)信息。笔画信息是低级别信息,用于明确区分文本前景和背景,而字符信息是高级信息,用于识别单个字符实例。考虑到这些特点,我们认为随机块状掩码不适用于提取高级表示,也无法充分利用掩码图像建模在文本识别中的潜力。
在这项研究中,我们通过考虑文本图像中呈现的独特上下文信息,研究了用于文本识别的高级表示的挖掘方法。字符是具有独立语义意义的原子元素,但当它们组成单词图像时,上下文(语言)信息嵌入在图像中。为了利用上下文信息,我们在MAE框架中研究了随机块状掩码和跨度掩码。块状掩码生成由随机块大小和宽高比组成的掩码,而跨度掩码生成具有多个水平宽度的掩码。与离散遮盖图像块的随机块状掩码不同,块状和跨度掩码可以遮盖连续的块,从而移除一些字符的完整或大部分部分,迫使网络明确学习单词图像中字符之间的上下文信息。此外,我们将随机块状掩码、块状掩码和跨度掩码集成到多掩码策略(Multi-Masking Strategy, MMS)中,以促进低级和高级文本表示的有效和联合学习。图1(b)展示了我们的概念。
本文的主要贡献如下:
1.我们全面研究了自监督文本表示学习中不同的掩码策略,发现随机块状掩码主要捕获低级别的纹理特征,而块状掩码和跨度掩码可以建模高级别的上下文表示。
2.我们提出了一种简单而高效的多掩码策略(Multi-Masking Strategy, MMS),用于文本识别,它结合了随机块状掩码、块状掩码和跨度掩码,从文本图像中共同学习低级别的纹理和高级别的上下文表示。
3.实验结果表明,MMS在各种文本相关任务(包括文本识别、文本分割和文本图像超分辨率)中的自监督表示学习方面具有显著的优势。使用真实数据进行微调后,MMS的性能优于现有的自监督方法。
部分摘录
文本识别
场景文本识别(Scene Text Recognition, STR)预测文本图像中的字符序列,通常是從场景文本图像中的文本区域裁剪出的以文本为中心的图像。在深度学习时代,STR模型通常使用合成数据进行训练[3]、[4]、[12],并分为无上下文(视觉)和有上下文(语言)方法。
无上下文研究关注视觉信息,并基于图像特征直接预测字符,输出字符彼此独立。
方法论
在本节中,我们介绍了用于自监督文本表示学习的多掩码策略(Multiple Masking Strategy, MMS)。遵循掩码-重建范式[11]和自监督学习的一般流程,我们的模型包括一个编码器来提取潜在表示,以及针对各种任务的特定解码器,如文本图像重建、文本识别、文本分割和文本超分辨率。
数据集
未标注的真实数据(Unlabeled Real Data, URD)是一个包含1577万张图像的未标注真实世界数据集。这些文本图像来自Microsoft Azure OCR对Conceptual Caption Dataset2的OCR结果。
合成文本数据(Synthetic Text Data, STD)是一个包含1700万张合成文本图像的数据集,它是Synth90k[3](900万张)和SynthText[4](800万张)的组合。
标注的真实数据(Annotated Real Data, ARD)是一个包含278万张真实世界图像的标注数据集。
结论
在这项研究中,我们提出了一种新的自监督文本表示学习框架,称为多掩码策略(Multi-Masking Strategies, MMS)。受到传统掩码自动编码器(例如,随机块状掩码倾向于仅捕获低级别纹理特征)的限制,MMS将随机块状掩码、块状掩码和跨度掩码集成到一个统一的掩码图像建模(Masked Image Modeling, MIM)流程中。这种设计鼓励模型共同学习细粒度纹理和高级上下文信息。
CRediT作者贡献声明
唐正米:写作 – 审稿与编辑,写作 – 原始草稿,研究,概念化。三井雄人:可视化,方法论,形式分析。宫崎智也:监督,资源,形式分析。大町信一郎:监督,资源,项目管理,资金获取。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:唐正米报告称获得了日本学术振兴会(JSPS)KAKENHI和浙江省的“Pioneer”及“Leading Goose”研发计划的财务支持。如果有其他作者,他们声明没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本工作部分得到了JSPS KAKENHI JP22K12729、JST、CRONOS、日本资助编号JPMJCS24K4以及浙江省的“Pioneer”和“Leading Goose”研发计划(2025C01222)的支持。