通过跨模态对齐和图卷积实现手语翻译
《Neurocomputing》:Sign language translation via cross-modal alignment and graph convolution
【字体:
大
中
小
】
时间:2026年02月05日
来源:Neurocomputing 6.5
编辑推荐:
跨模态对齐预训练结合动态双图时空聚合模块,提出无标注签字语翻译框架CMAG-Net。通过CMAE嵌入器同步优化语义重建与分布对齐损失,构建手势时序图与相似性图,抑制冗余帧干扰,提升翻译准确率与流畅度。实验表明,在PHOENIX-2014T等数据集上,BLEU-4较GFSLT-VLP提升5.19/5.95,接近有标注方法MMTLB的0.37/0.22差距。
明宇|张鹏飞|薛翠红|郭英春
河北工业大学人工智能学院,中国天津市西平路5340号,300401
摘要
手语翻译(SLT)将手语视频转换为文本句子。这一过程对于实现聋人和听力正常者之间的交流至关重要。然而,视觉手势序列与文本语言学之间的固有模态差异严重限制了翻译效果。现有方法依赖于昂贵的注释数据进行中间监督,从而限制了可扩展性;无监督方法则缺乏细粒度对齐或语义学习能力。为了解决这个问题,我们提出了CMAG-Net框架,该框架结合了跨模态对齐预训练和动态图卷积技术。该架构包含两个模块:(1)跨模态对齐预训练模块,通过多目标损失函数进行优化,能够在没有注释监督的情况下学习将视觉特征与文本语义对齐;(2)动态双图时空模块,包括一个用于捕捉局部手势动态的时间图和一个用于聚合全局语义关系的相似性图。这种设计能够抑制噪声、增强区分性特征,并解决冗余帧和复杂时空依赖性的问题。实验表明,CMAG-Net在PHOENIX-2014T、CSL-Daily和How2Sign数据集上的表现优于所有无注释方法,接近基于注释的最先进水平。与GFSLT-VLP(无注释方法)相比,在PHOENIX-2014T的开发/测试集上,BLEU分数提高了5.19分和5.95分;与基于注释的MMTLB相比,BLEU分数差距缩小到了0.37分和0.22分。
引言
手语作为聋人社区的主要交流方式,依赖于手势和面部表情等多模态信息的序列组合来表达意义[1]、[2]。为了解决聋人与听力正常者之间的交流障碍,手语翻译(SLT)旨在将手语视频转换为文本句子。近年来,随着CLIP和大型语言模型研究的不断进步,SLT领域受到了越来越多的关注[3]、[4]。
手语视频(视觉模态)和文本句子(语言模态)在语法和表达上存在固有的结构差异。这种模态差异对手语翻译构成了根本性挑战。以往的研究主要使用人工注释的术语表作为中间桥梁[5]、[6]。然而,创建此类注释数据集非常耗时,并且由于依赖注释而限制了模型的可扩展性。这一限制促使人们转向无注释的翻译方法。
当前最先进的无注释方法通过将视频与文本对齐[7]或使用伪标签[8]来增强语义信息。然而,参考文献[7]仅依赖于粗粒度的句子级对齐,而文献[8]中的伪标签缺乏注释的监督强度。因此,这两种方法都无法有效弥合模态差异。此外,手语手势包含连续的动作序列,需要动态建模来整合时间信息。然而,手语视频中存在大量冗余帧和高度相似的特征,这使得传统的卷积神经网络(CNN)难以从噪声中分离出关键动作,从而导致时空建模不足和翻译准确率/流畅性降低。
为了解决这些限制,我们提出了跨模态对齐图网络(CMAG-Net),这是一个结合模态对齐和动态双图建模的无注释手语翻译框架。CMAG-Net通过两种核心机制运作:
- •
跨模态知识对齐预训练阶段,采用联合优化策略。该阶段结合了文本语义重建和模态分布对齐损失,使嵌入器能够在没有注释监督的情况下学习文本语义,从而有效弥合模态差异。
- •
动态双图时空模块,用于减少冗余帧干扰和分散的语义特征。时间图使用动态掩码卷积来聚合相邻帧,捕捉局部手势连续性;相似性图通过基于余弦相似性的节点选择来整合全局语义关系,从而明确建模时空依赖性,抑制噪声并增强关键语义。
简而言之,该方法引入了一种在手语理解中实现视觉和文本特征之间模态知识对齐的方法,消除了对注释的需求。通过构建手势时间图来捕捉局部时间序列和手势相似性图来建模语义特征关系,该方法有效地学习了手语表示。在公共数据集上的实验验证了CMAG-Net的有效性。值得注意的是,CMAG-Net的性能与基于注释的方法相当,取得了稳健的结果。
本文的主要贡献如下:
- •
我们提出了跨模态对齐图网络(CMAG-Net),这是一个无注释的手语翻译框架,解决了三个基本挑战:手语视频与文本之间的模态差异、视频帧中的时间冗余以及复杂的时空依赖性。
- •
我们提出了跨模态对齐嵌入器(CMAE),该模块在预训练阶段通过多目标损失函数进行联合优化,能够自适应地减少视觉和文本模态之间的分布差异,同时将丰富的语义知识转移到视频特征中。
- •
动态双图时空聚合模块(DDSAM)用于构建手势时间和相似性图,以捕捉局部动态和全局特征关系,抑制冗余帧干扰。
本文的其余部分结构如下:第2节全面概述了相关工作。第3节详细介绍了CMAG-Net框架,包括CAP的设计原则、手势时间图和手势相似性图的构建方法以及端到端微调策略。第4节通过消融实验、定性结果展示和对比实验验证了该模型在PHOENIX14T、CSL-Daily和How2Sign数据集上的有效性,并探讨了关键参数和模块的影响。第5节总结了本文的内容。
相关研究
相关研究
手语处理包括两个核心任务:手语识别(SLR),即将手语视频转换为术语表序列[9]、[10]、[11];以及手语翻译(SLT),即将手语视频转换为相应的口语文本。根据是否使用注释,SLT可分为基于注释的和无注释的两种类型。
基于注释的手语翻译(SLT)方法。手语和文本之间存在显著的语义差异
提出的方法
在本节中,我们介绍了跨模态对齐图网络(CMAG-Net),如图1所示。该框架分为两个主要阶段:首先,预训练跨模态对齐嵌入器(CMAE),以捕捉文本语义并减少手语视频与文本之间的模态差异;然后,将CMAE与视觉编码器结合使用,动态双图时空聚合模块(DDSAM)处理手语视频。
数据集和评估指标
数据集实验使用了三个公共数据集:PHOENIX-2014T [12]、CSL-Daily [15] 和 How2Sign [46]。消融研究仅使用了CSL-Daily。
PHOENIX-2014T是一个来自天气预报的德语手语识别数据集,包含8247个带注释的句子(1085个手语词汇项),分为7096个训练样本、519个验证样本和642个测试样本。
CSL-Daily关注中文手语的日常话题,包含20,654个手语视频及其中文翻译(词汇量:2343个
结论
本文提出了CMAG-Net,这是一个结合跨模态对齐预训练和图卷积架构的手语翻译框架。通过跨模态知识对齐预训练,我们减少了手语视觉特征和文本特征之间的模态差异,从而提高了手语翻译性能。此外,通过构建手势时间图和手势相似性图,并结合图卷积网络来整合上下文信息
CRediT作者贡献声明
明宇:项目监督和管理。张鹏飞:撰写初稿、方法论、研究、形式分析、数据整理、概念化。薛翠红:撰写与编辑、监督。郭英春:撰写与编辑、监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了中国国家自然科学基金(项目编号62276088)、河北省自然科学基金(项目编号F2023202072、F2024202017)、中央引导地方科技发展基金(项目编号246Z0106G)以及天津市企业科学技术委员会项目(项目编号24YDTPJC00430)的支持。
明宇1986年获得中国北京邮电大学学士学位,1989年获得河北工业大学硕士学位,1999年在中国北京工业大学获得通信与信息系统博士学位。他目前是河北工业大学的教授,研究方向包括图像视频理解、智能媒体处理和模式识别。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号