基于双流交互式神经架构的顺序视觉词素驱动视觉语音识别

《Neural Networks》:Sequential Viseme-Driven Visual Speech Recognition Through Dual-Stream Interactive Neural Architecture

【字体: 时间:2026年01月13日 来源:Neural Networks 6.3

编辑推荐:

  本研究提出基于序列声素的视觉语音识别双流架构,通过整合粗粒度字符与细粒度声素的多层次特征交互,解决现有方法语义全局性与局部声素细节的平衡问题。实验表明该方法在GRID、LRS2、LRS3和CMLR数据集上达到最优性能,WER低至0.6%,同时验证了声素知识的跨语言泛化能力和抗数据污染的鲁棒性。我们已公开标注数据集和代码库。

  
郝远|张雅坤|张行宇|郑长燕|谢亮|尹二伟
北京大学工程学院,北京100871

摘要

尽管当前的基于深度神经网络的句子级唇读方法在序列到序列预测任务中取得了显著的成功,但它们存在一个根本性的限制:在保持整体语义的同时,往往会牺牲局部细粒度的视觉特征提取,这可能削弱了模型捕捉关键发音细节的能力。本研究通过概念化序列视觉元素知识并开发一种创新的双流架构,引入了一种新的方法。通过整合序列视觉元素动态,该框架增强了序列预测任务中的局部帧和片段注意力,有效解决了细粒度特征保留问题,同时保持了时间连贯性。此外,双流架构充分利用了视觉元素预测的潜力,促进了来自多个路径的粗粒度(字符)和细粒度(视觉元素)信息之间的交互,从而共同提升了唇读性能。我们对多个包含中文和英文的经典句子级唇读数据集进行了精心设计的序列视觉元素注释和全面实验。我们的方法在各项基准测试中表现出优越的性能,要么超越了现有的最先进结果,要么达到了有竞争力的水平。在GRID数据集上的单词错误率(WER)为0.6%,在CMLR数据集上的字符错误率(CER)为9.9%,这是在没有外部数据或预训练知识的情况下取得的最佳性能。对于LRS2和LRS3数据集,在相同的818小时训练数据条件下,我们的方法分别实现了23.3%和28.9%的最先进性能。这些结果证明了我们方法对大规模预训练的鲁棒性,并进一步突出了其与目前具有更多非公开训练数据的顶级模型相比的独特优势。通过系统的实验验证,我们揭示了视觉元素知识在具有挑战性场景中的显著泛化能力,并证实了双流架构在增强模型对抗数据损坏的鲁棒性方面的关键作用。此外,我们阐明了视觉元素知识的基本机制和内在可解释性,这是弥合跨语言差距和提升视觉语音识别整体性能的关键要素。我们将在专门的GitHub仓库中公开发布我们的序列视觉元素注释数据并维护实现代码(https://github.com/clayh24/lipreading-based-on-sequential-viseme),以促进该领域的进一步研究。

引言

视觉语音识别(VSR)通过纯视觉信息解码说话者的内容,最著名的例子是唇读(Biswas等人,2016年;Kaynak等人,2002年;Saitoh等人,2016年;Shillingford等人,2018年;Thiran,2012年;Zimmermann等人,2016年)。当音频模式缺失或受到严重噪声影响时,唇读通过建模唇部运动的图像信息在语音识别中发挥着重要作用(Ahn等人,2024年;Chung等人,2017年;Chung和Zisserman,2016年;Ma, Petridis, Pantic,2021b;Ma, Petridis, Pantic,2022年)。在之前的唇读研究中,研究人员通常只关注唇读视频与目标文本之间的直接映射关系(Afouras等人,2022年;Dupont和Luettin,2000年;Koller等人,2015年;Mishra等人,2021年;Ogri等人,2024年)。然而,这种端到端的建模虽然保留了唇读视频的序列语义,但在一定程度上忽略了细粒度片段的独立信息。我们认为,为了应对唇读等视频语义理解任务,模型应在关注单个帧或片段的局部特征的同时,构建全局时间信息。因此,我们引入了视觉元素的概念,并将其应用于唇读,作为一组渐进的序列信息。
视觉元素是构成唇读视频的多个最小可区分的子序列。作为从唇部图像到语音实例的细粒度桥梁,视觉元素被用来提升唇读性能(Taylor等人,2012年)。视觉元素可以被视为口语中音素的视觉描述。音素是人类语言中最小的声音单位,能够区分意义,而视觉元素是最小的视觉元素,能够区分语音的意义,定义说话者嘴巴的瞬时或短期位置(Bear和Harvey,2017年)。可以认为,所有唇读单词都是由有限数量的视觉元素按顺序连接而成的。因此,可以使用视觉元素作为中介表示来进行唇读,这依赖于细粒度的视觉元素信息。任务可以简化为首先识别每个帧中的视觉元素类别,然后将唇读视频视为各种不同视觉元素的连接。
通过这种方式,视频片段被映射到特定的视觉元素类别,并通过视觉元素与音素(中文拼音)以及音素与文本之间的对应映射关系来实现唇读。通过对有限数量的特定视觉元素类别进行相对高精度的识别,引入了细粒度的时间知识,以提高长序列唇读视频的预测性能。简单来说,通过识别基本库并将所有单词分解为已经见过的基本库的线性组合,可以增强基于视觉元素的唇读模型的整体预测性能的鲁棒性。此外,基于对现有基本视觉元素知识的识别和重组,基于视觉元素的唇读模型提供了将唇读泛化到训练阶段未见单词的可能性,并从特定角度提出了唇读的可解释性。
本研究的基本动机是通过建立粗粒度和细粒度信息之间的交互来提高唇读性能,如图1左侧所示。编码和解码目标字符文本提供了较稀疏的粗粒度表示,而编码和解码目标视觉元素提供了更密集的细粒度表示。目的是让这两种信息流相互作用,以便整个模型能够利用两种建模路径,构成最终解码的最有益的多粒度信息融合表示空间。图1右侧展示了本研究中模型设计的概览,包括基于编码器和解码器基本结构的三个渐进框架。其中,框架是基本的字符预测结构,用作基线比较。框架在框架的基础上引入了基本的视觉元素监督,并初步分析了基本视觉元素作为辅助信息的作用。框架则基于框架独立构建了序列视觉元素预测结构,进一步探索了序列视觉元素信息,并实现了跨粒度信息的交互。详细内容将在后续部分给出。
在这项研究中,我们首次对四种不同语言和不同大小的句子级唇读数据集进行了序列视觉元素注释,并提出了一种基于序列视觉元素的双流交互架构,作为渐进信息,最终在减少训练数据需求的同时获得了有竞争力的结果。另一方面,我们还在视频数据损坏的极端情况下验证了唇读任务,展示了视觉元素在未见单词预测中的有趣效果。此外,我们还发现,由于视觉元素信息在不同样本间的流动性,较少的注释量也能获得与完整标记相似的结果,这支持了视觉元素的实际价值。最后,我们进行了几项实验来回答视觉元素如何促进唇读的可解释性问题。
本研究的贡献可以总结如下:
  • 首次引入了序列视觉元素的概念,并给出了详细的注释策略。在此基础上,我们完成了四个包含中文和英文的句子级唇读数据集的首次序列视觉元素注释。
  • 我们提出了一种基于多路径计算的双流神经架构,旨在充分利用序列视觉元素信息,并有效整合多粒度特征进行句子级唇读。该架构对各种骨干网络具有普遍适应性,并在多个基准数据集上实现了优于现有方法的性能或取得了有竞争力的结果。
  • 通过系统的实验验证,我们揭示了视觉元素知识在唇读中的泛化能力和可解释性。我们的双流架构有效缓解了数据损坏问题,并增强了模型的鲁棒性,同时展示了其在跨语言场景中的知识转移潜力,证明了其不可或缺的价值。
  • 本文的其余部分组织如下。第2节概述了唇读和视觉元素方面的相关工作。第3节介绍了我们用于序列视觉元素获取的方法论细节和提出的双流结构。第4节一方面给出了实验设置和主要结果,另一方面通过多项实验分析和案例研究系统讨论了视觉元素知识在唇读中的泛化和可解释性。最后,我们在第5节给出了结论。

    相关研究

    相关工作

    由于嘴唇的视觉特征在面部特征中的独特位置,它们被广泛用于与面部相关的模式识别任务(?etingül等人,2006年;Kaynak等人,2004年;Travieso等人,2011年)。唇读也有丰富的研究基础。在深度学习时代之前,研究人员通过构建几何关系、手动提取特征并在后端使用隐马尔可夫模型等建模方法实现了初步的唇读(

    方法

    本节讨论了我们提出的用于唇读的双流视觉元素-字符预测架构。如第1节所述,该架构旨在更好地利用与视觉元素相关的先验知识,以在多个粒度层次上利用唇读视频的特征。由于需要在训练阶段引入视觉元素信息,本节将首先描述我们设计的视觉元素注释过程。随后,将介绍所提出的架构。

    数据集

    我们在不同规模和语言的句子级唇读数据集上进行了实验。这些数据集主要包括经典的英文数据集GRID(Cooke等人,2006年)、两个更大规模的数据集LRS2和LRS3,以及一个大规模的中文数据集CMLR,以验证我们方法的有效性和独特优势。此外,我们还围绕GRID进行了一系列分析研究,揭示了视觉元素影响唇读的一些机制。

    结论

    本文系统地讨论了如何通过引入序列视觉元素并设计有效的双流交互结构来充分利用视觉元素知识,从而提高唇读性能。所提出的方法显著提高了句子级唇读的准确性,实验结果在四个基准数据集上要么超越了现有最先进模型,要么达到了有竞争力的性能水平。此外,我们的设计已经证明

    CRediT作者贡献声明

    郝远:写作 – 审稿与编辑,撰写原始草稿,可视化,软件,方法论,调查,数据管理,概念化。张雅坤:写作 – 审稿与编辑,调查,形式分析,概念化。张行宇:写作 – 审稿与编辑,监督,项目管理,调查。郑长燕:写作 – 审稿与编辑,项目管理,调查。谢亮:写作 – 审稿与编辑,资源管理,项目管理,

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作部分得到了中国国家自然科学基金(项目编号62332019)和中国国家重点研发计划(2023YFF1203900,2023YFF1203903)的资助,以及北京Nova计划(20240484513)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号