基于事件的唇读技术及三平面融合网络(Event-based Lip Reading with Triplane Fusion Network)

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Event-based Lip Reading with Triplane Fusion Network

【字体: 时间:2026年02月27日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  事件相机唇语识别通过三视角融合提升性能。提出TF-Net框架,利用XYT、XT、YT三种互补视角,结合专家模块与跨视角互信息交换机制,有效捕捉唇部运动特征,在DVS-Lip和Modality数据集上分别提升1.6%和2.3%准确率。

  
要查看此由AI生成的摘要,您必须具有高级访问权限。

摘要

摘要

通过事件相机进行唇部识别可以捕捉到细微且相似的唇部动作,具有较大的动态范围和微秒级的延迟,从而比传统的基于帧的相机提供更高的时间分辨率。然而,现有的方法往往忽略了利用独特的唇部动作模式,而是选择适应现有的视频识别架构。在本文中,我们提出了一个名为Triplane Fusion Network (TF-Net) 的事件指定框架,通过从三个不同但互补的视角来分析唇部动作。具体来说,在遵循标准的XYT视角的同时,我们进一步加入了两个额外的视角:XT和YT,旨在利用事件随时间的独特流动特性。由于这三个视角的存在,TF-Net为每个视角都包含了多个专家模块以及用于促进不同视角之间多方向运动信息交换的互信息交换模块。我们观察到这三个视角相互补充,进一步增强了事件指定分布的学习效果。广泛的实验验证了所提出方法的有效性,在真实世界数据集DVS-Lip和合成数据集Modality上,其准确率分别超过了其他竞争方法的1.6%和2.3%。

AI摘要

AI生成的摘要(实验性)

该摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、评估相关性,并帮助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进和未来版本的优化。

要查看此由AI生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号