用于提升360°视频可访问性的音视频大型语言模型(Audio-Visual LLM)

《IEEE Transactions on Circuits and Systems for Video Technology》:Audio-Visual LLM for Augmenting Accessibility of 360° Video

【字体: 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  360°视频通过非语言音频增强沉浸感,但听障人群声效可及性不足。本文提出AVLLM-360框架,利用大语言模型跨模态训练实现全景视频内容理解与声效描述生成,并提供混合媒体界面支持个性化定制。实验表明该框架能有效提升听障用户观影体验,在24类360°视频中验证了多模态理解与生成能力。

  

摘要:

360°视频的创作者利用丰富的非语音元素来提供沉浸式体验。对于观众来说,尤其是对于聋人或听力障碍(DHH)人士而言,这些视频的声音可访问性至关重要。在本文中,我们提出了AVLLM-360,这是一个多模态框架,它使用大型语言模型(LLMs)来理解全景视频内容并提供声音描述,而不仅仅是简单地识别声音类型。AVLLM-360整合了视觉和听觉信息,并利用预训练的LLM进行跨模态训练。我们还实现了一个混合媒体界面,允许用户分层可视化生成的结果,从而在观看360°视频时个性化定制声音描述。我们进行了广泛的实验来评估AVLLM-360在各种视频理解任务中的表现。此外,我们还与12名听力障碍参与者进行了定性研究,使用
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号