用于提升360°视频可访问性的音视频大型语言模型(Audio-Visual LLM)
《IEEE Transactions on Circuits and Systems for Video Technology》:Audio-Visual LLM for Augmenting Accessibility of 360° Video
【字体:
大
中
小
】
时间:2026年02月22日
来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
360°视频通过非语言音频增强沉浸感,但听障人群声效可及性不足。本文提出AVLLM-360框架,利用大语言模型跨模态训练实现全景视频内容理解与声效描述生成,并提供混合媒体界面支持个性化定制。实验表明该框架能有效提升听障用户观影体验,在24类360°视频中验证了多模态理解与生成能力。
摘要:
360°视频的创作者利用丰富的非语音元素来提供沉浸式体验。对于观众来说,尤其是对于聋人或听力障碍(DHH)人士而言,这些视频的声音可访问性至关重要。在本文中,我们提出了AVLLM-360,这是一个多模态框架,它使用大型语言模型(LLMs)来理解全景视频内容并提供声音描述,而不仅仅是简单地识别声音类型。AVLLM-360整合了视觉和听觉信息,并利用预训练的LLM进行跨模态训练。我们还实现了一个混合媒体界面,允许用户分层可视化生成的结果,从而在观看360°视频时个性化定制声音描述。我们进行了广泛的实验来评估AVLLM-360在各种视频理解任务中的表现。此外,我们还与12名听力障碍参与者进行了定性研究,使用
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号