用于提升360°视频可访问性的音视频大型语言模型（Audio-Visual LLM）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems for Video Technology》：Audio-Visual LLM for Augmenting Accessibility of 360° Video

【字体：大中小】 时间：2026年02月22日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　360°视频通过非语言音频增强沉浸感，但听障人群声效可及性不足。本文提出AVLLM-360框架，利用大语言模型跨模态训练实现全景视频内容理解与声效描述生成，并提供混合媒体界面支持个性化定制。实验表明该框架能有效提升听障用户观影体验，在24类360°视频中验证了多模态理解与生成能力。

摘要：

360°视频的创作者利用丰富的非语音元素来提供沉浸式体验。对于观众来说，尤其是对于聋人或听力障碍（DHH）人士而言，这些视频的声音可访问性至关重要。在本文中，我们提出了AVLLM-360，这是一个多模态框架，它使用大型语言模型（LLMs）来理解全景视频内容并提供声音描述，而不仅仅是简单地识别声音类型。AVLLM-360整合了视觉和听觉信息，并利用预训练的LLM进行跨模态训练。我们还实现了一个混合媒体界面，允许用户分层可视化生成的结果，从而在观看360°视频时个性化定制声音描述。我们进行了广泛的实验来评估AVLLM-360在各种视频理解任务中的表现。此外，我们还与12名听力障碍参与者进行了定性研究，使用

热点排行

新闻专题

联系信箱：

粤ICP备09063491号