用于神经视频压缩的双尺度变换器及可变比特率同步技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Dual-Scale Transformer with Variable Bitrate Synchronization for Neural Video Compression

【字体：大中小】 时间：2026年03月16日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　神经视频压缩通过改进自注意力机制和跨门控前馈网络提升编码效率，采用变量比特率同步策略优化训练，实验显示性能优于现有SOTA方法和H.266/VVC标准。

要查看此由人工智能生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

神经视频压缩（NVC）作为一种提高率失真性能的有前景的方法已经出现。然而，现有的神经视频编解码器主要依赖于具有有限局部感受野的卷积神经网络（CNN）来生成潜在表示，常常忽略了全局-局部空间相关性。这导致潜在空间中的特征建模不理想且存在冗余。为了解决这一限制，我们提出了一种专门为NVC设计的新颖的双尺度变换器（DST）模块，该模块有效提升了编码效率。DST模块结合了全局-局部（偏移）窗口自注意力（GL(S)WSA）机制，以同时捕获全局结构信息和局部纹理细节。此外，我们设计了一个交叉门控前馈网络（CGFFN）来适应性调节互补组件，从而产生更紧凑且更具表现力的潜在表示。为了克服传统异步训练的缺点并进一步提高率失真性能，我们引入了一种可变比特率同步（VBRS）策略，该策略利用多GPU并行训练，每个GPU负责特定的比特率，并通过梯度反向传播进行联合优化。实验结果表明，与之前的最先进方法（SOTA）相比，我们提出的方法在各种低延迟B（LDB）编码配置下实现了更高的编码性能，并且显著优于H.266/VVC（VTM-13.2）。

人工智能摘要

人工智能生成的摘要（实验结果）

此摘要是使用自动化工具生成的，并非由文章作者编写或审核。它旨在帮助发现、评估相关性，并协助来自相关研究领域的读者理解该工作。它旨在补充作者提供的摘要，后者仍然是论文的主要摘要。完整文章是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的通俗语言摘要，您必须具有高级访问权限。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号