基于任务的特征压缩方法:通过设备端与边缘端的协同推理实现多模态理解

【字体: 时间:2026年03月09日 来源:IEEE Transactions on Mobile Computing 9.2

编辑推荐:

  针对大模型边缘推理中传输延迟和计算复杂度高的问题,提出任务导向特征压缩方法,通过聚类和可学习熵模型压缩视觉特征,实验表明可降低52%传输开销和63%系统延迟。

  

摘要:

随着大型多模态模型(LMMs)的快速发展,多模态理解应用应运而生。由于大多数LMM推理请求来自计算能力有限的边缘设备,主流的推理流程是将输入数据直接转发到边缘服务器进行处理。然而,这种方法由于边缘设备的上行带宽有限以及视觉令牌数量过多而导致了较高的传输延迟和计算延迟,从而影响了对延迟敏感的任务,降低了用户体验。为了解决这一挑战,我们提出了一种基于任务导向的特征压缩(TOFC)方法,用于设备-边缘协同推理框架中的多模态理解。在该方法中,视觉特征通过聚类合并,并在特征投影之前使用可学习的、选择性的熵模型进行编码。具体来说,我们采用基于K最近邻的密度峰值聚类算法来减少视觉特征的数量,从而最小化数据传输和计算复杂度。随后,利用带有超先验的可学习熵模型对合并后的特征进行编码和解码,进一步降低传输开销。为了提高压缩效率,根据视觉特征的特点自适应选择多个熵模型,以实现更准确的概率分布估计。在七个视觉问答基准测试上的综合实验验证了所提出的TOFC方法的有效性。结果表明,与神经压缩ELIC相比,TOFC方法在数据传输开销上降低了52%,系统延迟降低了63%,同时保持了相同的任务性能。

引言

大型多模态模型(LMMs)通过将多模态理解能力与通用的大型语言模型(LLMs)相结合,最近成为了一种强大的工具[1]、[2]。LMMs可以应用于多个领域,包括具身人工智能[3]、智能制造[4]和个人助手[5]。主流LMMs用于视觉输入的架构包括三个组成部分:视觉编码器、特征投影器和LLM[6]、[7]、[8]。视觉编码器通常基于对比语言-图像预训练(CLIP)[9],它将图像块转换为具有语言知识的视觉特征,受益于大规模的图像-文本对预训练。然后,特征投影器将提取的特征映射为视觉令牌,从而弥合了CLIP和LLM之间的差距。最后,LLM处理视觉和文本令牌,并生成自然语言的响应。这种架构利用了CLIP和LLM从大量预训练中积累的先验知识,从而降低了训练成本[6]。然而,基于CLIP的视觉编码器[9]、[10]的一个根本局限性是它们用大量特征表示一个小图像块,导致视觉令牌的数量过多。由于在LLMs中广泛采用的注意力机制的计算复杂度随输入序列长度的增加而呈二次方增长,LLM的自动回归推理会带来显著的延迟。这对于需要低延迟响应和实时交互的应用(例如自主机器人的环境分析[3])尤为重要。此外,大多数推理请求来自计算能力有限的边缘设备。因此,主流的LMM推理流程是将输入数据直接传输到附近的边缘服务器进行处理。然而,在用户设备仅能通过无线网络连接的情况下,通信渠道非常动态,上行带宽往往很紧张。通过这种渠道传输视觉数据会导致显著的延迟,从而妨碍对延迟敏感的任务的执行[11]。因此,数据通信开销和高推理延迟构成了LMM推理的主要设计挑战。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号