
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于任务的特征压缩方法:通过设备端与边缘端的协同推理实现多模态理解
【字体: 大 中 小 】 时间:2026年03月09日 来源:IEEE Transactions on Mobile Computing 9.2
编辑推荐:
针对大模型边缘推理中传输延迟和计算复杂度高的问题,提出任务导向特征压缩方法,通过聚类和可学习熵模型压缩视觉特征,实验表明可降低52%传输开销和63%系统延迟。
大型多模态模型(LMMs)通过将多模态理解能力与通用的大型语言模型(LLMs)相结合,最近成为了一种强大的工具[1]、[2]。LMMs可以应用于多个领域,包括具身人工智能[3]、智能制造[4]和个人助手[5]。主流LMMs用于视觉输入的架构包括三个组成部分:视觉编码器、特征投影器和LLM[6]、[7]、[8]。视觉编码器通常基于对比语言-图像预训练(CLIP)[9],它将图像块转换为具有语言知识的视觉特征,受益于大规模的图像-文本对预训练。然后,特征投影器将提取的特征映射为视觉令牌,从而弥合了CLIP和LLM之间的差距。最后,LLM处理视觉和文本令牌,并生成自然语言的响应。这种架构利用了CLIP和LLM从大量预训练中积累的先验知识,从而降低了训练成本[6]。然而,基于CLIP的视觉编码器[9]、[10]的一个根本局限性是它们用大量特征表示一个小图像块,导致视觉令牌的数量过多。由于在LLMs中广泛采用的注意力机制的计算复杂度随输入序列长度的增加而呈二次方增长,LLM的自动回归推理会带来显著的延迟。这对于需要低延迟响应和实时交互的应用(例如自主机器人的环境分析[3])尤为重要。此外,大多数推理请求来自计算能力有限的边缘设备。因此,主流的LMM推理流程是将输入数据直接传输到附近的边缘服务器进行处理。然而,在用户设备仅能通过无线网络连接的情况下,通信渠道非常动态,上行带宽往往很紧张。通过这种渠道传输视觉数据会导致显著的延迟,从而妨碍对延迟敏感的任务的执行[11]。因此,数据通信开销和高推理延迟构成了LMM推理的主要设计挑战。