DM-SR:基于扩散的多模态语义恢复技术在语义通信系统中的应用

《Pattern Recognition》:DM-SR: Diffusion-based Multimodal Semantic Restoration within Semantic Communication Systems

【字体: 时间:2026年03月02日 来源:Pattern Recognition 7.6

编辑推荐:

  语义通信中提出DM-SR框架,通过语义提取知识库(SE-KB)与恢复知识库(SR-KB)的协同工作,利用多模态大模型提取高阶语义特征并基于扩散模型进行高质量图像恢复,显著提升通信受限下的语义重建效果。

  
刘磊|邢家正
中国西北工业大学宇航学院

摘要

语义通信旨在通过利用发送方和接收方之间预先共享的知识,以最小的通信成本传输与任务相关的语义信息。其中,语义恢复是從高度压缩的传输中恢复有意义内容的关键下游任务。最近的人工智能驱动的知识库在获取广泛的世界知识方面表现出强大的能力,这为打破由有限编码信息造成的性能瓶颈提供了潜力。然而,大多数现有的语义通信方法没有充分利用这些知识库,主要依赖低级别的编码信号进行重建。为了解决这个问题,我们提出了一个基于扩散的多模态语义恢复框架(DM-SR)。DM-SR整合了两个人工智能驱动的知识库:一个用于从原始图像中提取多模态高级语义的语义提取知识库(SE-KB),以及一个利用结构和纹理先验在提取的语义信息基础上重建压缩图像的语义恢复知识库(SR-KB)。通过联合利用传输的特征和外部语义知识,DM-SR在通信限制下显著提高了语义恢复的质量。在遥感数据集上的广泛实验验证了所提出框架的有效性。

引言

仅使用最少的数据在通信中传输丰富的语义信息是一个活跃的研究领域,即语义通信(SC)[1]、[2]、[3]、[4]、[5]。通常,SC系统由三个组件组成:编码器、解码器和知识库。具体来说,编码器用于压缩传输的信息,而解码器用于解释接收到的传输并恢复原始数据。与传统的通信系统不同,额外的知识库可以理解和推断语义信息。它可以根据从大量世界知识中学习到的知识来获取传输信息的先验知识。在这项工作中,我们使用常见的下采样作为编码器。我们的主要目标是利用知识库与编码的传输信息相结合,以最大化压缩图像的语义级恢复,这是评估语义通信系统的基本下游任务,称为语义恢复(SR)。
随着人工智能的快速发展,提出了许多基于人工智能的语义通信方法。然而,大多数现有方法,如TOSCN [3]、DeepSC-ST [2] 和 DeepJSCC-V [4],主要依赖于编码器-解码器架构来提取和解释低级语义信息,即像素级特征,而知识库在利用高级语义信息方面的潜力仍然很大程度上未被探索。由于编码过程不可避免地会导致信息丢失,仅依赖编码信号进行重建会带来明显的性能瓶颈,这在严重的通信限制下从根本上限制了恢复质量。最近在多模态模型方面的进展展示了在理解和推理多模态数据方面的强大能力,产生了捕捉丰富世界知识的高级语义表示。这一观察促使我们将此类模型引入语义通信系统作为外部知识库,以提高语义恢复的质量上限。从这个角度来看,语义恢复不应仅依赖于低级语义信息,还应利用从共享知识库中检索到的高级语义线索,即使在传输的信息严重退化时也能实现语义上的一致恢复。
我们认为,在语义通信系统中,发送方和接收方之间共享的知识库可以概念性地分为两类:一类是从原始数据中提取语义信息,另一类是从压缩数据中恢复语义信息。对于语义提取,可以使用多模态大规模模型(如Tag2Text [6]、BLIP [7] 和 RAM [8])从原始高分辨率图像中获取高级语义信息,这些模型可以从视觉输入生成语义属性和文本描述。对于语义恢复,现有的语义通信方法 [1]、[3]、[4] 通常使用卷积神经网络(CNN)作为直接重建模块,而没有明确将它们视为知识库。相比之下,我们利用预训练的扩散模型(例如 Stable Diffusion [9])作为语义恢复知识库,这些模型从大规模真实世界数据集(如 ImageNet [10] 和 FFHQ [11])中学习到了丰富的结构和纹理先验。此外,基于主体的扩散模型 [12]、[13]、[14] 通过条件引导实现可控的生成,确保恢复的图像与原始内容之间的语义一致性。与基于 CNN 的解码器相比,基于扩散的模型可以利用它们的先验知识来恢复语义相关的结构,即使压缩信号极其有限。
基于上述观察,我们提出了一个新颖的基于扩散的多模态语义恢复框架,称为 DM-SR,用于语义通信系统。DM-SR 不是引入新的骨干模型,而是关注一种新的语义通信公式和知识库的系统级集成。具体来说,我们将框架明确分解为两个组件:一个语义提取知识库(SE-KB)和一个语义恢复知识库(SR-KB),它们在语义传输和恢复中扮演不同的角色。SE-KB 负责从原始图像中提取和压缩多模态高级语义信息,包括语义特征和标签式提示,这些信息与压缩图像一起传输,以减少通信开销,同时保留必要的语义信息。SR-KB 作为语义解码器,在恢复过程中通过联合利用传输信号和外部语义先验来补偿信息丢失。在我们的实现中,我们采用 RAM [8]、ControlNet [12] 和 GLIGEN [13] 作为 SE-KB 和 SR-KB 的代表性实例,以证明所提出框架的有效性。这些模型在统一的语义通信框架内被重新利用,而不是独立使用。我们提出以下贡献:
  • 我们提出了一个基于扩散的多模态语义恢复框架 DM-SR,通过系统级集成知识库引入了一种原则性的语义通信公式。
  • 我们将框架明确分解为语义提取知识库(SE-KB)和语义恢复知识库(SR-KB),在通信限制下为语义提取、传输和恢复分配互补的角色。
  • 在遥感数据集上的广泛实验表明,我们的方法可以实现出色的性能。
  • 部分摘录

    语义通信

    大多数语义通信(SC)系统采用带有共享知识库的编码器-解码器架构,其中编码器将源数据压缩成语义表示,解码器使用接收到的特征和先验知识重建与任务相关的信息。早期的基于深度学习的 SC 方法 [2]、[3]、[4]、[5] 主要关注学习紧凑的语义表示,但受到编码引起的信息丢失和有限性的固有约束

    概述

    在这封信中,我们提出了一个名为 DM-SR 的新颖框架,用于语义通信系统中的有效语义恢复。我们使用常见的下采样作为编码器来压缩原始图像以进行传输,并专注于利用传输的信息和共享的知识库在语义层面恢复图像。如图 1 所示,所提出的 DM-SR 包括两个关键组件:1)语义提取知识库(SE-KB)和 2)语义恢复知识库

    实验设置

    数据集。我们在一个包含 15,000 张图像的大规模遥感数据集上进行了广泛的定性和定量评估,这些图像涵盖了各种真实世界场景,包括机场、海港、城市地区和农村地区等复杂环境。数据集被分为 12,000 对用于训练,3,000 对用于测试,以确保评估的公平性和可靠性。每张原始图像的分辨率为 512×512,并沿两个方向下了四倍的比例

    结论

    在这封信中,我们提出了一个基于扩散的多模态语义恢复框架 DM-SR,用于在通信限制下的语义恢复。核心贡献在于整合了两个人工智能驱动的知识库:一个语义提取知识库(SE-KB)和一个语义恢复知识库(SR-KB)。SE-KB 从原始图像中提取多样化的语义线索,包括高级语义特征和标签式提示,而 SR-KB 利用这些语义信息

    CRediT 作者贡献声明

    刘磊:撰写——原始草稿、可视化、软件、方法论、形式分析、数据整理、概念化。邢家正:撰写——审阅与编辑、验证、监督、资源、调查、形式分析。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号