请描述这张图片：基于听觉掩蔽效应的可逆网络，用于渐进式的音频图像隐写技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Information Security and Applications》：Say the image: Auditory masking effect-driven invertible network for progressive image-in-audio steganography

【字体：大中小】 时间：2026年02月05日 来源：Journal of Information Security and Applications 3.7

编辑推荐：

　　提出基于听觉掩蔽效应的可逆神经网络HIA-Net，分两阶段实现高隐蔽性图像嵌入：首先通过掩码音频提取算法生成高掩蔽能力音频，再利用可逆子网络分阶段嵌入图像并重构原始音频，显著提升PSNR至3.0dB以上。

Jinghang Song|Fangyuan Gao|Xin Deng|Shengxi Li|Mai Xu

北京航空航天大学网络科学与技术学院，中国北京100191

摘要

在本文中，我们提出了一种基于听觉掩蔽效应的可逆网络，用于在音频信号中隐藏图像，该网络被称为HIA-Net。与直接隐藏方式不同，所提出的HIA-Net将音频中的图像隐藏过程分解为两个级联阶段。在第一阶段，我们开发了一种掩蔽音频提取（MAE）算法，将原始的封面音频转换为掩蔽音频。生成的掩蔽音频具有更高的掩蔽能力，从而提高了隐藏的隐蔽性和安全性。然后，我们设计了三个音频中的图像可逆（I-AI）子网络，将秘密图像嵌入到掩蔽音频中，生成隐藏掩蔽音频。在第二阶段，使用音频中的音频可逆（A-AI）子网络进一步将隐藏掩蔽音频隐藏在原始封面音频中，得到最终的隐藏音频。在恢复过程中，所提出网络的可逆架构首先从最终隐藏音频中重建隐藏掩蔽音频，然后从隐藏掩蔽音频中恢复隐藏的图像。实验结果表明，HIA-Net的性能显著优于其他先进的音频中的图像隐藏方法，在不同的图像和音频数据集上，秘密图像的PSNR提高了3.0分贝以上。用户研究也证实了隐藏音频的优越的不可察觉性。软件代码可在以下链接获取：https://github.com/c4Tch3r/HIANet

引言

音频中的图像隐藏技术旨在将二维（2-D）图像嵌入到一维（1-D）音频中，而不引起怀疑。发送者使用嵌入方法将秘密图像隐藏在封面音频信号中，生成与封面音频无法区分的隐藏音频。然后，隐藏音频被发送给接收者，接收者使用相应的提取方法恢复秘密图像。由于音频信号的隐藏容量非常有限，音频中的图像隐藏是一项具有挑战性的任务。传统的音频隐藏方法是基于人类听觉系统（HAS）的特性开发的。声学特性，如听觉掩蔽效应[1]、音调插入[2]、相位编码[3]和复杂心理声学模型[4]被用来确定隐藏秘密信号的最佳位置。其他代表性的工作源自最小有效位（LSB）算法[5]、[6]、[7]，这些算法通过修改封面音频中最不易察觉的位来嵌入秘密信息。此外，还有一些研究提出在频谱域[8]、[9]和小波域[10]、[11]、[12]中嵌入秘密信息，以减少听觉差异。然而，这些手工制作的基于嵌入的方法通常具有有限的隐藏容量，只能隐藏少量的秘密信息。

最近，随着深度学习的进步，神经网络已被应用于多媒体隐藏技术。与传统的手工制作方法不同，这些可学习方法通过网络训练隐式地执行隐藏和恢复过程。例如，Kreuk等人[13]将短时傅里叶变换（STFT）纳入到音频中的音频隐藏的编码器-解码器架构中。为了提高不可察觉性，Yang等人[14]、Wu等人[16]、Chen等人[17]、Jiang等人[18]、Li等人[19]提出了生成式隐藏方法来进行自适应隐藏。然而，这些方法往往忽略了人耳的听觉体验。为了解决这个问题，引入了心理声学模型[20]、[21]、[22]和音频耦合技术[23]来减少数据嵌入引起的感知失真。虽然这些方法强调不可察觉性和抗检测能力，但它们的恢复性能通常不足。为了解决这个问题，采用了基于流的模型，如可逆神经网络（INNs）[24]，通过高度可逆的网络结构进行隐藏和恢复。此外，一些研究还探索了跨媒体隐藏技术，例如在音频信号中隐藏图像或视频。例如，Yang等人[25]和Paul等人[26]使用基于流的生成模型利用潜在表示在封面音频中隐藏视频帧或图像。Cui等人[27]提出了一种多阶段残差网络用于音频中的图像隐藏。然而，该网络的恢复性能仍然不令人满意。

总体而言，现有音频隐藏方法的局限性可以总结如下：（1）大多数当前方法[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]主要设计用于在音频中隐藏二进制数据或音频信号，对于音频中的图像隐藏的容量有限；（2）现有的音频中的图像隐藏方法[25]、[26]、[27]在隐藏和恢复性能之间存在明显的权衡，即隐藏质量的提高往往会导致恢复质量的下降，反之亦然。

为了解决这些局限性，我们提出了一种基于可逆神经网络（INN）的渐进式音频中的图像隐藏框架，即Hiding Image in Audio Network（HIA-Net）。图1展示了我们HIA-Net的流程。如图所示，隐藏过程由两个阶段组成。当网络工作时，使用基于掩蔽效应理论的掩蔽音频提取（MAE）算法生成掩蔽音频，该掩蔽音频在此阶段充当封面音频。这个掩蔽音频包含具有高掩蔽能力的音频片段，而原始封面音频中保留了低掩蔽能力的听觉细节，以防止在第一阶段嵌入过程中发生退化。然后在第一隐藏阶段（音频中的图像隐藏阶段），使用三个音频中的图像可逆（I-AI）子网络将秘密图像隐藏在掩蔽音频中，生成隐藏掩蔽音频。在第二隐藏阶段（音频中的音频隐藏阶段），通过音频中的音频可逆（A-AI）网络将隐藏掩蔽音频嵌入到原始封面音频中，补充剩余的听觉细节，确保隐藏音频的保真度。这种基于可逆网络的两阶段渐进式隐藏策略保证了隐藏音频的不可察觉性和秘密图像的高重建质量。此外，为了高效的网络训练，我们开发了一个考虑像素域、时间域和频谱域中多个约束的组合损失函数。本文的主要贡献总结如下：

•
我们提出了一种新的音频中的图像隐藏框架，用于在音频信号中嵌入全彩色图像。该网络将隐藏过程分为两个阶段：将图像隐藏在掩蔽音频中，以及将隐藏掩蔽音频嵌入封面音频中。
•
我们基于听觉掩蔽效应理论设计了一种掩蔽音频提取（MAE）算法，从封面音频生成掩蔽音频。掩蔽音频具有高掩蔽能力，提高了隐藏音频的不可察觉性。
•
我们开发了音频中的图像可逆（I-AI）子网络和音频中的音频可逆（A-AI）子网络，分别执行第一阶段和第二阶段的隐藏任务。空间注意力机制被用来进一步利用音频信号的隐藏潜力。

在各种图像和音频数据集上进行了全面实验，结果表明我们的方法实现了先进的图像隐藏和恢复性能。我们还对隐藏音频进行了主观评估，证明了其高不可察觉性。

部分片段

二进制音频中的图像隐藏和音频中的音频隐藏

传统的音频隐藏技术侧重于在时间域或变换域中使用手工制作的嵌入和提取算法。例如，Tilki等人[1]和Gopalan等人[2]利用心理声学特性将数字签名嵌入到封面音频中。Dong等人[3]结合数学变换和相位编码来减少音频嵌入失真。然而，这些方法往往低估了人耳的敏感性，导致可察觉的

提出的方法

图2（a）展示了所提出的HIA-Net用于音频中的图像隐藏的总体框架。给定封面音频A_C和秘密图像I，我们首先将A_C发送到掩蔽音频提取（MAE）算法中，得到掩蔽音频A_M。随后，我们实现音频中的图像可逆（I-AI）子网络将秘密图像I嵌入到掩蔽音频A_M中，生成隐藏掩蔽音频

A_{M_{S}}

。然后，使用音频中的音频可逆（A-AI）子网络将

实验设置

数据集。对于网络训练，我们使用GTZAN²数据集中的800个音频片段作为封面音频，以及DIV2K [50]中的800张图像作为秘密图像。数据集分为训练集和验证集，比例为7:1。训练图像被裁剪成128 × 128的补丁。对于测试，我们在三个音频数据集和两个图像数据集上进行实验。测试音频信号包括从GTZAN数据集中选择的100个音频，以及

结论

在本文中，我们提出了一种基于听觉掩蔽效应理论的音频中的图像可逆隐藏网络，即HIA-Net。具体来说，我们没有直接将秘密图像嵌入到封面音频中，而是将隐藏过程分解为两个渐进阶段。在第一阶段，我们使用MAE算法生成具有高掩蔽能力的掩蔽音频。然后，我们使用一系列I-AI子网络将秘密图像嵌入到掩蔽音频中，每个子网络包括

CRediT作者贡献声明

Jinghang Song：撰写——原始草案，验证，方法论。Fangyuan Gao：软件，方法论，数据管理。Xin Deng：撰写——审阅与编辑，监督，资金获取。Shengxi Li：可视化，软件。Mai Xu：撰写——审阅与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号