StegaFusion：一种用于多模态信息隐藏与融合的隐写技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：StegaFusion: Steganography for Information Hiding and Fusion in Multimodality

【字体：大中小】 时间：2026年01月24日 来源：Information Fusion 15.5

编辑推荐：

　　本文提出StegaFusion多模态隐写框架，利用生成式填充技术实现跨模态信息隐藏，无需额外训练，支持图像、音频、文本，并通过实验验证其在可控性、安全性和跨模态兼容性上的优越性。

徐子豪|徐大伟|李志涵|胡娟|郑宝坤|张传|朱Liehuang

中国长春大学

摘要

当前的生成式隐写技术因其安全性而受到了广泛关注。然而，不同的平台和社会环境对隐写技术的偏好各不相同，现有的生成式隐写技术通常仅限于单一模式。受到修复技术进步的启发，我们发现修复过程本身具有生成性。此外，跨模态修复对未改变的区域干扰最小，并且采用了一致的遮盖和填充流程。基于这些见解，我们提出了StegaFusion，这是一个用于统一多模态生成式隐写的新型框架。StegaFusion利用共享的生成种子和条件信息，使接收者能够确定性地重构参考内容。然后接收者对修复生成的隐写内容进行差分分析以提取秘密信息。与传统单模态方法相比，StegaFusion在不需要额外模型训练的情况下，提高了可控性、安全性、兼容性和可解释性。据我们所知，StegaFusion是第一个正式化并统一跨模态生成式隐写的框架，具有广泛的应用前景。大量的定性和定量实验表明，StegaFusion在可控性、安全性和跨模态兼容性方面表现出优越的性能。

引言

隐写技术——即在无害内容中隐藏信息的艺术与科学——在当今数据共享普遍且监控日益复杂的时代重新获得了重要性。与仅隐藏消息内容的密码学不同，隐写技术隐藏了消息的存在本身。随着数字通信在图像、音频和文本等多种模式中的发展，强大且灵活的隐写技术对于保护隐私、确保通信安全以及在民用和安全关键应用中实现秘密信息传输变得至关重要[1]。

现有的隐写研究已经开发出针对特定数据模式的多种成功方法。图像隐写技术通常在空间域或频率域中嵌入信息，利用像素冗余或频率系数来实现不可察觉性[2]、[3]。音频隐写技术同样利用波形修改、静音片段操作或回声隐藏来嵌入消息，同时保持听觉质量[4]、[5]。而基于文本的方法则经常修改词汇选择、调整句法结构或使用上下文感知的替换来隐藏信息，而不降低可读性[6]。

尽管这些方法在各自的领域内表现出有效性，但它们彼此之间大多孤立存在，缺乏统一的概念框架或操作兼容性。这种碎片化在现代数字生态系统中构成了严重挑战，如图1所示，内容共享平台往往具有强烈的模式偏好。例如，Instagram和TikTok等平台以视觉和音视频数据为主，而Twitter（现为X）和Reddit等平台则强调基于文本的互动。因此，隐写技术不仅需要针对内容类型进行定制，还需要适应平台特定的限制。这种模式偏见使得设计能够在不同平台之间无缝部署或根据上下文动态切换模式的灵活隐写系统变得复杂。此外，现有方法通常与特定的编码器架构或关于内容格式的假设紧密耦合，限制了它们的通用性并阻碍了跨平台的适用性。这些挑战凸显了迫切需要一个能够有效处理异构模式和多种生成模型的统一、适应性隐写框架。

为了解决这些挑战，我们提出了StegaFusion，这是一个用于多模态信息隐藏和提取的统一隐写框架。与传统依赖于直接数据操作的方法不同，StegaFusion利用现代生成模型的生成和重构能力将消息嵌入为不可察觉的扰动。该框架使发送者能够在图像、音频和文本中生成语义合理的隐写内容，同时允许授权接收者使用残差分析和共享的辅助信息（如种子、提示和模型设置）解码隐藏的消息。关键的是，该框架适应每种模式内的不同生成范式，并通过统计上的不可区分性与原始内容保持自然性和安全性。

我们的主要贡献总结如下：

•

我们提出了StegaFusion，这是第一个在基于残差的范式下形式化跨模态生成式隐写的统一框架。它以即插即用的方式支持图像、音频和文本模式，无需额外模型训练，从而实现跨不同平台的无缝和安全部署。

•

该框架与每种模式内的各种生成架构兼容，并利用共享种子和条件引导的确定性生成和修复过程，确保消息嵌入和提取的准确性和可解释性。

•

广泛的定性和定量实验表明，在实际条件下，StegaFusion在视觉、听觉和文本保真度、可解释性、可控性和跨模态兼容性方面表现出优越的性能。

章节摘录

传统隐写技术

传统隐写技术侧重于通过将信息直接嵌入到载体介质中来隐藏信息，其根源可以追溯到古代的秘密通信实践。在数字媒体中，最早和最简单的方法之一是最小有效位（LSB）方法，它将数据嵌入到图像像素的最不重要位中[7]。这种方法因其简单性和高嵌入容量而受到欢迎，但它也容易受到统计分析和图像操作的攻击

方法论

在这项工作中，我们提出了一个新颖的多模态隐写框架，该框架在生成的参考内容中隐藏自定义消息，同时保持语义的自然性并确保授权提取。与直接修改像素值的传统基于LSB的图像隐写技术不同，我们的方法将隐写痕迹视为适用于不同模式的信息承载扰动。

实验

为了系统评估所提出的StegaFusion，我们设计了一系列定量和定性实验，涵盖了容量、质量、鲁棒性和安全性分析等方面。

所有实验都在配备NVIDIA GeForce RTX 3090 GPU和Ubuntu操作系统的云服务器上进行。由于我们的方法是多模态的，并且支持任何可以复现生成的生成模型，我们选择了多种不同模式的生成模型进行测试。

结论、局限性和未来工作

这项工作介绍了StegaFusion，这是一种新的安全且自然的跨模态隐写范式。StegaFusion不是孤立地处理每种模式，也不仅依赖传统的嵌入方案，而是将生成式修复作为灵活的工具来隐藏图像、音频和文本中的消息。该框架适应每种模式的独特特性，以最小化感知干扰并抵抗传统检测的方式隐藏信息

CRediT作者贡献声明

徐子豪：撰写——原始草稿、验证、软件、方法论、概念化。徐大伟：撰写——审阅与编辑。李志涵：撰写——审阅与编辑、调查、形式分析。胡娟：撰写——审阅与编辑。郑宝坤：撰写——审阅与编辑。张传：撰写——审阅与编辑、监督。朱Liehuang：监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

传统隐写技术

方法论

实验

结论、局限性和未来工作

CRediT作者贡献声明

利益冲突声明

热点排行