利用卷积加性自注意力视觉变换器和基于离散小波变换-方差的特征描述符实现零水印技术，以提高移动医疗服务中医学图像的安全性

《Advanced Intelligent Systems》：Zero Watermarking Using Convolutional Additive Self-Attention Vision Transformer and Discrete Wavelet Transform-Variance-Based Feature Descriptor for Medical Image Security in Mobile Healthcare Services

【字体：大中小】 时间：2026年05月10日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　摘要为了实现在移动电子健康服务中对医学图像进行稳健且高效的版权认证，提出了一种基于改进架构的卷积自注意力视觉变换器（CAS-ViT）和离散小波变换（DWT）方差特征描述符（DVFD）的零水印算法。改进架构的CAS-ViT用于从医学图像中提取深度特征图，在保持计算效率的同时增强

　　摘要

为了实现在移动电子健康服务中对医学图像进行稳健且高效的版权认证，提出了一种基于改进架构的卷积自注意力视觉变换器（CAS-ViT）和离散小波变换（DWT）方差特征描述符（DVFD）的零水印算法。改进架构的CAS-ViT用于从医学图像中提取深度特征图，在保持计算效率的同时增强稳健性。DVFD结合了DWT、方差池化和最大值选择统计方法，并使用平均哈希（aHash）从这些提取的特征图序列生成二元特征向量，进一步提高了 robustness。在DVFD 中，DWT首先将每个特征图分解为一个低频近似子带和三个高频细节子带，然后使用方差池化计算每个高频子带的方差。之后，构建三个DWT高频方差序列，并使用aHash将这些序列编码为二元特征向量。为了增强水印安全性，采用了控制参数范围优化的逻辑映射混沌系统进行水印置换。实验结果表明，该算法在稳健性和计算效率方面取得了优异的性能。

1 引言

随着COVID-19大流行和互联网的发展以及移动终端设备的广泛使用，公众对移动电子健康服务的需求不断增长[1, 2]。同时，随着移动电子健康服务中传输的医疗数据量持续增加，对医疗隐私的关注也在上升[3]。在数字水印技术中，稳健、可靠且高效地保护患者隐私和医疗数据版权已成为一个关键焦点[4]。作为诊断的重要辅助工具，医学图像占所有医疗数据的约90%[5]。由于即使是很小的像素变化也可能误导诊断，因此修改像素的传统水印方法不适合保护医学图像隐私[6, 7]。零水印方法修改的是图像特征而非像素，从而保持了诊断质量[8-10]。这一特性使零水印方法特别适合医学图像的版权认证。零水印方法主要分为基于频域、矩和深度学习的算法。在基于频域的算法中，常用的有Hessenberg分解（HD）、双树复杂小波变换（DTCWT）、奇异值分解（SVD）、离散余弦变换（DCT）和离散小波变换（DWT）。还提出了一种基于极坐标余弦变换（PCT）和DCT的零水印算法[11]。该算法对JPEG压缩具有鲁棒性，但对高斯噪声、缩放和平移的鲁棒性较差。部分旋转下三角上三角（PPLU）、DWT和简单线性迭代聚类被结合起来嵌入和提取水印[12]。该算法对高斯噪声和中值滤波具有较好的鲁棒性，但其对几何攻击的鲁棒性未进行研究。DTCWT的低频分量、局部稳定子块、奇异值和均值被用来抵抗传统攻击[13]。但该算法在对平移和裁剪方面的表现不佳。DWT、DCT和逻辑映射被结合起来进行图像加密，然后从加密图像的第三级DWT低频分量计算出雏菊描述符矩阵，并选择DCT低频分量作为图像特征[14]。该算法可以抵抗传统攻击，但对平移和裁剪的表现较差。通过加速鲁棒特征检测出高精度特征，并使用SVD进行水印嵌入和提取[15]。该算法可以抵抗传统攻击，但对旋转和裁剪的表现较差。DTCWT、HD和DCT被结合起来从医学图像中检测特征[16]。该方法具有较高的计算效率，并对传统攻击具有较好的鲁棒性，但对平移和裁剪的表现较差。上述算法具有较高的计算效率，并能抵抗大多数传统攻击。然而，强烈的几何攻击会导致频域特征的同步性丧失，使这些方法变得脆弱。在基于矩的算法中，通过多通道移位Gegenbauer分数阶矩来检测几何不变特征[17]。Daoui等人使用短时傅里叶变换将图像映射到时频平面，并通过四元数Shmaliy矩提取稳定特征[18]。Wang等人利用改进的径向基函数构建了修改后的Zernike矩进行特征检测[19]。Khafaga等人通过高斯求积提高了多通道分数阶高斯Hermite矩（MFrGHMs）的特征提取精度[20]。Yamni等人提出了一种基于八元数Krawtchouk矩的计算机断层扫描图像零水印方法，并使用灰狼优化器来抵抗传统攻击[21]。上述算法通过优化数值不稳定性可以抵抗大多数传统和几何攻击。然而，由于矩的计算复杂性较高，这些算法的计算效率较低。在基于深度学习的算法中，使用预训练的深度过参数化VGG-16模型从医学图像中检测深度特征，然后用于嵌入和提取水印[22]。Zhang等人使用专门的医学图像数据集对预训练的GoogLeNet模型进行了微调[23]。这些微调过程提高了特征检测的精度，并增强了对某些几何攻击的抵抗力，但对裁剪的表现较差。Sheng等人结合了DCT和ResNet-50模型引入了一种混合方法[24]。Nawaz等人结合了DWT、DCT和ResNet-101模型引入了一种混合方法[25]。还提出了一种结合DWT、DCT和MobileNetV2模型的方法[26]。Abdel-Aziz等人结合了DarkNet-53模型和静止小波变换引入了一种混合方法[27]。Nawaz等人开发了一种结合DTCWT、DCT和预训练AlexNet模型的方法[28]。这些基于卷积神经网络（CNN）的混合方法提高了检测到的深度特征的稳定性，增强了对某些几何和传统攻击的抵抗力，但对高斯噪声、中值滤波和平移等攻击的表现仍然较差。开发了一种基于Swin Transformer的零水印方法，展示了视觉变换器（ViT）模型的潜力[29]。上述算法可以抵抗某些传统和几何攻击。然而，由于深度学习模型的架构差异，其中一些算法的计算复杂性较高。表1比较了不同类型的算法。表1. 不同类型算法的比较。类别稳健性计算效率传统攻击几何攻击基于频域的方法 √ × √ 基于矩的方法 √ √ 深度学习的方法 ○ ○ ○ “√”：表现良好，“○”：部分良好，“×”：表现不佳。在移动电子健康服务中，鉴于医学图像的庞大数量和快速流通，医学图像的认证必须高效。考虑到上述问题以及移动电子健康服务中对医学图像隐私保护的需求，提出了一种结合改进架构的卷积自注意力ViT（CAS-ViT）和DWT-方差特征描述符（DVFD）的混合零水印算法，以提高稳健性和计算效率的全面性能。主要贡献是：

本研究提出了一种基于深度学习和频域变换的算法，用于零嵌入和盲提取水印，确保医学图像质量的保留。改进架构的CAS-ViT利用CNN的局部特征检测能力和变换器的上下文特征检测能力从医学图像中提取深度特征图，提高了稳健性而不牺牲计算效率。提出的DVFD方法结合了DWT、方差池化和最大值选择统计方法，并与平均哈希（aHash）结合，将获得的特征图序列转换为三个DWT高频方差序列，进一步编码为二元特征向量，提高了提取特征的稳定性，从而增强了稳健性。引入了李雅普诺夫指数和近似熵来分析逻辑映射混沌系统的控制参数范围，增强了水印安全性。本文的其余部分结构如下：第2节解释了基本理论。第3节概述了方法论。第4节包含了实验结果和分析。第5节是结论。

2 基本理论

2.1 改进架构的CAS-ViT

CAS-ViT结合了CNN的局部特征检测能力和变换器的上下文特征检测能力[30]。它包括四个阶段，每个阶段依次包含BL1、BL2、BL3和BL4堆叠块。对于尺寸为H×W×3的输入图像，每个阶段的特征图尺寸和通道数分别为（H/4）×（W/4）的C1、（H/8）×（W/8）的C2、（H/16）×（W/16）的C3和（H/32）×（W/32）的C4。堆叠块包含三个部分：积分子网、CATM和多层感知器（MLP）。积分子网由三个通过ReLU激活的深度卷积层组成[31]，用于特征检测和初步信息整合。MLP用于整合CATM的输出信息并检测更深层次的特征。在CATM中，首先使用三个独立的线性变换分别计算查询（Query）、密钥（Key）和值（Value）。随后，使用加性相似函数获得查询和密钥的上下文得分之和。如（方程1）和（方程2）所示，Φ(•)表示上下文映射函数，用于计算查询和密钥的上下文得分。S(•)表示基于Sigmoid的空间注意力，C(•)表示基于Sigmoid的通道注意力。

（1）

（2）

最后，CATM的输出由方程（3）给出，其中Γ(•)表示用于整合上下文信息的线性变换。

（3）

在本文中，由于CAS-ViT具有上下文局部特征检测能力，因此采用了CAS-ViT。为了在不牺牲计算效率的情况下提高稳健性，结合了CAS-ViT-XS堆叠块布局（2, 2, 4, 2）和CAS-ViT-S通道数（48, 64, 128, 256）来改进CAS-ViT的架构，并将输入医学图像的大小调整为128×128×3。改进架构的CAS-ViT模型如图1所示。

2.2 DWT-方差特征描述符（DVFD）

作为一种多尺度信号分析方法，DWT可以将信号分解为表示近似信息的高频分量和捕捉详细信息的高频分量[14]。方差是衡量统计数据分散程度的经典指标。方差的公式如图（4）所示，其中σ2表示方差，n表示元素编号，xi表示每个特征图中的第i个元素，μ表示每个特征图的均值。

（4）

在本文中，如图2所示，DVFD包括DWT、方差池化和最大值选择统计方法。首先通过DWT和方差池化获得三个DWT高频方差序列。这些序列结合了DWT的高频细节信息和基于方差的判别信息，增强了算法的稳健性。随后，通过最大值选择统计和aHash将这些DWT高频方差序列进行融合和统计处理，生成二元特征向量，进一步提高了算法的稳健性。

2.3 控制参数范围优化的逻辑映射

逻辑映射以其高计算效率和对初始条件的极端敏感性为特点。在提出的框架中，通过逻辑映射对水印进行搅乱以实现安全性。公式如下（5）。

（5）

其中α表示控制参数，n表示迭代次数，v∈(0, 1)表示第n次迭代的值。如图3a所示，当α∈ [3.57, 4]时，可以使用逻辑映射进行搅乱。

（3a）

为了优化搅乱序列的随机性和不可预测性，通过李雅普诺夫指数和近似熵分别评估逻辑映射的控制参数范围。当李雅普诺夫指数大于0时，系统是混沌的。如图3b所示，当3.57 ≤ α ≤ 3.62、3.64 ≤ α ≤ 3.73、3.75 ≤ α ≤ 3.82和3.85 ≤ α ≤ 4.00时，李雅普诺夫指数大于0。当近似熵增加时，系统的不稳定性会增强。为了折中搅乱效果和控制参数范围，使用平均近似熵作为近似熵阈值。近似熵图如图3c所示，当3.69 ≤ α ≤ 3.73、3.75 ≤ α ≤ 3.82和3.87 ≤ α ≤ 4.00时，近似熵超过这个阈值。通过计算上述两个控制参数范围的交集可以获得优化的控制参数范围。因此，在本文中，控制参数α的选择范围为[3.69, 3.73, 0.75, 3.82, 0.87, 4.00]，初始值的选择范围为(0, 1)，迭代次数为64×64。

3 提出的算法

提出的算法主要包含四个部分：模型训练、医学图像特征提取、水印加密和解密、零水印嵌入和提取。首先对架构优化的CAS-ViT模型进行训练，然后通过整合该预训练模型和DVFD来提取医学图像特征。接着，使用优化的逻辑映射混沌系统对水印进行加密。随后，将加密后的水印与提取的医学图像特征进行异或运算，生成一个零水印密钥，并将其上传给第三方认证机构。最后，使用上传的密钥盲提取水印。

3.1 模型训练

在本文中，从Kaggle[32]中随机选择了124张医学图像作为原始数据集。为了确保训练效率和模型性能，首先将原始数据集中的所有图像预处理为128×128×3的大小。然后，通过对预处理后的数据集应用各种常规和几何攻击来进行数据增强。之后，通过合并预处理的数据集和被攻击的预处理数据集来形成样本集。样本集包含77,500张图像，其中56,875张用于模型训练，20,625张用于模型验证。最后，从头开始对架构优化的CAS-ViT模型进行58个时代的训练。主要训练参数如下：优化器为AdamW，dropout率为0.1，批量大小为512，学习率为0.006。

3.2 医学图像特征提取

首先，将医学图像预处理为128×128×3的大小，然后输入到预训练模型中，该模型输出4×4×256大小的特征图。接着，使用DWT和方差池化将这些特征图构建为一个特征图序列，该序列被分解为一个低频方差序列和三个高频方差序列，然后选择这些高频方差序列，并使用公式(6)中显示的Hash映射为三个256长度的二进制特征向量，其中Bi表示二进制特征向量的第i个元素，Fi表示方差序列的第i个元素，mean(F)表示方差序列的平均值。最终，这些映射的二进制特征向量使用最大选择统计方法进行编码。

3.3 水印加密和解密

在水印加密阶段，首先使用控制参数范围优化的逻辑映射混沌系统生成一个64×64大小的扰动矩阵，然后使用Hash将该矩阵二值化。随后，将这个二值矩阵与提取的医学图像特征进行异或运算，以生成一个加密水印。在水印解密阶段，首先使用加密阶段中的初始值和控制参数重新生成一个64×64的扰动矩阵，然后使用Hash对该二值矩阵进行二值化。最后，将这个二值矩阵与提取的水印矩阵进行异或运算，以获得解密的水印。

3.4 零水印嵌入和提取

如图4所示，对于嵌入过程，首先从载体图像中提取二进制特征向量。然后，对水印进行加密。最后，将加密后的水印与提取的二进制特征向量进行异或运算，生成一个零水印密钥，随后将其注册到第三方认证机构。图4：水印嵌入和提取步骤。对于提取过程，首先从被攻击的图像中提取二进制特征向量。然后，下载注册的零水印密钥，并与该提取的二进制特征向量进行异或运算。最后，解密水印。

3.5 实验数据和评估指标

对于本研究，如图5所示，使用了六张大小为128×128×3的测试医学图像。二进制水印的大小为64×64。实验中使用了一台配备NVIDIA GeForce RTX 4070 Ti SUPER图形处理单元（GPU）、Intel (R) Core (TM) i7中央处理单元（CPU）和32GB RAM的计算机。在GPU上训练了架构优化的CAS-ViT模型，然后在该CPU上运行这个预训练模型。图5：测试医学图像和水印。医学图像在使用过程中可能会受到各种几何或常规攻击，导致水印提取失败。因此，通过比较原始水印和从被攻击的医学图像中提取的水印之间的噪声系数（NC值）来评估其鲁棒性。计算NC值的公式如下：T表示原始水印，T′表示提取的水印，Tmean和T′mean分别是T和T′的平均值。

计算效率通过水印算法的总执行时间和随机访问内存（RAM）消耗来评估。

4 实验结果分析

在本文中，首先验证了所提出算法对常规攻击、几何攻击、组合攻击和对抗性攻击的鲁棒性。随后进行消融研究，以验证架构优化的CAS-ViT和DVFD的贡献。然后将所提出的算法与过去3年内发表的四种算法进行基准测试，以验证其全面的性能优越性。

4.1 对常规攻击的鲁棒性

测试医学图像受到了不同强度的常规攻击（如高斯噪声、JPEG压缩和中值滤波）。提取的水印及其NC值分别在图6、图7-8和表2中展示。图6：受到高斯噪声攻击后的水印。图7：受到JPEG压缩攻击后的水印。图8：受到中值滤波攻击后的水印。表2：常规攻击下的NC值。

计算效率通过水印算法的总执行时间和随机访问内存（RAM）消耗来评估。

4.1 对常规攻击的鲁棒性

测试医学图像受到了不同强度的常规攻击（如高斯噪声、JPEG压缩和中值滤波）。提取的水印及其NC值分别在图6、图7-8和表2中展示。对于高斯噪声攻击，即使强度达到30%，NC值也超过了0.83。对于JPEG压缩攻击，NC值保持在0.92以上，而质量因子为5%。对于中值滤波攻击，经过3×3、5×5和7×7大小的核滤波20次后，NC值分别超过了0.98、0.94和0.91。结果表明，我们的零水印算法对常见的常规攻击具有很强的抵抗力。

4.2 对几何攻击的鲁棒性

测试医学图像受到了不同强度的几何攻击（如旋转、缩放、裁剪和平移）。提取的水印及其NC值分别在图9-11-12和表3中展示。图9：受到旋转攻击后的水印。图10：受到缩放攻击后的水印。图11：受到裁剪攻击后的水印。图12：受到平移攻击后的水印。表3：几何攻击下的NC值。

4.3 对组合攻击和对抗性攻击的鲁棒性

测试医学图像受到了组合攻击（如旋转与高斯噪声的结合、裁剪与JPEG压缩的结合）和快速梯度符号方法（FGSM）对抗性攻击的不同强度的影响。提取的水印及其NC值分别在图13和表4中展示。表4：组合攻击和对抗性攻击下的NC值。

4.4 消融研究

为了验证架构优化的CAS-ViT和DVFD的贡献，比较了所提出算法与以下三种方法的鲁棒性（不同攻击下提取的水印的平均NC值）和计算效率：（1）带有DVFD的CAS-ViT-S；（2）带有DVFD的CAS-ViT-XS；（3）不带DVFD的架构优化CAS-ViT。如表5所示，所提出算法在各种攻击下的平均NC值不低于0.87，表现出优于其他三种方法的性能。虽然所提出算法的平均总执行时间略长于带有DVFD的CAS-ViT-XS和不带DVFD的架构优化CAS-VIT，但比CAS-ViT-S with DVFD短，并且达到了0.1秒级的效率。所提出算法的平均RAM消耗为86.63 MB，略高于带有DVFD的CAS-ViT-XS，与不带DVFD的架构优化CAS-VIT统计上相当，但低于CAS-VIT-S with DVFD的26.19 MB。表5：鲁棒性的消融研究。

4.4 对组合攻击和对抗性攻击的鲁棒性

为了验证架构优化的CAS-ViT和DVFD的贡献，比较了所提出算法与以下三种方法的鲁棒性（不同攻击下提取的水印的平均NC值）和计算效率：（1）带有DVFD的CAS-ViT-S；（2）带有DVFD的CAS-ViT-XS；（3）不带DVFD的架构优化CAS-VIT。如表5所示，所提出算法在各种攻击下的平均NC值不低于0.87，表现出优于其他三种方法的性能。尽管所提出算法的平均总执行时间略长于带有DVFD的CAS-VIT-XS和不带DVFD的架构优化CAS-VIT，但其效率达到了0.1秒级别。所提出算法的平均RAM消耗为86.63 MB，略高于带有DVFD的CAS-ViT-XS，但低于不带DVFD的架构优化CAS-VIT，且与不带DVFD的架构优化CAS-VIT统计上相当。

4.5 对比研究

为了全面验证所提出算法在鲁棒性和计算效率方面的性能，我们采用了与上述消融研究中相同的评估指标，对四种算法进行了比较分析：基于频域的DWT-DCT-Daisy[14]和DTCWT-DCT-HD[16]、基于矩的（MFrGHMs[20]以及基于深度学习的（Swin Transformer[29]）。结果如图14和表7所示。与DWT-DCT-Daisy[14]和DTCWT-DCT-HD[16]相比，尽管所提出算法的平均总执行时间略长，但其鲁棒性显著更强，能够有效抵抗常见的常规攻击、几何攻击和组合攻击。与MFrGHMs [20]相比，尽管所提出的算法在对传统攻击、几何攻击和组合攻击的鲁棒性上稍逊一筹，但其平均总执行时间显著较短。与Swin Transformer [29]相比，所提出的算法在对传统攻击、几何攻击和组合攻击的鲁棒性上表现出更强的抵抗力，并且平均总执行时间也更短。虽然所提出的算法在对FGSM攻击的鲁棒性上略低于前述四种算法，但其平均误检测率（NC）仍保持在0.88。其内存消耗量高于DWT-DCT-Daisy [14]、DTCWT-DCT-HD [16]和MFrGHMs [20]，但仅为Swin Transformer [29]的一小部分，并且完全在当今移动设备的预算范围内。总体而言，与现有的算法相比，所提出的算法在保持计算效率的同时表现出强大的鲁棒性。它在移动电子健康服务方面具备了卓越的综合性能。

5 结论

本文提出了一种经过架构优化的基于CAS-ViT和DVFD的零水印算法。经过架构优化的CAS-ViT能够提取稳定的深度图像特征，在保持计算效率的同时增强鲁棒性。DVFD提取了更详细的信息，并集成了一种Hash编码方法来生成二进制特征向量，进一步提高了鲁棒性。优化的逻辑映射混沌系统通过改进控制参数范围的准确性增强了水印的安全性。实验结果表明，该零水印算法显著提升了鲁棒性和计算效率的综合性能，成功满足了移动电子健康服务中医学图像认证的鲁棒性和快速处理要求。然而，观察到该算法对平移攻击和FGSM攻击的鲁棒性仍有提升空间。后续工作将实施改进的数据增强方法和模型参数微调策略，以增强其对这类攻击的抵抗能力。此外，我们还将继续优化网络架构，以减少内存消耗，从而提升所提算法在移动设备上的实时性能。

致谢

本工作得到了国家自然科学基金（项目编号62271490）、重庆市教育委员会科技研究计划（项目编号KJQN202312809）以及国家重点实验室网络与交换技术开放基金（北京邮电大学）（项目编号SKLNST-2024-1-07）的支持。

资金支持

本工作得到了国家自然科学基金（62271490）、重庆市教育委员会科技研究计划（KJQN202312809）以及国家重点实验室网络与交换技术开放基金（北京邮电大学）（SKLNST-2024-1-07）的支持。

利益冲突

作者声明没有利益冲突。

数据可用性声明

支持本研究结果的数据可向相应作者提出合理请求后获得。

热点排行