学习模型中加权卷积的最优密度函数

《Neurocomputing》：Optimal density functions for weighted convolution in learning models

【字体：大中小】 时间：2026年05月10日 来源：Neurocomputing 6.5

编辑推荐：

　　西蒙娜·卡马拉萨纳 | 朱塞佩·帕塔内 CNR IMATI, Via de Marini 6, 威尼斯, 16149, 意大利 **摘要** 本文提出了一种新的加权卷积方法，用于处理定义在规则网格（二维图像）上的信号。该方法通过优化一个密度函数来调节相邻像素的贡献程

　　西蒙娜·卡马拉萨纳 | 朱塞佩·帕塔内
CNR IMATI, Via de Marini 6, 威尼斯, 16149, 意大利

**摘要**
本文提出了一种新的加权卷积方法，用于处理定义在规则网格（二维图像）上的信号。该方法通过优化一个密度函数来调节相邻像素的贡献程度，该密度函数根据像素与中心像素的距离对其进行缩放。这种选择不同于均匀卷积方法，后者对所有相邻像素一视同仁。给定一个卷积网络，我们通过最小化损失函数来计算最优密度函数（密度函数作为变量）。然后，将加权卷积应用于卷积神经网络（CNN），以提高图像处理任务（去噪、分类等）的准确性。与均匀密度相比，最优密度函数能够改善学习模型权重的收敛性。该框架将卷积核权重的优化（使用随机梯度下降方法）与密度优化（使用DIRECT-L算法）分开进行。在对最新图像去噪和分类学习模型的实验测试中，结果表明加权卷积显著提高了性能。例如，在DIV2K数据集上使用加权卷积的DnCNN模型的去噪效果达到31.02的PSNR值，而使用标准卷积的模型仅为29.09。尽管在标准硬件上我们的方法执行时间有所增加，在现代高性能计算（HPC）环境中的GPU上执行时间增加较少，但该方法对学习模型的多个超参数具有鲁棒性。

**1. 引言**
深度学习是一类用于处理和分析定义在规则网格（例如二维图像）上信号的人工智能方法。深度学习利用大规模数据集和多层表示结构，包括多个线性和非线性层，将输入信号转换为更高层次的表示，从而减少表示信号的参数数量。深度学习广泛应用于解决图像处理中的复杂问题，如计算机视觉[1]、机器人技术[2]、汽车领域[3]和医疗保健[4]。卷积操作符应用于二维图像，因为它具有提取特征和描述空间层次结构及局部依赖性的能力。将卷积应用于深度学习中产生了称为卷积神经网络（CNN）的模型子类。CNN通过在整个输入图像上应用卷积滤波器来利用信息冗余，并增强对局部模式和图像特征的检测。这种方法减少了可训练参数的数量，从而降低了内存使用和计算成本，同时能够泛化到不同的、大规模的数据集上。在CNN中，卷积对参考像素周围的邻域元素进行均匀缩放，同时优化核权重以改善特征提取并减少损失函数。在这一方法中，参考像素周围像素的贡献仅取决于可训练权重（即要提取的特征），假设所有像素具有相同的重要性（第2节）。

我们引入的加权卷积方法是在CNN中的卷积操作符上应用密度函数，以考虑像素相对于参考像素的位置。具体来说，我们定义了一个优化模型，用于计算应用于卷积的最优密度函数，即在相同数量可训练权重的情况下，最小化损失函数的最佳邻域缩放方式（第3节）。我们的模型专注于二维图像；然而，我们的框架足够通用，可以应用于任何定义在三维图像上的信号。我们提出了一种基于卷积架构和非线性激活函数的图像处理学习模型（例如图像去噪、图像分类）。在该模型中，将密度函数集成到卷积操作符中，并通过优化核权重来最小化损失函数（定义为预测图像和目标图像之间的距离）。在所提出的框架中，学习模型作为优化问题的目标函数，其中密度函数的值被视为需要优化的变量。优化过程旨在确定最大化模型逼近精度? 密度函数值。这种方法允许我们将学习模型（即核权重）的优化与密度函数的优化分开。我们对这两种学习问题分别使用两种不同的优化器：随机梯度下降（SGD）[5]用于最小化学习问题的损失函数，而DIRECT-L [6]是一种用于优化不可微函数的全局优化方法。

**2. 实验部分**
在实验部分（第4节），我们测试了不同大小的加权卷积核。我们的优化模型结果表明，最优密度函数比均匀密度函数获得了更好的结果，学习模型的损失函数平均减少了。例如，由生成向量引出的最优密度函数应用于卷积操作符中的核时，可以将学习模型的损失函数相对于均匀密度函数降低。尽管在使用标准硬件时执行时间有所增加，在现代HPC环境中的GPU上执行时间增加较少，但该方法对学习模型的多个超参数具有鲁棒性。我们对学习模型的不同超参数（如数据集中的图像数量和大小、训练周期以及可训练参数）进行了测试。测试表明，随着模型复杂性通过更大数据集或更多可训练参数的增加，密度函数会发展出更尖锐的分布，增强了卷积操作符的局部性。反过来，当网络复杂性和数据信息减少时，密度函数趋于平坦化，从而促进更全局的卷积行为。

我们将加权卷积应用于两个图像处理问题：多标签分类和去噪。我们将最优密度函数与不同密度函数（即均匀、线性和高斯密度）进行比较。最优密度函数的分类准确率较高，而均匀密度函数的分类准确率较低。此外，最优密度函数还改善了去噪效果，平均PSNR值为28.01，而均匀密度函数的平均PSNR值为...（原文此处数据缺失）。这一比较显示了学习到的最优密度函数相对于均匀和非均匀密度函数的优势。我们还使用高分辨率DIV2K数据集对去噪任务进行了额外的实验，将最优密度函数与均匀密度函数分别在两种深度学习架构DnCNN和NAFNet中进行了比较。实验在不同的噪声模型和噪声强度水平下进行。此外，我们通过评估模型在低分辨率图像和在更具挑战性的采集条件下捕获的智能手机图像数据集上的性能来评估训练网络的鲁棒性。我们比较了不同的变换机制（例如动态卷积和自注意力）以及计算最优密度函数的不同全局优化策略，并评估了它们对网络超参数变化的鲁棒性。我们比较了有无密度函数的卷积执行时间，以及在不同硬件上计算最优密度函数的执行时间。将密度函数应用于卷积平均增加了执行时间。然后，我们比较了在高性能计算（HPC）环境下CPU和GPU上的执行时间，发现使用密度函数进行卷积计算时GPU上的平均增加时间...（原文此处数据缺失）。我们还分析了加权卷积的理论计算成本，讨论了与标准卷积相比所需的额外操作。最后，我们讨论了结论和未来工作（第5节），以及将加权卷积应用于实际深度学习问题（包括二维和三维图像）。

**贡献**
本研究 introduce 了一种用于卷积神经网络的加权卷积操作符，通过空间密度函数调节相邻像素的贡献，并将标准卷积推广为均匀密度情况。我们提出了一个优化框架，其中密度函数作为显式的优化变量来计算，以最小化学习模型的损失函数，使模型能够在保持相同数量可训练参数的同时考虑每个相邻像素的影响。由此产生的公式实现了一种解耦的优化策略：使用随机梯度下降来学习核权重，使用全局优化方法来确定最优密度函数。从理论角度来看，我们将卷积学习视为由空间密度控制的优化问题的函数，并在附录中讨论了所提出操作符的分析属性。实验结果表明，加权卷积能够有效捕捉空间依赖性，并在不同任务（包括图像分类和去噪）中提高收敛性和逼近精度。此外，我们证明了学习到的密度函数对模型超参数和数据复杂性的鲁棒性。最后，我们评估了所提出方法在CPU和GPU平台上的计算成本，发现性能提升仅通过适度的执行时间增加实现，使其适用于医疗成像和自动驾驶系统等实际应用，其中精度改进可以接受较小的效率折中。

**新颖性**
我们的方法与几种在卷积神经网络中引入自适应权重的方法不同。首先，它不同于基于输入表示动态重新加权特征的注意力机制。在空间注意力[7]中，网络学习突出显示信息性空间区域的注意力图；在通道注意力[8]中，特征通道被自适应加权；在自注意力机制[9]中，通过整个特征空间中的成对相似性计算图像块之间的关系。这些方法在正向传播过程中操作特征激活，并生成依赖输入的权重图。相比之下，本文提出的方法不学习基于特征激活的注意力权重，而是引入了一个空间密度函数，用于调节卷积操作符内部相邻像素的贡献。这个密度函数独立于特征激活，代表了卷积内部空间交互的结构先验。

我们的方法也与动态卷积方法不同，后者根据输入样本动态生成或组合卷积核。例如条件卷积核[10]和动态滤波器网络[11]，其中多个滤波器要么线性组合，要么由基于输入的辅助网络生成。虽然这些方法调整了滤波器参数本身，但所提出的公式保持了固定的卷积核，并优化了引导邻域元素对卷积操作贡献的空间密度。我们的公式还不同于那些根据输入样本调整卷积几何形状的卷积操作符，如灵活卷积[12]和可变形卷积[13]。这些方法通过动态移动或调整卷积核的采样位置来修改感受野。相比之下，所提出的方法在引入优化密度函数的同时保持了卷积的几何形状和采样网格，从而决定了固定卷积支持内空间邻居的相对重要性。最后，我们的方法与坐标卷积[14]不同，后者通过显式的坐标通道增强输入表示以编码全局空间位置。我们的方法不是将位置信息嵌入特征表示中，而是通过空间密度函数直接修改卷积操作符，根据优化的空间分布对局部交互进行加权。这项工作的新颖之处在于将卷积定义为一种基于空间密度函数的运算符，并计算与该运算符相关的最优密度函数。我们并没有提出一个新的架构组件来提高效率或适应性，而是表明给定的学习架构可以被视为一个底层优化问题的函数，其中密度函数就是优化变量。在这个框架下，标准的卷积对应于均匀密度函数的特殊情况，而我们提出的公式用一个最小化学习模型目标函数的最优空间密度来替换了这个均匀密度。这种视角提供了一种基于原则的方法来通过优化控制卷积运算符的空间分布来增强现有学习架构的逼近能力。所提出的公式通过将卷积定义为基于可优化空间密度的运算符，引入了一个新的视角，这个密度与特征激活和核参数都无关。这使我们的方法不同于现有的自适应机制，因为密度函数是通过全局优化问题得到的，而不是通过基于梯度的训练隐式学习的。PyTorch实现的带密度函数的卷积可以在https://github.com/cammarasana123/weightedConvolution2.0.2找到。

相关工作
我们从架构和计算成本的角度介绍了卷积神经网络。作为相关工作，对CNN进行了多种优化，涉及超参数、激活函数、损失函数以及不同核的组合，以改进卷积性能。

卷积神经网络
卷积在神经网络中的首次应用是在Cognitron[15]中提出的，这是一种多层神经网络。卷积层通过一组运算符（即核）应用多次卷积。每个核由一组变量（即权重）组成，这些权重会被优化，直到网络正确地逼近所需的输出。每个核的数量和维度取决于网络的架构和用途。偏置是一个额外的参数，用于移动输出以增加模型的灵活性。反向传播是一种通过优化核权重并最小化损失函数来训练网络的方法，损失函数代表网络预测所需输出的准确性。梯度下降优化算法[16]或其变体（例如Adam和RMSprop [17]）被应用于从网络的最后一层到第一层反向传播错误来最小化损失。在CNN中，每个卷积层包含多个核，这些核被并行训练以提高学习效率。这种设计允许模型从输入数据中提取不同层次的特征，从早期特征（例如边缘、纹理和简单图案）到更深的特征（例如复杂形状和对象）。带有线性层的多层神经网络等同于单层网络。实际上，卷积层通常后面跟着非线性层，如池化运算符、激活函数（例如修正线性单元、双曲正切和逻辑Sigmoid）以及dropout，以增强CNN的建模能力。学习模型可以通过额外的超参数进行调整，如步长、填充、层数和输入/输出通道。

CNN架构优化
加权卷积神经网络集成[18]结合了卷积神经网络的输出概率，其中每个网络都有一个相关的权重，使得性能更好的网络对分类有更大的影响。在[19]中，CNN模型的受限卷积层在学习阶段应用了受限数量的权重，并排除了其他权重。在DropOut[20]模型中，对全连接层的输出应用了正则化，其中输出层中的每个元素以一定的概率保留，否则以另一概率设置为0。正则化方法[21]、[22]、[23]旨在减少CNN的过拟合。超参数的优化通常取决于应用类型、数据集和任务。一些工作提出了针对基于传感器的人体活动识别[24]、光学相干断层扫描和眼底视网膜成像中的糖尿病黄斑病变诊断[25]以及智能辅导系统中的以学习为中心的情绪识别[26]的超参数优化。自注意力网络[9]学会在做出预测时关注输入序列的不同部分；与之相反，自注意力允许模型同时考虑所有元素之间的关系。

基于核的卷积和加权变换
在Jia等人[27]的工作中，核的变量增加了一个可学习的加权参数。加权系数不是优化的目标，而是用来控制额外权重对核权重的影响的参数。此外，增加的参数是核中每个元素的另一个变量，因此增加了训练的计算成本。动态卷积[28]根据它们的注意力动态聚合多个并行卷积核，这些注意力依赖于输入。卷积运算符本身保持一个均匀的基础函数，没有任何权重。全维动态卷积[29]采用并行策略来学习卷积核在所有四个维度上的互补注意力。在Ghiasi-Shirazi [30]中，广义卷积运算符的定义基于正定核函数来替代内积，例如非各向同性高斯或拉普拉斯核。在卷积核网络（CKNs）[31]中，每一层应用局部核近似来从空间区域（例如图像的补丁）提取特征。CKNs不是使用固定核（例如径向基函数），而是从数据中学习自适应核。CKNs被扩展到基于图的信号[32]，其中核通过计算某些局部连接子结构出现的次数来表示图作为特征向量。在Crandall和Fagin [33]的工作中，离散加权变换被定义为快速傅里叶变换的变体，其中包含了加权。加权支持向量机（WSVM）[34]为不同的数据点分配不同的权重，使得WSVM训练算法根据训练数据集中数据点的相对重要性来学习决策面。WSVM中的权重由基于核的模糊C均值算法[35]生成，其分区为重要数据点生成相对较高的值，为异常值生成较低的值。在Cammarasana和Patane [36]的工作中，学习奇异值分解的最优阈值被应用于图像去噪，以减少高频分量并保留真实图像的主要特征和轮廓。加权小波变换[37]通过适应每张图像的统计特性来改进插值图像的方向属性。

计算方面
给定一个大小为MxN的输入图像，具有K个滤波器和N个输入通道，将卷积运算符应用于图像的计算成本为O(MNFK)。常见的机器学习库（例如PyTorch [39]）应用不同的快速算法[40]来降低计算成本。更具体地说，快速傅里叶变换（FFT）卷积利用了卷积定理，即空间域中的卷积相当于频率域中的乘法。在对图像和核应用FFT之后，FFT卷积将频率表示相乘，然后应用逆FFT。这种方法通常用于大核，计算成本为O(MNK * log(KN)). Winograd算法通过将卷积转换为一系列较小的矩阵乘法来减少乘法次数并增加加法次数。这种方法通常用于小核（例如KxN），计算成本为O(KN * log(K) * log(N)). 最后，基于GEMM的方法将图像展开为列向量，重新塑造核为矩阵，执行矩阵矩阵乘法（GEMM），然后将结果重新构造为图像。虽然计算成本与直接卷积相同，但GEMM在BLAS实现下具有最佳性能。

3. 加权卷积和优化密度函数
首先，我们介绍标准卷积运算符（第3.1节）；然后，我们定义了带密度函数的加权卷积（第3.2节）、计算最优密度函数的优化模型（第3.3节）、密度函数的属性（第3.4节）以及相关的计算成本（第3.5节）。

3.1. 卷积运算符和学习模型
给定一个紧凑的域Ω和两个函数f和g，卷积定义为
(1)
在CNN中，Ω是一个离散的2D域，函数f是输入信号（例如2D图像），g是滤波器（例如卷积核）。给定在2D规则网格上定义的输入信号f和由F个大小为d的核组成的核张量K，我们将方程(1)中的卷积离散化为
(2)
引入邻域Ω?作为以Ω为中心的K?的子矩阵，离散卷积以矩阵形式重写为
AΩ?K?fΩ?，
其中两个矩阵A和B的Frobenius内积定义为A·B。给定一个输入图像I和一个目标图像集T，我们定义学习模型为最小化损失函数L(fΩ?K?T)，该损失函数关于核（即权重）在输出数据集T和网络输出之间。
(3)

3.2. 加权卷积和学习模型
给定密度函数δ，我们引入加权卷积为
δΩKΩ?fΩ?
当δ=1时，加权卷积简化为标准卷积。将密度函数δ离散化到2D规则网格上，我们定义带有密度函数的核张量为
δΩKΩ?fΩ?，
其中?表示两个矩阵的逐元素乘积。带有均匀密度函数的离散加权卷积等同于没有密度函数的离散卷积。表1比较了标准卷积和加权卷积。

表1. 标准卷积和加权卷积之间的比较。
给定方程(3)中的学习模型，并用方程(4)中的带密度函数的卷积替换方程(2)中的标准卷积，我们定义学习模型为
(5)

3.3. 密度函数优化
为了计算方程(5)中学习模型的最优密度函数（即δ的值），我们引入优化模型为
(6)
该模型针对密度函数的值进行求解，并通过解方程(5)来计算目标函数L。这种公式构成了一个双层优化问题：内层问题通过SGD优化δ，而外层问题基于内层结果通过DIRECT-L进行优化，确保两个层次始终同时求解。给定一个平方核g，我们定义离散密度函数为Δ矩阵，其中Δ表示沿规则网格两个方向的缩放因子。我们假设密度函数具有以下属性：(i) 在两个维度上对称，即Δ(x, y) = Δ(y, x)；(ii) 中心节点的值为0。密度函数Δ通过系数δ定义，是对称的、半正定的，并且rank为N。实际上，我们将密度函数的计算简化为系数的计算。

学习模型设置和优化算法
我们定义了一个图像到图像的学习模型，其中输入是带噪声的图像，输出是相应的去噪图像。学习模型由三个卷积层组成，分别为：
ω1fω1K1fK1d1,
ω2fω2K2fK2d2,
ω3fω3K3fK3d3，
其中给定d1、d2和d3，我们为每一层分配了若干输入和输出通道。我们将步长设置为s1、s2和s3，这对应于步长为s1的转置卷积层。每个卷积层之后进行批量归一化和修正线性单元激活。损失函数计算为预测图像和真实图像之间的均方误差。

我们的优化模型在方程(6)中分离了用于计算核权重（即ω）和密度函数值（即δ）的优化器。我们选择了DIRECT-L方法来计算最优密度函数。DIRECT [41]是一种全局的、无导数的、确定性的搜索算法，它系统地将搜索域划分为更小的超矩形。将边界约束重新缩放到超立方体，使得搜索过程中所有维度都获得相同的权重。DIRECT源自Lipschitz全局优化方法，即分支定界模型，其中边界是根据目标函数的Lipschitz常数来计算的。DIRECT对Lipschitz方法进行了改进，以消除对Lipschitz常数的需求，从而提高高维情况下的结果。全局优化器DIRECT-L [6]是局部偏置的形式，能够在不产生过多局部最小值的情况下提高函数效率。DIRECT-L支持线性约束问题，不需要解析或数值导数来计算最优解，并且由于函数可能不具备严格的凸性[42]，因此它采用全局搜索来寻找最优解。在我们的框架中，我们为变量的值定义了下界和上界，并为每个变量赋予了一个初始值。我们选择SGD [5]方法来最小化学习模型中的损失函数，并计算卷积内核的最优权重。SGD是一种局部方法，它通过沿着负梯度方向更新参数来处理可微函数。在我们的框架中，权重使用Kaiming初始化[43]进行初始化。3.4 密度函数的属性最优密度函数的解释与最优密度函数相结合，平衡了数据保真度和自适应正则化，从而产生了一个可以调节局部图像邻域贡献的运算符。虽然深度学习模型中的标准卷积采用数据驱动的方法通过学习到的权重来提取特征，但最优密度函数整合了自适应的局部几何结构，通过空间变化的度量编码了关于图像结构的先验知识。这种几何正则化通过用结构先验约束解的空间来加速训练收敛并提高推理精度。从信号处理的角度来看，密度函数作为一种空间自适应的权重，能够反映局部强度变化和结构异质性，使模型能够更好地表征边缘、纹理模式等重要特征。将几何信息整合到卷积核中增强了邻域表示的信息内容，同时保持了信号的空间局部性，从而能够有效地表征具有复杂几何和纹理模式的图像。关于密度矩阵的秩-1对称约束及其计算复杂性，在所提出的框架中，密度函数被限制为秩-1对称矩阵，以减少计算复杂性并确保稳定的优化。这种选择既考虑了结构正则化的需求，也兼顾了复杂性和表达能力之间的平衡。对称性促进了局部邻域内的各向同性行为，这与局部图像统计在卷积核尺度上是不显示任意方向偏好的假设是一致的。这种约束防止了密度函数引入数据不支持的各向异性。从计算角度来看，一个完全不受约束的密度矩阵包含自由参数，而秩-1约束将自由参数减少到。最后，施加轴向对称性（对于奇数情况）并固定中心元素，将自由参数进一步减少到，这对内存使用和优化成本有显著影响。尽管增加自由参数的数量可以提高表达能力，但也会引入更复杂的优化过程，可能增加过拟合和超参数调整的难度。秩对称约束代表了一种折中方案，它在保证计算效率和稳定性的同时，保留了主导的自适应行为。这一分析为仅在确实需要额外表达能力的场景下进行更高阶扩展的未来工作提供了动机。例如，在图像的空间维度反映不同物理属性或在采集过程中受到约束的情况下。例如，在超声成像中，轴向分辨率取决于波长，而横向分辨率由换能器元件间距决定。同样，在磁共振成像中，平面内分辨率由空间梯度编码决定，而穿透平面分辨率（即切片厚度）通常受到采集时间和信噪比权衡的限制，导致体素尺寸的各向异性。加权卷积以与维度无关的方式被公式化，可以从2D图像扩展到3D体积数据，甚至可能的更高维度数据。从方法论的角度来看，加权卷积运算符可以直接从2D核推广到3D核，优化的密度函数成为一个定义在3D邻域上的空间变化体积场。底层的优化问题和归纳假设（例如局部性、空间一致性和分段平滑性）在3D域中同样有效。体积成像模式，如医学CT或MRI，在相邻切片之间显示出强烈的空间相关性，这使得它们非常适合通过加权卷积进行表示。我们的实验验证应用于2D数据集，重点关注所提方法的基本属性，并将结果与现有的2D方法进行比较。全面的3D实验，包括对体积医学数据集的评估，留待未来的工作完成。最后，加权卷积的维度版本可在https://github.com/cammarasana123/weightedConvolution2.0获得。3.5 计算成本我们通过将提出的框架的计算方面分为两个不同的部分来分析它们。第一部分涉及加权卷积，它被集成到学习架构中，作为标准均匀密度卷积的替代品。第二部分涉及用于计算密度函数最优值的全局优化，其计算成本是单独分析的。关于卷积运算符，我们比较了所提出的加权卷积与标准卷积在输入图像、输出通道和核大小相同情况下的计算成本。对于标准卷积，每个像素需要乘法运算（即核权重乘以输入值）和加法运算（即乘积的总和），每个像素产生浮点运算（FLOPs）。评估方程（2）的总计算成本为。对于方程（4）中的加权卷积，每个核元素与相应的密度函数元素相乘，然后应用标准的相同操作。额外的乘法运算每个像素产生FLOPs。总计算成本变为，相对于标准卷积增加了。使用PyTorch在NVIDIA GPU上的实验测试（第4.3节）显示计算开销大约为，显著低于理论值。这种差异主要是由于与CUDA执行管道和高效内存缓存相关的实现级因素。训练完成后，最优权重被存储在模型中。在推理时，网络使用带有这些权重的标准卷积进行操作，恢复了计算复杂性。因此，所提出的方法在推理时不会引入额外的计算成本。关于最优密度函数值的计算，我们回想一下，核权重是学习模型的变量，而密度函数的值是方程（6）中最小化问题的变量。假设秩-1对称性质并固定中心元素，一个核只定义了一个优化变量，因为有、和。通常，它需要变量。优化使用DIRECT-L算法进行，该算法在最坏情况下的复杂度为，尽管最近的变体提出了改进的性能。我们参考第4节对不同全局优化器进行了实验比较。4. 实验结果我们讨论了与SOTA方法在分类和去噪任务上的比较（第4.1节）、最优密度函数的计算（第4.2节）以及执行时间（第4.3节）。作为一种定义上的滥用，我们在定义中将称为密度函数。4.1 去噪和分类：与SOTA方法的比较我们在两个具有挑战性的图像处理任务上评估了加权卷积：大规模基准测试（100个类别）上的多标签分类和在不同噪声类型、强度级别和图像分辨率下的图像去噪。对于这两个任务，我们将所提出的方法与最先进的架构和机制进行了比较。与CIFAR-100上的SOTA分类方法比较我们在CIFAR-100数据集[44]上验证了加权卷积在多标签分类任务上的有效性，CIFAR-100是计算机视觉中广泛使用的基准测试。CIFAR-100由分辨率的彩色图像组成，分布在个类别中（每个类别图像），分为训练集和测试集。大量的类别和图像的低分辨率使得CIFAR-100相比之前实验中使用的STL-10数据集更具挑战性。我们比较了五种最先进的分类架构：VGG [45]、ResNet-56 [46]、NiN [47]、gMLP [48]和GAC-SNN [49]。对于每种架构，我们训练了两种变体：一种使用标准卷积，另一种使用通过DIRECT-L计算的最优密度函数进行加权卷积。为了公平比较，我们为所有方法定义了相同的超参数设置：随机梯度下降优化器，学习率为，动量为，权重衰减为，学习率的余弦退火，最大训练期为，基于验证损失的提前停止，交叉熵损失带有标签平滑，随机水平翻转用于数据增强，批量大小为。由于图像的分辨率较低，我们仅应用卷积核。核权重使用Kaiming初始化[43]进行初始化，标准和加权卷积使用相同的方案。表2报告了五种方法（标准和加权卷积）的准确率和F1分数。加权卷积在所有测试的架构中一致地提高了这两个指标。VGG的改进最为显著，使用加权卷积的准确率达到了，而使用标准卷积的准确率为，相当于提高了大约百分比点。ResNet-56从提高到了，GAC-SNN从提高到了。对于NiN和gMLP，改进较小但是一致的，这表明在卷积运算符不起主导作用的架构中，密度函数收敛到的值更接近均匀，但仍提供了可测量的好处。图1显示了所有五种方法的混淆矩阵，比较了标准卷积（左）和加权卷积（右）。混淆矩阵证实加权卷积在所有架构中一致地减少了误分类，VGG和GAC-SNN的改进最为明显。这些结果证实了加权卷积能够有效地跨不同的CNN架构进行泛化，并且能够适应大规模和具有挑战性的分类基准测试。表2. CIFAR-100分类：五种SOTA方法（标准和加权卷积）的准确率和F1分数。最佳结果以粗体显示。方法卷积准确率分数ResNet-56标准加权VGG标准加权NiN标准加权gMLP标准加权GAC-SNN标准加权下载：下载高分辨率图像（901KB）下载：下载全尺寸图像图1. CIFAR-100上标准（左）和加权（右）卷积的混淆矩阵：ResNet-56、VGG、NiN、gMLP和GAC-SNN。与DIV2K数据集上的SOTA去噪方法比较为了评估所提出的加权卷积在深度学习模型中的图像处理有效性，我们考虑了两种最先进的图像去噪架构：深度CNN的残差学习（DnCNN）[50]和无非线性激活网络（NAFNet）[51]。对于每种架构，我们训练了两种变体：一种使用标准卷积和均匀密度函数，另一种使用所提出的带有最优密度函数的加权卷积。实验在DIV2K数据集[52]上进行，该数据集由800张高分辨率图像组成，典型分辨率约为。作为预处理步骤，通过对图像进行多次随机裁剪并添加随机翻转和旋转来应用数据增强，从而生成大约3000个训练样本。用于模型选择的独立验证集包含80张图像，得到240个验证样本，而测试集包含50张高分辨率图像。所有模型都使用相同的超参数进行训练以确保公平比较：批量大小为16，AdamW优化器，学习率为，权重衰减为，以及余弦退火的热重启计划（）。网络参数通过最小化真实图像和去噪图像之间的MSE损失来优化。训练最多进行100个周期，并根据验证损失提前停止。核权重使用Kaiming初始化进行初始化，标准和加权卷积层都采用相同的初始化方案。我们评估了模型在不同噪声条件下的鲁棒性。具体来说，我们考虑了均值为零且具有三种不同标准差的加性高斯噪声，以及具有相同标准差集合的乘性斑点噪声。对于所有方法，都使用相同的清晰和噪声图像对来保证比较的一致性。最终性能通过在测试集上将去噪图像与相应的真实图像进行比较来评估，使用三个互补的指标：像素级指标（PSNR）、结构相似性度量（SSIM）和感知相似性指标（LPIPS）[53]。图2、图3、图4展示了在测试集上NAFNet和DnCNN使用均匀（c）和最优（d）密度函数进行卷积的定性比较。结果分别针对加性高斯噪声和乘性斑点噪声以及不同的噪声强度进行了报告。在所有示例中，与使用均匀密度函数进行卷积相比，使用最优密度函数进行卷积一致地提高了NAFNet和DnCNN的去噪性能。特别是，它能够更有效地抑制噪声，同时更好地保留图像结构和边缘等特征，并减少了视觉伪影的出现。例如，在噪声水平（）的情况下（图3），加权卷积在高斯噪声下更好地保留了花朵的轮廓，并更有效地抑制了斑点噪声，这在亮区域尤为明显，这是由于其乘性特性，例如在女性帽子的轮廓上。其他例子进一步突出了这些效果：加权卷积在高斯噪声下减少了水母触手上的残余噪声（图2），并在最高噪声水平下减轻了窗杆上的斑点噪声伪影（图4）。

下载：下载高分辨率图像（1004KB）
下载：下载全尺寸图像

图2。 (a)：真实图像，(b)：噪声图像；(c) 用均匀密度函数去噪；(d) 用最优密度函数去噪。高斯（第一行）和斑点（第二行）噪声。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图3。 (a)：真实图像，(b)：噪声图像；用(c)均匀密度函数去噪；(d) 用最优密度函数去噪。高斯（第一行）和斑点（第二行）噪声。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像

图4。 (a)：真实图像，(b)：噪声图像；用(c)均匀密度函数去噪；(d) 用最优密度函数去噪。高斯（第一行）和斑点（第二行）噪声。

表3、表4、表5报告了在不同噪声强度下，NAFNet和DnCNN使用均匀和最优密度函数的定量指标PSNR、SSIM和LPIPS的平均测试集值。我们回忆一下，更高的PSNR和SSIM表明去噪图像与真实图像的吻合度更好，而较低的LPIPS则对应于更好的感知相似性。加权卷积一致地提高了所有测试案例的定量指标。例如，对于DnCNN在高斯噪声下的情况，PSNR从32.30（均匀密度）提高到34.52（最优密度），提高了%。对于斑点噪声，DnCNN的SSIM从0.9575（均匀密度）提高到0.9716（最优密度）。最后，NAFNet在高斯噪声下的LPIPS从0.3424（均匀密度）降低到0.3159（最优密度），提高了%。

表3. DnCNN和NAFNet在不同噪声强度下的PSNR [dB]结果，使用均匀和最优密度函数。最佳结果以粗体显示。
噪声 | DnCNN | NAFNet
---- | ---- | ----
均匀 | 32.30 | 34.52 | 34.04 | 35.23
最优 | 29.09 | 31.02 | 31.17 | 31.82
高斯 | 25.82 | 27.62 | 28.36 | 28.91

表4. DnCNN和NAFCNN在不同噪声强度下的SSIM结果，使用均匀和最优密度函数。最佳结果以粗体显示。
噪声 | DnCNN | NAFNet
---- | ---- | ----
均匀 | 0.94 | 0.968 | 0.963 | 0.974 | 0.907
最优 | 0.901 | 0.916 | 0.951 | 0.986

表5. DnCNN和NAFCNN在不同噪声强度下的LPIPS结果，使用均匀和最优密度函数。最佳结果以粗体显示。
噪声 | DnCNN | NAFNet
---- | ---- | ----
均匀 | 0.237 | 0.200 | 0.204 | 0.166 | 0.348
最优 | 0.299 | 0.349 | 0.315 | 0.315

我们强调，对于DnCNN来说，这种改进通常比NAFNet更为明显，因为前者包含更多的卷积层，允许最优密度函数对网络表示产生更强的累积影响。图5展示了在整个测试集上，NAFNet和DnCNN在不同噪声强度下使用均匀和最优密度函数的PSNR指标的箱线图。结果一致地证实，最优密度函数在所有测试配置中都提高了定量指标的平均值。均匀和最优密度配置之间的标准差根据评估指标的不同而变化。对于SSIM和LPIPS，在高斯噪声下，最优密度通常可以降低变异性。例如，在某种噪声水平下，LPIPS的标准差从（均匀）降低到（最优），而在另一种噪声水平下，SSIM的标准差从降低到。相反，对于PSNR，使用最优密度函数时标准差略有增加。例如，在某种噪声水平下，PSNR的标准差从（均匀）增加到（最优）。

下载：下载高分辨率图像（241KB）
下载：下载全尺寸图像

图5。参考图2、图3、图4，我们展示了以下内容的箱线图：顶部：DnCNN，底部：NAFNet。(a,b)：高斯噪声。(c,d)：斑点噪声。(a, c)：均匀密度函数。(b, d)：最优密度函数。

在图6中，我们展示了DnCNN和NAFNet在验证集上的训练损失和PSNR的收敛情况，比较了使用均匀密度函数和最优密度函数的卷积，训练周期为200，学习率为。最优密度减少了两种架构的训练收敛时间。例如，使用最优密度函数的DnCNN需要21个周期达到最优验证损失，而使用均匀密度函数的卷积分别需要74和90个周期。

下载：下载高分辨率图像（240KB）
下载：下载全尺寸图像

图6. 训练损失（a, c）以对数刻度（轴），以及验证PSNR（b, d）（轴）与训练周期（轴）的关系，对于DnCNN（a, b）和NAFNet（c, d）。红线：均匀密度函数；红线：最优密度函数。

与低分辨率图像的比较
图7展示了加权卷积在低分辨率图像上的鲁棒性。具体来说，使用仅在高分辨率图像上训练的网络，我们评估了降采样到较低分辨率的图像的去噪性能。在调整大小过程中，较长的一边固定为128、256或512像素，而另一个维度则相应地缩放以保持原始纵横比。去噪是使用DnCNN架构在加性高斯噪声下进行的。（）使用最优密度函数的实现比使用均匀密度函数的卷积表现更好。它在128像素分辨率的示例中改善了标志边界的清晰度，并在512像素分辨率的示例中更有效地抑制了均匀区域（如天空和桥结构之间的区域）的残余噪声。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像

图7。 (a) 真实图像；(b) 噪声图像；(c) 用均匀密度函数去噪；(d) 用最优密度函数去噪。（第一行），（第二行），（第三行），DnCNN方法，高斯噪声。

图8和表6报告了在不同图像分辨率下，均匀和最优密度函数的PSNR、SSIM和LPIPS指标的平均值和箱线图。特别是，最优密度一致地改善了所有评估的指标，证明了在较低图像分辨率下的鲁棒性。

下载：下载高分辨率图像（229KB）
下载：下载全尺寸图像

图8。参考图7，展示了均匀（第一行）和最优（第二行）密度函数的箱线图。DnCNN方法，高斯噪声。

表6. 均匀和最优密度函数的性能比较，DnCNN方法，高斯噪声。
数据集 | PSNR | SSIM | LPIPS
------ | ------ | ------ | ------
均匀 | 25.36 | 27.11 | 10.86 | 51.00 | 0.30 | 37.02 | 26.27 | 27.92 | 0.88 | 14.09 | 0.90 | 95.00 | 0.28 | 16.02 | 0.88 | 16.00 | 0.94 | 0.91 | 90.00 | 0.87 | 19.00 | 0.91 | 0.91 | 16.00 | 0.95 | 11
最优 | 27.11 | 32.49 | 0.83 | 62.00 | 32.64 | 30.39 | 50.34 | 30.39 | 34.92 | 34.61 | 35.69 | 50.03 | 31.39 | 31.72 | 32.47 |

例如，在128像素分辨率下的PSNR从25.36增加到27.11，在256像素分辨率下的SSIM从0.881提高到0.919，在512像素分辨率下的LPIPS从0.264提高到0.188。

对低质量图像的鲁棒性
为了评估密度函数的泛化性能，我们在DIV2K数据集上训练模型DnCNN，然后在不同的数据集上测试训练好的网络。具体来说，我们考虑了DPED数据集[54]，该数据集包含使用不同智能手机设备在各种照明条件和获取设置下获取的60多张图像。结果（图9）显示，使用最优密度的卷积表现始终优于使用均匀密度的卷积。特别是在对比度低和强度分布几乎平坦的图像（第一行），以及在次优照明条件下获取的非常暗的图像（第二行）上，这种改进尤为明显。

下载：下载高分辨率图像（643KB）
下载：下载全尺寸图像

表7显示，在使用最优卷积与均匀卷积相比，测试数据集上的定量指标得到了持续改进。感知指标LPIPS从0.397提高到0.343，相当于相对提高了%。

表7. 在DPED数据集上，DnCNN方法，高斯噪声下，均匀和最优密度配置的性能比较。

表8报告了在不同训练超参数配置下，配备最优密度函数的DnCNN的去噪性能。实验是在DIV2K测试数据集的高分辨率图像上进行的，这些图像受到标准差为的高斯噪声的干扰。所提出的框架对于学习率显示出鲁棒性，因为在测试的配置中只观察到PSNR的微小变化。这表明优化密度函数引入了对卷积算子的隐式正则化，减少了网络对学习率选择的敏感性。相反，使用较小的批量大小可以提高PSNR，因为它提高了网络的泛化能力，但增加了计算时间。然而，这种效果与在卷积中使用最优密度还是均匀密度无关。然后，我们展示了增加核大小显著提高了去噪效果。例如，使用核得到的PSNR值为29.28 dB，而使用核则将PSNR提高到了31.03 dB。这些结果强调了密度函数在利用更广泛的空间支持方面的好处，这允许捕捉更大的空间相关性，并在使用均匀密度函数时减少了不相关或噪声信息的贡献。

表8. 使用不同超参数的最优密度函数的卷积在去噪准确性方面的鲁棒性。
学习率 | 1e-2 | 1e-3 | 1e-4 | 1e-5
---- | ---- | ---- | ----
PSNR | 31.80 | 31.86 | 31.23 | 31.03 |
空单元 |

尽管最优密度函数的确切形状随着核大小、输入数据集和学习架构的不同而变化，但密度函数的值通常随着与中心像素的距离增加而减小。例如，参考DIV2K数据集和DnCNN学习模型的实验测试，使用核的最优密度值显示了远处像素贡献的逐渐减弱。最后，结果表明矩形核也可以用于获得可比的去噪精度。这一结果进一步证明了所提出框架的灵活性，它不局限于正方形卷积支持，并且可以适应不同的核几何形状而不会降低性能。

不同机制之间的比较：动态卷积和自注意力
虽然动态卷积和基于注意力的模型在神经架构中引入了自适应加权，但它们依赖于与所提出的基于密度的卷积截然不同的数学原理和优化目标。动态卷积方法通过辅助网络生成输入依赖的卷积核或核混合。形式上，卷积算子成为输入表示的函数，优化过程通过基于梯度的训练共同学习核生成网络和卷积参数。这种设计提高了模型的灵活性，但也扩大了参数空间，并引入了额外的不稳定性来源，因为自适应滤波器直接依赖于输入特征的变化。注意力机制遵循不同的原理。自注意力和空间注意力计算特征表示之间的相似性分数，并使用这些分数来调节特征在空间区域或通道之间的交互。因此，所得到的权重完全是由数据驱动的，并由成对特征的相关性决定。因此，注意力层作为特征交互操作符，能够捕捉长距离依赖性，但它们并不显式编码关于空间局部性或图像形成过程的物理特性的结构假设。相比之下，所提出的具有密度函数的卷积通过引入一个空间密度来修改卷积操作符本身，该空间密度决定了相邻像素的相对贡献。与从特征激活中学习任意的权重图不同，密度函数表示了一个结构化的空间先验，它在卷积支持范围内强制局部性和几何一致性。重要的是，密度是通过解决与学习目标相关的优化问题获得的，而网络参数则通过标准优化程序独立训练。因此，卷积的自适应行为由一个明确的优化变量来控制，而不是由辅助网络或基于相似性的特征交互来控制。从建模的角度来看，这些方法在学习架构的不同层次上运作：动态卷积调整滤波器参数，注意力机制调整特征交互，而所提出的公式则调整卷积操作器的空间密度。这种区别意味着这三种机制属于不同的功能类别，不能互换使用。从实验的角度来看，动态卷积、自注意力和基于密度的卷积之间的比较本质上依赖于架构，因为每种机制对要学习的映射施加了不同的结构约束。在我们的实验中，我们保持所有方法相同的卷积主干架构，以隔离自适应机制的效果。在这种设置下，加权卷积通过优化的空间密度来调节核的贡献，自注意力通过全局空间依赖性增强卷积特征，而动态卷积通过输入条件下的核组合来调整滤波器。

图10报告了这些机制在相同数据集和损失函数下学习图像到图像变换的近似性能。结果表明，基于密度的卷积相比均匀卷积、动态卷积和自注意力实现了更低的损失值。这种改进反映了优化后的密度函数捕捉控制卷积操作器的空间分布的能力，同时保留了由局部性施加的结构约束。我们强调，这些机制不一定被解释为竞争性方法。相反，它们在模型设计的不同层次上运作，并且可以在混合架构中结合使用。然而，所提出的公式通过将卷积视为一个相对于可优化的空间密度函数定义的操作符，提供了一种提高现有学习模型逼近能力的原理性机制。所有考虑的机制都在相同的卷积主干架构中实现，而不改变整体网络深度或参数数量，以隔离自适应机制本身的效果。特别是，动态卷积和自注意力作为标准卷积层的即插即用替换，使我们能够与所提出的基于密度的卷积进行一致且公平的比较。

下载：下载高分辨率图像（172KB）
下载：下载全尺寸图像

图10. 训练损失函数（轴）与50个周期（轴）。(a) 动态卷积；(b) 自注意力；(c) 均匀卷积；(d) 最优卷积。表格显示了每种机制的最终损失值。

4.2. 最优密度函数：分析与消融研究
我们测试了不同的核大小。较小的核大小通常用于现代卷积神经网络（例如VGG [45]），而较大的核大小常用于初始层以捕捉更广泛的空间上下文（例如，ResNet-50 [55]的第一个层使用较大的核设计）。
我们在方程（6）中解决了所提出的学习模型，使用SGD优化器，学习率为。数据集由分辨率的图像组成。我们设置了步长和通道数量。密度函数的值用初始化，DIRECT-L的功能最小值的绝对容忍值为。我们计算了不同核大小的最优密度函数值，分别为核、核和核。图11、图12、图13分别显示了核、核和核的优化结果。图11中，优化器收敛到最优值。最优密度函数相对于均匀密度函数减少了的目标函数。图11（左）显示了值相对于目标函数的凸行为，最小值位于。图12中，优化器收敛到最优值、。最优密度函数相对于均匀密度函数减少了的目标函数。图13中，优化器收敛到最优值、和。最优密度函数相对于均匀密度函数减少了的目标函数。

下载：下载高分辨率图像（196KB）
下载：下载全尺寸图像

图11. 在核上的优化结果。左：相对于目标函数（轴）的值（轴）。中间：优化器迭代过程中的优化（轴）。右：优化器迭代过程中的目标函数（轴）。目标函数是MSE损失。

下载：下载高分辨率图像（246KB）
下载：下载全尺寸图像

图12. 在核上的优化结果。左：相对于目标函数的值（轴）和值（轴）：从蓝色（低）到黄色（高），以及损失函数最小值的黑色等值线。中间：优化器迭代过程中的值优化（轴）：上图表示，下图表示。右：优化器迭代过程中的目标函数（轴）。目标函数是MSE损失。

图13. 在核上的优化结果。左：相对于目标函数的值（轴）、值（轴）和值（轴）：从蓝色（低）到黄色（高），以及损失函数最小值的黑色等值面。中间：优化器迭代过程中的值优化（轴）：上图表示，中图表示，下图表示。右：优化器迭代过程中的目标函数（轴）。目标函数是MSE损失。

图11、图12、图13（右侧）显示了在求解方程（6）时优化器的目标函数。为了便于可视化，我们仅显示了前次迭代，而总迭代次数在第4.3节中讨论。目标函数的峰值由全局优化器DIRECT-L生成，该优化器不考虑函数的导数。因此，它在每个变量的整个范围内取值，导致在最初几次迭代期间收敛到最优值的行为不规则。图14显示了与核（左）、核（中）和核（右）相关的最优密度函数。我们强调了密度函数在卷积操作方面的行为：（i）最优密度函数在中心节点上的值更大，而外部节点上的值较低；（ii）最优密度函数在靠近中心节点的节点上的值更大，外部节点上的值更低；（iii）最优密度函数在靠近中心节点的节点上的值更大，在节点上的值较低，但仍高于中心节点的值，然后在外部节点上的值显著更低。这种形状的密度函数让人联想到具有适当参数化的著名基函数，如Catmull-Rom样条 [56] 和Ricker墨西哥帽小波 [57]。

下载：下载高分辨率图像（133KB）
下载：下载全尺寸图像

图14. （左）、（中）和（右）密度函数。轴上的节点，轴上的密度函数值。

关于密度函数对称性要求的分析
在我们的测试中，我们要求核的两个维度上的密度函数是对称的，即和，核的大小为。作为对此属性的进一步验证，我们优化了密度函数的值，移除了这两个约束。特别是，我们定义了第一个优化问题，使用核和优化变量，和，以及和。然后，我们定义了第二个优化问题，使用核和优化变量，和，以及和。在这两种情况下，我们的优化模型都显示密度函数的最优值满足对称性，即和分别。

关于密度函数和学习超参数的消融研究
优化方法计算最优值以最小化方程（6）的目标函数，而学习模型应用于在给定密度函数的情况下最小化方程（5）的损失函数（即方程（6）的迭代次数）。我们评估了值对学习模型超参数的鲁棒性。特别是，表9显示了在优化不同步长、周期数、数据集大小和学习模型架构（即通道数）值的情况下，核密度函数的最优值结果。在所有测试中，值收敛到的最优值。我们强调，当我们降低网络复杂性（例如，减少周期数或通道数）和减少数据信息（例如，数据集中的图像数量、步长值）时，这个值往往会增加。例如，当我们将周期数从增加到时，值从增加到；当我们将步长从增加到时，值从增加到。当我们增加学习阶段的冗余性（例如，更多的图像或周期数）时，最优密度函数增强了卷积的局部性，从而降低了靠近参考图像的像素的相关性。相反，减小图像大小（例如，从减少到）会降低的最优值，从而增加了卷积的局部性。最后，通道数影响可训练参数的数量；在这种情况下，当增加学习模型的复杂性时，密度函数也会收敛到最优值。

表9. 核大小下的最优值，相对于学习阶段的超参数。

步长1248
空单元格
0.42
0.42
0.47
0.49

周期数125
1020
50
1.48
0.82
0.53
0.46
0.42
0.42

图像数量10
30
60
120
0.90
0.77
0.45
0.42

图像大小：（行，列）
0.31
0.31
0.42
0.42
通道数（c）：--1248
160.66
0.44
0.42
0.42
0.42

与基于学习问题中的常见密度函数的比较
我们带有最优密度函数的卷积可以应用于任何深度学习架构。以深度残差学习（ResNet）网络 [46] 为例，我们使用STL-10数据集（500张图像，10个标签） [58] 解决多标签分类问题，并将不同的密度函数应用于卷积操作符：均匀、高斯、线性、立方以及我们的最优密度函数（图15(a)）。在50个周期的训练过程中，不同的密度函数具有类似的交叉熵损失（图15(b)），而我们的最优密度函数达到了最低的损失值。然后，表10显示了在不同密度函数下的测试数据集上的损失值。均匀密度函数在测试数据集上产生的交叉熵损失值为，对应于大约的分类准确性。我们的最优密度函数产生的损失值为，分类准确性为。图16显示了相应的混淆矩阵，其中使用最优密度函数的分类效果优于均匀、线性、高斯和立方密度函数。请注意，这种比较与第4.1节中的SOTA实验目的不同：它不是与最先进架构进行基准测试，而是通过将最优密度与其他非均匀密度函数进行比较来评估密度函数本身的贡献。

下载：下载高分辨率图像（237KB）
下载：下载全尺寸图像

图15. （a）不同的密度函数：均匀（蓝色）；斜率等于的线性（黄色）；高斯（红色）；我们的（绿色）。所有密度函数的中心值相等。（b）在ResNet网络中，不同密度函数的交叉熵训练损失（轴），50个周期（轴）。

表10. 我们报告了30张图像测试数据集上的交叉熵损失函数和分类准确性。最佳结果用粗体表示。

密度函数
均匀
线性
立方
高斯

我们的
损失函数
1.73
1.70
1.65
1.68

分类准确性

下载：下载高分辨率图像（489KB）
下载：下载全尺寸图像

图16.关于表10，我们报告了与以下密度函数相关的混淆矩阵：(a) 均匀密度；(b) 最优密度；(c) 线性密度；(d) 高斯密度；(e) 三次密度。我们使用高斯噪声对去噪任务进行了卷积测试。鉴于深度CNN（DnCNN）[50]网络和DIV2K数据集[52]（800张训练图像，100张验证图像，100张测试图像），我们分别训练了两种使用均匀密度和最优密度的模型。我们应用了相同的超参数，即100个迭代周期、Adam优化器和0.001的学习率。使用最优密度训练的模型在定量指标上取得了更好的结果，平均PSNR值为28.01，SSIM值为0.91，而使用均匀密度训练的模型相应指标较低。根据图17，最优密度在减少噪声（例如鸡眼周围的噪声）的同时保留了轮廓和纹理模式（例如水滴的颜色和对比度）。我们强调，我们的目标不是实现一个高效的学习架构，而是计算适用于学习架构的最佳密度函数，将其与均匀密度和常见密度函数进行比较，并将其推广到不同的基于学习的问题中。

下载：下载高分辨率图像（917KB）
下载：下载全尺寸图像

图17. (a) 含有高斯噪声的输入/噪声图像。 (b) 使用均匀密度的去噪图像。 (c) 使用最优密度的去噪图像。

全局优化器之间的比较
图18展示了六种不同全局优化算法在DIV2K数据集的去噪问题中计算密度函数最佳值的比较，这些算法使用了相同的学习模型（即DnCNN）和相同的超参数。所考虑的优化器包括DIRECT-L、控制随机搜索（CRS）[59]、粒子群优化（PSO）[60]、AGS、改进的随机排名进化策略（ISRES）[61]和进化算法（ESCH）[62]。我们强调，所有六种优化方法都表现出一种振荡的收敛行为，即在向最优解靠近的过程中交替出现下降和上升。这种行为直接源于它们的全局（而不是局部）特性：为了避免过早收敛到次优解，这些算法会积极探索变量的整个域，定期评估远离最优解的候选解。

下载：下载高分辨率图像（649KB）
下载：下载全尺寸图像

图18. 全局优化器的目标函数（y轴）与迭代次数（x轴）的关系：(a) DIRECT-L，(b) CRS，(c) PSO，(d) AGS，(e) ISRES，(f) ESCH。

表11报告了每种优化器达到收敛所需的迭代次数以及相应的最小值。在测试的方法中，DIRECT-L仅用了123次迭代就取得了0.076的最小值。AGS用了120次迭代达到了0.087的最小值，而其他方法则需要更多的迭代次数，并且收敛到的目标函数值比DIRECT-L更高。

表11. 全局优化器之间的比较。最佳结果用粗体表示。
方法目标函数迭代次数
DIRECT-L 0.076 123
CRS 0.10 204
PSO 0.085 179
AGS 0.087 212
ISRES 0.086 748
ESCH 0.084 400

关于秩-1对称约束的分析
根据在DIV2K数据集上的实验测试，我们报告了去除水平方向（图19(a)）和垂直方向（图19(b)）的对称性约束后获得的损失值。在第一种设置中，模型使用了一个核并优化了两个变量，并定义了相应的参数。在第二种设置中，同样使用两个变量，参数被定义为。这个实验旨在评估密度参数的最佳值是否遵循对称性属性。我们观察到，在这两种情况下，目标函数相对于优化变量都表现出凸性行为。这一结果证实了寻找最优解与密度函数诱导的几何结构是一致的，支持了其对几何解释的有效性。在第一种设置中，尽管仍存在轻微不平衡，但最优解接近于满足对称性。相比之下，在第二种设置中，最优参数分别为和，表明本研究中使用的图像数据在垂直和水平维度上表现出不同的局部特性。总之，虽然在两个方向上强制执行对称性约束会降低模型在最小化目标函数方面的表现能力，但同时也显著降低了总体计算成本，因此在几何可解释性和学习模型的表示精度之间需要权衡。

下载：下载高分辨率图像（183KB）
下载：下载全尺寸图像

图19. 没有对称性约束时的损失函数值（a）和有对称性约束时的损失函数值（b），分别用（红色轴）和（绿色轴）表示。颜色图从蓝色（低值）到黄色（高值）。最小值用黑色标出。

4.3. 执行时间
我们讨论了在标准硬件和高性能计算（HPC）环境下加权卷积以及密度函数优化的执行时间。
卷积与密度函数
我们比较了应用密度函数和不应用密度函数时的卷积执行时间，其中不应用密度函数在数值输出上等同于应用所有组件都等于的均匀密度函数。我们的测试在配备AMD Ryzen 9 7845HX CPU（3 GHz时钟频率）、16 GB RAM和NVIDIA GeForce RTX 4070 GPU（8GB vRAM）的标准工作站上进行。表12总结了在不同学习模型参数（即输出通道数量和核大小）下，应用密度函数和不应用密度函数的卷积执行时间。给定一个格式为batch size、输入通道数量、行数和列数的图像，我们测试了不同的输出通道数量和核大小。与不应用密度函数相比，应用密度函数的卷积执行时间增加了约。当增加核大小时，执行时间减少，因为处理的补丁数量减少了。此外，当增加卷积的输出通道数量时，执行时间也会增加。为了测试单个卷积操作，我们定义了一个图像和一个核大小。在这种情况下，应用密度函数的卷积执行时间也比不应用密度函数时增加了约。

表12. 不同核大小和输出通道数量的卷积执行时间（以毫秒为单位）。

密度函数优化
最优密度函数的计算通过DIRECT-L优化方法完成。执行时间取决于变量的数量（即核的大小）和学习模型的执行时间。给定一个包含200张图像和720个可训练参数的学习模型，并训练了20个迭代周期，表13显示了不同核大小的DIRECT-L执行时间和迭代次数。使用核大小时的执行时间从秒减少到秒。

表13. 不同核大小的DIRECT-L执行时间和迭代次数。学习模型定义为迭代周期次数、图像数量、步长和输出通道数量。

密度函数优化的实际可行性和并行化
表13中报告的执行时间是指DIRECT-L优化器在标准硬件上完全收敛所需的时间，这是为了对最优解提供严格的数值保证。然而，从实际角度来看，图11、图12和图13显示的DIRECT-L的收敛行为表明，在优化器的前几次迭代中就已经得到了最优密度函数值的良好近似，远早于完全数值收敛。这一观察显著降低了实际应用场景中的优化成本。此外，一旦为给定架构和数据集计算出了最优密度函数，就可以在多次训练中重用而无需重新计算，类似于深度学习中的标准超参数调整实践。在高性能计算环境中，密度函数优化的计算成本大大降低。DIRECT-L的每次迭代都需要评估目标函数，这相当于对给定值的CNN模型进行一次完整的训练。关键的是，这些函数评估彼此完全独立，因此可以并行分布在多个计算节点上，每个节点运行一次独立的CNN训练会话。在现代HPC集群上，可以同时分配多达个节点，这种并行策略有效地将每个DIRECT-L迭代的实际运行时间减少了与可用节点数量成比例的因子。我们注意到DIRECT-L是一个顺序算法，因为第次迭代中候选点的选择依赖于第次迭代的结果。这一限制了迭代间的并行程度。然而，我们建议将优化组织成少量优化轮次，每轮包括一批并行函数评估。实际上，三轮每轮包含次并行评估的优化就足够识别出接近全局最优的密度函数值。在这种方案下，密度函数优化的实际运行时间减少到了仅相当于CNN模型的一次顺序训练会话，使得这种方法即使在大型架构上也具有计算可行性。我们强调，这一过程遵循了一个双层格式，其中方程（6）中外部目标的每次评估都需要通过SGD对内核权重进行完整优化，如方程（5）所定义的。这两个层次是明确耦合的：内部问题在给定的条件下优化，而外部问题基于内部结果进行优化。这种双层结构确保了最优密度函数总是与相应的最优网络参数一起计算，因此不应被视为离线的预计算。

在HPC环境中的计算效率
为了评估密度函数在现代HPC环境下训练模型时的计算开销，我们比较了torch.nn.functional库[63]中的标准PyTorch卷积实现与将我们的密度函数纳入同一卷积操作的实现。实验在CINECA的Leonardo超级计算机上进行，该计算机配备了BullSequana X2135 “Da Vinci”节点，每个节点配备了一个双插槽32核Intel Xeon Platinum 8358 CPU（2.60 GHz，Ice Lake架构）和一个NVIDIA A100 64GB HBM2e GPU（Ampere架构）。测试在形状为、32个输出通道的输入张量上进行，卷积核的大小分别为、和。每种配置在50次迭代后进行评估，之前进行了10次迭代的热身阶段以确保测量结果的稳定性。

在CPU上，所有核大小下的两种变体表现相似：应用密度函数的卷积平均执行时间分别为毫秒、毫秒、毫秒和毫秒，而标准卷积分别需要毫秒、毫秒、毫秒和毫秒。这些差异（、和）都在统计噪声范围内，表明计算密度函数的开销被卷积操作的成本抵消了。在GPU上，应用密度函数的卷积分别需要毫秒、毫秒、毫秒和毫秒，而标准方法需要毫秒、毫秒、毫秒和毫秒，相应的计算开销分别为、和。我们注意到，随着核大小的增加，计算开销减小。两种方法的内存消耗相当，最大GPU内存使用量在MB和MB之间，两者之间没有显著差异。

我们通过比较在不同输入图像分辨率下的卷积（应用密度函数和不应用密度函数）来分析计算开销的变化，其中输入张量的形状为。随着空间分辨率的提高，密度函数引入的计算开销也随之减少。对于核大小为的情况下，开销从在图像上降低到在图像上，进一步降低到在图像上。这一结果在所有核大小上都是一致的，表明密度函数的计算成本随着高分辨率图像所需的大规模张量操作而逐渐得到摊销。

5. 结论与未来工作
我们定义并计算了2D图像和学习问题中加权卷积算子的最优密度函数，并在不同核大小和学习超参数上验证了其属性。将最优密度函数应用于学习模型中的加权卷积，可以利用这种方法将网络的损失函数相对于标准卷积降低。作为后续工作，我们计划将这种最优加权卷积方法应用于实际的深度学习问题（例如，分割、分类），并结合最先进的网络架构（例如，efficientNet[64]、uNet[65]），处理2D和3D图像数据，并比较使用标准卷积与加权卷积时的学习效果。此外，我们还致力于在生物医学成像数据（如2D超声和3D MRI）上评估这种加权卷积方法，解决形态学分析、病理分类和疾病检测等任务，并有可能将其扩展到多模态成像场景中。相关的初步验证结果已在[66]中进行了讨论。

CRediT作者贡献声明：
Simone Cammarasana：负责撰写初稿、数据可视化、验证、软件开发、资源整合、方法论设计、实验实施、正式数据分析以及数据整理和概念框架构建。
Giuseppe Patanè：负责撰写初稿、验证过程、项目监督、资源协调、项目管理工作、方法论设计、资金筹集、正式数据分析以及数据整理和概念框架构建。

热点排行