编辑推荐:
DPCN-SCA通过引入双向架构和顶向下注意力机制,改进深度预测编码网络的特征解释性,在ImageNet等数据集上分类准确率提升超20%。
李洪明|丁琦|何塞·C·普林西佩
佛罗里达大学计算神经工程实验室,盖恩斯维尔,32611,FL,美国
摘要
本文提出了一种新的训练方法,用于具有注意力机制的稀疏卷积深度预测编码网络(DPCN-SCA)。该方法秉承自监督学习的理念,充分利用了双向架构,并借鉴了自编码器的自上而下的结构。我们修改了传统方程以适应这种额外的自上而下的信息流,并展示了这种修改对于DPCN新应用的重要性,例如作为对象级信息压缩的视觉记忆,以及提高学习特征的可解释性。
在几个流行的基准数据集上验证了具有六个卷积层(类似于AlexNet)的DPCN-SCA的有效性。在可视化结果中,我们观察到DPCN-SCA首先在较低层提取详细特征,然后在更深的层中专注于轮廓,这反映了监督卷积神经网络(CNN)的行为,尽管它避免了显式标签的使用。当最深层的特征图被限制为仅保留1-5%的非零激活时,DPCN-SCA在可比的稀疏度水平下显著超过了所有无监督稀疏编码基线,分类准确率提高了20%以上。此外,我们引入了一种新的可视化方法来展示DPCN的深层结构。该方法将深层感受野的激活值投影回输入空间,从而可以清晰地观察各个滤波器捕获的注意力模式。代码可在以下链接找到:
https://github.com/hongmingli1995/DPCN-SCA引言
预测编码理论旨在通过一个分层潜在变量模型来紧密估计动态环境(视频或声音)中的外部感官刺激,并尝试重建输入。这种建模方法在生物学上是合理的、无监督的、生成性的,并具有坚实的贝叶斯学习基础(Friston和Kiebel,2009;Rao和Ballard,1999)。具有两个内部变量(自下而上的状态和自上而下的原因)的广义状态模型不断更新,以推断环境的潜在状态和感官刺激的物理原因。随后,通过实现双向架构,这些确定的原因使得在潜在空间中重建刺激成为可能,该空间以高级特征为特征。基于预测编码的方法因其生物学合理性而被探索(Friston,2008;Jehee等人,2006;Srinivasan等人,1982);然而,早期版本在提取复杂刺激的高度非线性原因或实现多层结构方面存在不足。为了解决这些限制,我们的实验室等人开发了多层深度预测编码网络(DPCN)(Chalasani和Principe,1992;Principe和Chalasani,2014)。我们的研究表明,DPCN能够从小尺寸帧中识别时间、空间和时空刺激中的区分性原因。首次尝试使用卷积结构处理大图像(Chalasani和Principe,2013)受到稀疏性的限制,性能没有超过两阶段模型,这意味着多尺度学习停滞不前。相比之下,最近的加速DPCN(ADPCN)(Sledge和Principe,2021)采用了卷积结构,并专注于提高近端梯度算法的收敛速度,通过循环训练状态来改进特征,从而提高了重建效果。
DPCN结构利用稀疏表示编码,在理解视觉场景中起着关键作用(Li等人,2022b;Papyan等人,2017;Zhao等人,2023),这是计算机视觉任务(如分类和对象检测)中的关键组成部分。与通常被视为黑箱的流行深度神经网络不同,稀疏表示编码的概念出现在三十年前,它引入了一种生物学上合理的范式,其中自然信号被表示为最少数量的基本构建块或“原子”的线性组合(Rao和Ballard,1999),而无需使用标签。这种方法不仅有坚实的理论基础,还引发了大量研究,主要集中在两个主要方向:追求分层稀疏分解和通过直接从真实世界数据创建和精炼更具解释性的原子(Deng和Dragotti,2020;Sulam等人,2018;Sun等人,2018;Zhao等人,2023)。特别是字典学习的发展,增强了稀疏编码技术,使其在从信号和图像处理到机器学习中的更广泛应用中取得了令人印象深刻的结果。然而,之前的DPCN架构未能使DPCN特征真正“深入”,因为它们是逐层学习的,从底层逐步向上进行。因此,随着学习过程深入到更深的层,输入信息会迅速衰减。从全局优化的角度来看,这一挑战也可以这样理解:较低层的最优解可能会给上层带来显著的学习困难(Bengio等人,2006;Karimi等人,2024;Teng等人,2020;Xiang等人,2021)。因此,经过两到三层处理后,重建的图像和稀疏特征会退化为颜色斑点或无序的模式(Sun等人,2019;Zeiler等人,2011;Zhang等人,2017)。
另一方面,深度自编码器(Hinton和Salakhutdinov,2006;Ho等人,2020;Kingma,2013)在二十多年前首次引入,通过连续的功能组合层演变为处理高维数据的强大工具,尽管没有明确的原因和严格的自下而上的处理过程。自编码器的一个关键进步是在反向传播学习过程中,每一层的更新都受到更深层的影响(Hinton和Salakhutdinov,2006),这是多层稀疏编码方法所缺乏的,如图1所示。这一优势通过简单的成本函数得以实现,足以创建关于输入数据最具信息量的内部代码。
受到自编码器训练的启发,我们在DPCN中增加了显式的自下而上-自上而下的(编码器-解码器)结构,该结构在整个训练过程中整合了上层的结果。我们还修改了传统的DPCN方程以利用这种新结构。因此,这种提出的方法为图像引入了一种新的非线性具有注意力的稀疏深度预测编码网络(DPCN-SCA),它保留了逐层训练的方法,增强了内部特征的区分能力并提高了可解释性。这使得可以在任何层可视化学习到的内部卷积滤波器。与稀疏编码社区常用的原子级可视化方法(Sulam等人,2018)相比,这种新技术在原子缺乏语义清晰度、滤波器尺寸过小或需要更高分辨率时,能够明确深层卷积特征。用户理想情况下只需从顶层选择一个特征图,该方法尝试重建输入以及与所选顶层滤波器对应的内部表示。总之,DPCN-SCA结合了多层预测编码理论,采用了CNN风格的卷积结构,并通过实现双向自下而上/自上而下的推理过程和使用它进行学习,类似于自监督学习。
- •
本文介绍了DPCN-SCA,它包含了一个具有自上而下注意力的块间双向结构,使网络能够“深入”并显著提高深度表示的质量——这是先前DPCN或其他稀疏编码框架中尚未解决的问题。我们进一步提供了理论分析,证明了这种块间双向机制的有效性。
- •
该模型包含六个卷积稀疏编码层(深度与AlexNet相当),即使在最深层也能有效保留对象级特征。尽管在所有特征图和参数中强制执行高稀疏性(通常非零值小于1%到5%),这些特征仍然具有视觉可解释性。
- •
DPCN-SCA在可比的稀疏度水平下显著超过了所有无监督稀疏编码基线,在ImageNet等具有挑战性的数据集上实现了超过20%的绝对分类准确率提升。
- •
我们还提出了一种适用于DPCN和其他稀疏编码模型深层的新可视化技术。该方法将深层激活值投影回输入空间,使得与各个学习到的卷积滤波器相关的注意力模式能够清晰解释。
部分摘录
初步介绍和相关工作
由于稀疏编码能够从高维数据中提取可解释的、局部化的、类似边缘的特征,因此它已被广泛应用于计算机视觉和信号处理任务。在神经科学中,稀疏编码为哺乳动物视觉皮层中的感受野结构提供了原理性的解释,并已被用于感知的计算建模(Olshausen和Field,1996;Olshausen和Field,1997)。在医学数据处理中,它提供了紧凑且抗噪声的
具有注意力的稀疏卷积深度预测编码网络(DPCN-SCA)
在深入探讨DPCN-SCA的技术细节之前,有必要解决一个核心问题:为什么我们在DPCN中保留,特别是考虑到一些DPCN结构(S Santana等人,2017)认为去除它会提高某些任务的性能,而其他研究(Sledge和Principe,2021)则将其简化为?1惩罚的适应性系数?
如果我们移除原因层,DPCN将退化为多层卷积稀疏编码(ML-CSC)框架
实证分析
在本节中,我们将我们的训练和可视化方法与领先的卷积方法进行了比较,包括逐层卷积稀疏编码(Zeiler等人,2011)、ML-CSC(Sulam等人,2018)、ADPCN(Sledge和Principe,2021),在MNIST、Fashion-MNIST、CIFAR-10和降采样后的ImageNet上进行测试。实验部分的组织如下。第4.1节提供了使用最深层生成的重建结果对DPCN-SCA和基线的比较,实证证明了
结论
本文提出了一种对DPCN基本架构的新修改,通过消除大型训练集中获得的内部分特征的天然重叠,提高了其内部表示的质量,并改善了特征的可视化。
基本思想是在DPCN架构中引入自编码器结构,其特征是非线性原因u和相应的字典集
CRediT作者贡献声明
李洪明:撰写——审稿与编辑,撰写——原始草稿,可视化,验证,软件,方法论,概念化。丁琦:撰写——审稿与编辑,可视化,软件,调查。何塞·C·普林西佩:撰写——审稿与编辑,监督,项目管理,方法论,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。