编辑推荐:
本文提出InsNet,一种基于不定谱核的深度学习框架,通过扩展希尔伯特空间至Krein空间并放松正定性约束,有效捕捉复杂数据结构,提升模型可解释性和表达能力。实验验证其在多数据集上的优越性。
薛艳芳|薛慧|朱世鹏
东南大学计算机科学与工程学院,南京,210096,中国
摘要
以神经网络(NN)为主的深度学习与核方法有着深刻的联系,为这两种范式之间的相互发展提供了丰富的机会。因此,研究人员倾向于将深度学习与核方法相结合,从而产生了深度核学习技术。特别是,核方法的整合为缓解深度模型的“黑箱”性质提供了一种原则性的方法,通过对深度模型施加结构化归纳偏见来提高其可解释性。相反,分层神经网络的整合使核方法能够采用分层参数化,显著增强了它们的表达能力并扩展了应用范围。尽管取得了这些进展,现有的深度核学习方法仍然受到正定核的限制,这限制了它们在捕捉数据中的复杂结构和关系方面的表现能力。为了解决这个问题,我们提出了深度不定谱核网络(InsNet),这是一个新颖的框架,它通过放宽正定性约束来推广传统的希尔伯特空间公式,从而实现对复杂数据依赖关系的更灵活和更具表现力的建模。具体来说,首先基于带符号测度的分解估计一个不定谱核映射,该映射包含具有复数值表示的正定和负定成分。然后通过一种新颖的初始化方案堆叠这些映射来构建InsNet。除了架构创新之外,我们还对InsNet进行了严格的理论分析,考察了其结构特性和泛化界限。在合成数据和真实世界数据上的广泛实验表明了InsNet的优越性能,突显了其实际优势。
引言
深度学习[1]、[2]、[3]和核方法[4]、[5]、[6]通过利用它们的独特优势取得了显著的成功。然而,它们各自都面临着根本性的限制。尽管深度学习模型在经验表达上非常强大,但通常被视为黑箱模型,缺乏过程级别的可解释性。相反,核方法基于严格的数学基础,提供了清晰的结构可解释性,但本质上较为浅层,因此在处理复杂任务时遇到困难。有趣的是,这两种范式之间存在着深刻的联系[7],为相互发展提供了机会。因此,研究人员倾向于将深度学习与核方法相结合,从而产生了深度核学习技术。一方面,核方法的整合为缓解深度模型的“黑箱”性质提供了一种原则性的方法,从而提高了其可解释性。这种设计对深度模型施加了结构化归纳偏见,使它们能够编码关于平滑性、互惠模式和非欧几里得关系的先验假设,而这些在标准深度神经网络(DNN)中很难明确控制。具体来说,深度谱核允许逐层进行谱解释,其中每一层都可以理解为对学习到的表示施加特定的谱约束。另一方面,DNN的引入使核方法能够采用分层参数化,显著增强了它们的表达能力并扩展了应用范围。
在深度核学习方面,研究人员投入了大量努力进行研究并取得了重大进展。一项开创性的工作是Arc-cosine核[8],它通过引入递归核映射,将输入变换迭代应用L次来模拟NN架构。在此基础上,研究人员开发了越来越复杂的深度核方法,能够建模复杂的数据结构及其复杂的相互作用。例如,张等人[9]提出了一个带有平稳正定核的堆叠核网络来捕捉数据背后的非线性模式。薛等人[10]将这一方案扩展到非平稳正定核,以更紧凑的方式捕捉数据的长距离依赖性。此外,薛等人[11]将其推广到复数值表示,以增强表示能力。这些发展展示了深度核方法在结合核方法的理论严谨性和深度学习的表达能力方面的巨大潜力。
然而,现有的深度谱核方法通常依赖于正定核,这一选择源于基于Bochner定理的经典核构造。这一限制将可接受的谱表示限制在非负测度上,限制了它们挖掘数据中复杂层次结构和互惠关系的能力。前者表示数据之间的相互作用[12],例如生物医学中的相互促进和抑制[13]。后者指的是多尺度组织结构[14],例如序列数据和图像数据中的从局部到全局、从低级到高级的信息[15]和[14]。值得注意的是,现有研究表明,不定核在再生核Kre?n空间中提供了丰富的表示能力来建模这些特征。然而,Bocher定理不再适用于不定核,因为不定核通常同时包含正定和负定成分。正定核和不定核之间的根本差异阻碍了概率采样和堆叠的直接转移。因此,需要更多的努力来开发一个能够打破核网络中正定性约束的新框架。
在本文中,我们提出了深度不定谱核网络(InsNet),这是一个新颖的框架,它通过将基于正定核的傅里叶变换得到的显式谱核映射推广到不定设置,从而扩展了深度谱核网络。该方案通过放宽正定性约束来扩展标准希尔伯特空间,实现对数据中复杂层次结构和关系的更灵活和更具表现力的建模。具体来说,我们首先基于Bochner定理[16]和带符号测度[17]推导出一个不定谱核映射,得到复数值表示。然后,我们按照复数运算的规则堆叠这些不定谱核映射来构建InsNet。注意,我们还为权重矩阵引入了一种新颖的初始化方案,其中实部和虚部分别用块对角矩阵和反对角矩阵进行初始化。这种初始化方案保留了不定核的统计特性。除了架构创新之外,我们还对InsNet进行了严格的理论分析,考察了其结构特性和泛化界限。此外,我们通过合成数据和真实世界数据的广泛实验评估了InsNet的性能,证明了其在所有评估指标上的优越性。
本文的其余部分组织如下。第2节中,我们介绍了符号、预备知识和相关工作。第3节详细介绍了所提出的InsNet。第4节从组件和泛化的角度对InsNet进行了理论分析。第5节我们在合成和真实世界数据集上进行了实验,展示了InsNet的实际优势。最后,我们在第6节简单总结了本文。
节选
预备知识
本节介绍了更好地说明所提出的InsNet所需的预备知识。在本文中,矩阵、向量和标量分别用粗体大写字母(例如,X)、粗体小写字母(例如,x)和小写字母(例如,x)表示。复数表示为,其实部为u,虚部为v。表示z的复共轭。对于任意两个复数