基于签名变换的无限深度贝叶斯神经网络:一种提升鲁棒性与可靠性的新框架

《Neurocomputing》:Infinitely deep Bayesian neural network with signature transform

【字体: 时间:2026年01月01日 来源:Neurocomputing 6.5

编辑推荐:

  本文推荐一篇发表于《Neurocomputing》的研究,该工作针对当前连续深度贝叶斯神经网络(BNN)在随机性下面临的可靠性与鲁棒性不足等问题,创新性地将粗糙路径(Rough Path, RP)理论中的签名变换(Signature Transform)引入部分无限深度BNN的权重演化过程,提出了BNN-RDE模型。研究通过图像分类(CIFAR-10, CIFAR-10C)任务验证了该模型在保持神经随机微分方程(Neural SDE)记忆效率与精度的同时,其可靠性与鲁棒性优于现有神经SDE模型,为不确定性量化与稳健学习提供了新思路。

  
在深度学习领域,残差网络(ResNet)通过引入跳跃连接有效缓解了梯度消失问题,而其连续深度极限——神经常微分方程(Neural ODE)的提出,进一步赋予了模型更灵活的结构与动态计算优势。然而,点估计参数的传统神经网络常面临对预测过度自信、易受对抗攻击及可解释性差等挑战。为此,贝叶斯神经网络(Bayesian Neural Networks, BNNs)将网络参数视为概率分布,通过贝叶斯推断进行估计,从而集成不确定性量化能力,提升模型泛化性与稳健性。在此基础上,研究者进一步将贝叶斯推断与连续深度网络结合,发展出贝叶斯神经ODE(Bayesian Neural ODE)及贝叶斯神经随机微分方程(Bayesian Neural SDE, BNN-SDE)等模型。BNN-SDE假设网络权重遵循随机过程(如Ornstein-Uhlenbeck过程),并通过随机变分推断(Stochastic Variational Inference, SVI)进行更新,虽能捕捉参数不确定性,但全随机性常伴随高昂的计算成本,且可能引入不稳定性,影响模型可靠性。
近期研究表明,部分随机性(Partial Stochasticity)可在降低计算复杂度的同时,保留全随机性在不确定性量化方面的优势。然而,如何在连续时间框架下有效平衡随机性的引入与模型稳健性,仍是一个待解决的关键问题。另一方面,粗糙路径(Rough Path, RP)理论,特别是其核心工具——签名变换(Signature Transform),为处理“正则性差”的非光滑路径(如布朗运动样本路径)提供了强有力的路径化(Pathwise)框架。签名变换能压缩随机过程的内在随机性,并从中提取丰富的路径统计信息,已在处理长时间序列、不规则时间序列及签名核方法等领域展现出优势,例如在分析慢地震序列时其性能甚至优于图卷积网络(GCNs)。
受此启发,来自日本大阪大学的研究团队在《Neurocomputing》上发表论文,提出了一种新颖的部分无限深度贝叶斯神经网络模型(BNN-RDE),巧妙地将签名变换与部分随机性的贝叶斯神经网络相结合。该模型的核心创新在于,仅假设输入层的权重演化由布朗运动签名变换驱动的微分方程所控制,而其他层的权重则遵循常微分方程。这种设计旨在利用签名变换的路径化特性来压缩随机性带来的不稳定性,同时通过部分随机性降低计算开销。权重更新采用近似贝叶斯计算(Approximate Bayesian Computation, ABC)方法。实验结果表明,在CIFAR-10图像分类及其损坏版本CIFAR-10C的鲁棒性测试中,BNN-RDE模型在准确率、预期校准误差(Expected Calibration Error, ECE)及对输入损坏的稳健性方面均优于现有的神经SDE模型,同时保持了较高的训练效率。
为开展研究,作者主要应用了几项关键技术方法:1) 粗糙路径理论与签名变换:用于构建驱动权重演化的随机过程,将布朗运动提升为粗糙路径并计算其签名,以实现随机性的路径化处理;2) 粗糙微分方程(Rough Differential Equation, RDE):作为描述权重连续演化的数学框架,替代传统的随机微分方程;3) 近似贝叶斯计算(ABC):用于逼近真实后验分布,避免显式似然函数的计算;4) 欧拉求解器:用于数值求解由签名变换驱动的权重微分方程系统;5) 图像分类任务基准测试:使用CIFAR-10和CIFAR-10C数据集评估模型的分类准确率、校准误差和抗输入腐蚀能力。
1. 背景
研究背景部分回顾了从残差网络(ResNet)到神经ODE(Neural ODE)的演变,以及在此基础上引入贝叶斯推断的贝叶斯神经ODE和BNN-SDE模型。尽管BNN-SDE提供了不确定性估计,但其全随机性导致计算成本高且可能影响模型可靠性。部分随机性BNN(Partially Stochastic BNN)虽能缓解此问题,但如何有效融入连续时间框架并保持稳健性仍需探索。粗糙路径理论及其签名变换工具为处理非光滑路径和压缩随机性提供了新途径。
2. 粗糙路径与粗糙微分方程
本章节首先介绍了粗糙路径理论的基本概念,包括H?lder连续性、粗糙路径的定义(满足特定代数条件的连续映射)以及受控路径的概念。随后,给出了粗糙微分方程(RDE)解的存在唯一性定理(Proposition 3.3),并指出当驱动路径为布朗运动提升得到的粗糙路径时,RDE的解与经典SDE的解相一致(Proposition 3.5)。这为在贝叶斯神经网络框架下使用粗糙路径理论奠定了数学基础。
3. 基于签名变换的先验过程
研究提出了BNN-RDE模型的核心思想:构建一个由签名变换驱动的先验权重过程。具体而言,仅让输入层的权重演化由布朗运动的签名变换驱动的RDE所控制,而其他层的权重演化则由ODE描述。这样,模型既引入了必要的随机性用于不确定性估计,又通过签名变换的路径化框架和部分随机性设计,旨在增强模型的稳健性并控制计算复杂度。Proposition 4.1 给出了该先验过程在特定假设下的具体数学形式。近似后验则通过另一个由签名变换驱动的微分方程来参数化。
4. BNN-RDE模型
本章节详细描述了所提出的BNN-RDE模型。模型将连续深度网络中的隐藏状态和权重的联合演化表述为一个微分方程系统。其中,权重过程被分解为随机部分(输入层)和确定性部分(其他层)。随机部分的演化方程融入了布朗运动的签名变换。训练过程采用ABC方法,通过比较模拟数据与观测数据的差异(使用交叉熵损失)来更新近似后验。算法部分概述了模型训练的关键步骤。
5. 实验
实验部分在图像分类任务(CIFAR-10)上评估了BNN-RDE模型的性能。
5.1. 图像分类:结果表明,BNN-RDE模型在分类准确率上优于或与BNN-SDE、部分随机BNN-SDE(BNN-PSDE)等基线模型相当,同时取得了更低的预期校准误差(ECE),表明其预测置信度更接近真实概率,可靠性更高。在训练效率方面,BNN-RDE每个epoch所需时间显著少于BNN-SDE模型,显示了其计算效率的优势。
5.2. 输入腐蚀的鲁棒性:在CIFAR-10C数据集上的测试显示,随着腐蚀强度增加,BNN-RDE模型的错误率始终低于BNN-SDE模型,特别是在高强度腐蚀下优势更明显,证明了其更强的抗输入干扰能力。
5.3. 计算复杂度概述:分析指出,BNN-RDE模型在确定性部分和随机性部分的计算复杂度均得到优化,尤其是由于采用了部分随机性和可能更少的时间步数,整体训练速度快于完全随机的BNN-SDE模型。
结论与展望
本研究成功地将粗糙路径理论中的签名变换工具引入部分无限深度贝叶斯神经网络,提出了BNN-RDE模型。该模型通过将随机性集中于输入层并由签名变换驱动,有效压缩了随机过程的不稳定性,从而在图像分类任务中实现了优于传统神经SDE模型的可靠性、鲁棒性及计算效率。数学框架确保了模型的理论合理性,实验验证了其实际有效性。这项工作不仅扩展了连续深度贝叶斯神经网络的理论基础,也为在不确定性量化要求高、需应对复杂噪声环境的实际应用(如医疗影像分析、自动驾驶等)提供了更有潜力的工具。未来研究可探索签名变换在更广泛机器学习场景(如扩散模型、时间序列生成)中的应用,并进一步优化签名计算效率以处理更高维问题。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号