锐度感知训练:提升物理神经网络鲁棒性与泛化能力的新范式

《Nature Communications》:Physical neural networks using sharpness-aware training

【字体: 时间:2026年01月20日 来源:Nature Communications 15.7

编辑推荐:

  为解决物理神经网络(PNN)训练中存在的模型-现实差距、器件特异性及部署后扰动敏感等挑战,香港中文大学团队创新性地提出了锐度感知训练(SAT)方法。该方法通过同时最小化损失值及其锐度,在微环谐振器(MRR)、马赫-曾德尔干涉仪(MZI)和衍射光学等多种PNN平台上验证了其有效性。研究表明,SAT显著提升了PNN对制造误差、温度漂移和校准误差的鲁棒性,且支持跨器件参数迁移,为高效可靠的光子计算硬件部署提供了新思路。

  
随着人工智能模型的复杂度爆炸式增长,传统数字硬件逐渐面临算力与能效瓶颈。物理神经网络(Physical Neural Networks, PNNs)利用光子、模拟电子等物理系统实现神经网络计算,以其高并行性和低能耗优势成为突破瓶颈的重要路径。然而,PNN的实际应用长期受困于训练难题:计算机模拟(in-silico)训练因难以精确建模物理系统而存在“模型-现实差距”;原位(in-situ)训练虽能直接优化硬件参数,但结果无法跨器件迁移,且两者均对部署后的温度漂移、装配误差等扰动极为敏感。这些缺陷导致PNN在真实场景中稳定性不足,频繁需重新训练,严重制约其规模化应用。
为解决上述问题,香港中文大学黄超然团队在《Nature Communications》发表研究,提出锐度感知训练(Sharpness-Aware Training, SAT)方法。该方法受机器学习中锐度感知最小化(Sharpness-Aware Minimization, SAM)的启发,首次建立损失函数景观的锐度与物理系统鲁棒性的关联。SAT通过双步自动微分技术,在优化中同时追求损失最小值与损失曲面的平坦区域(即“低锐度最小值”),使PNN参数对控制误差、制造偏差和环境扰动具备内在韧性。
研究团队通过三类典型PNN平台验证SAT的普适性:
  1. 1.
    微环谐振器权重库:在4×4 MRR芯片上执行MNIST和CIFAR-10数据集分类任务。实验表明,即使使用忽略器件差异和热串扰的简化模型进行in-silico训练,SAT仍使分类精度在±0.5°C温度波动下保持97%以上,而传统反向传播(BP)方法精度骤降至17%。
  2. 2.
    MZI网格混合网络:在模拟含制造误差的64×64 MZI系统中,SAT与物理感知训练(PAT)结合,将分类错误率从31.4%(标准BP)降至2.9%,并支持参数跨器件迁移(误差方差0.15时精度95.2%)。
  3. 3.
    衍射光学神经网络:针对OLED与空间光调制器(SLM)间无显式模型的对准误差问题,SAT通过有限差分法估计梯度,使系统在1°旋转或1像素偏移下精度维持98%,远超BP方法的43%。
关键技术方法包括:
  1. 1.
    锐度感知优化框架:在损失函数中引入梯度范数正则项,通过扰动参数寻找邻域内最大损失点并反向优化,实现平坦最小值的自动定位。
  2. 2.
    多平台适配训练流程:针对MRR/MZI系统已知物理模型的特点,采用解析梯度计算;对衍射光学系统等无显式模型场景,结合有限差分法估计梯度。
  3. 3.
    鲁棒性量化评估:通过Hessian矩阵最大特征值(λmax)量化损失景观锐度,SAT将λmax从BP的746.8降至1.2。
主要研究结果
  1. 1.
    SAT闭合模型-现实差距
    在MRR芯片实验中,即使训练模型未考虑器件间共振波长差异和热串扰,SAT仍使MNIST分类精度在22°C时达97%,且温度在21–23°C波动时精度保持稳定(图2h)。对比实验显示,噪声感知训练(NAT)和光学剪枝(optical pruning)精度分别为73%和91%,凸显SAT对非高斯噪声的泛化优势。
  2. 2.
    SAT实现可迁移原位训练
    在MZI网格模拟中,原位SAT(结合PAT框架)在相位和分束器误差为0.15时达到97.1%分类精度,显著优于双自适应训练(DAT)的94.6%。参数迁移测试表明,SAT在误差方差0.15时精度仍达95.2%,而DAT降至58.6%(图4d)。
  3. 3.
    SAT兼容无显式模型系统
    针对衍射光学NN中OLED与SLM的旋转、平移等难以建模的误差,SAT通过序列化联合优化策略(依次优化旋转角、像素偏移和缩放因子),使系统在1.05倍缩放误差下精度达93%,而BP方法仅为12%(图5e-iii)。
结论与展望
该研究提出的SAT框架突破了PNN训练中的三大瓶颈:模型失配、器件特异性和环境敏感性。通过理论推导与多平台实验,证明SAT能够在不增加显著计算成本的前提下(训练耗时仅比BP增加约44%),使PNN在制造误差、温度漂移和装配扰动下保持高精度且支持参数跨平台迁移。未来工作可探索SAT在非线性光子系统(如饱和吸收器)中的扩展,以及通过KL散度等替代指标进一步降低计算开销。SAT为光子计算硬件的实用化部署提供了关键训练范式,对发展高能效、高鲁棒性AI加速器具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号