锐度感知训练：提升物理神经网络鲁棒性与泛化能力的新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Communications》：Physical neural networks using sharpness-aware training

【字体：大中小】 时间：2026年01月20日 来源：Nature Communications 15.7

编辑推荐：

　　为解决物理神经网络（PNN）训练中存在的模型-现实差距、器件特异性及部署后扰动敏感等挑战，香港中文大学团队创新性地提出了锐度感知训练（SAT）方法。该方法通过同时最小化损失值及其锐度，在微环谐振器（MRR）、马赫-曾德尔干涉仪（MZI）和衍射光学等多种PNN平台上验证了其有效性。研究表明，SAT显著提升了PNN对制造误差、温度漂移和校准误差的鲁棒性，且支持跨器件参数迁移，为高效可靠的光子计算硬件部署提供了新思路。

随着人工智能模型的复杂度爆炸式增长，传统数字硬件逐渐面临算力与能效瓶颈。物理神经网络（Physical Neural Networks, PNNs）利用光子、模拟电子等物理系统实现神经网络计算，以其高并行性和低能耗优势成为突破瓶颈的重要路径。然而，PNN的实际应用长期受困于训练难题：计算机模拟（in-silico）训练因难以精确建模物理系统而存在“模型-现实差距”；原位（in-situ）训练虽能直接优化硬件参数，但结果无法跨器件迁移，且两者均对部署后的温度漂移、装配误差等扰动极为敏感。这些缺陷导致PNN在真实场景中稳定性不足，频繁需重新训练，严重制约其规模化应用。

为解决上述问题，香港中文大学黄超然团队在《Nature Communications》发表研究，提出锐度感知训练（Sharpness-Aware Training, SAT）方法。该方法受机器学习中锐度感知最小化（Sharpness-Aware Minimization, SAM）的启发，首次建立损失函数景观的锐度与物理系统鲁棒性的关联。SAT通过双步自动微分技术，在优化中同时追求损失最小值与损失曲面的平坦区域（即“低锐度最小值”），使PNN参数对控制误差、制造偏差和环境扰动具备内在韧性。

研究团队通过三类典型PNN平台验证SAT的普适性：

1.
微环谐振器权重库：在4×4 MRR芯片上执行MNIST和CIFAR-10数据集分类任务。实验表明，即使使用忽略器件差异和热串扰的简化模型进行in-silico训练，SAT仍使分类精度在±0.5°C温度波动下保持97%以上，而传统反向传播（BP）方法精度骤降至17%。
2.
MZI网格混合网络：在模拟含制造误差的64×64 MZI系统中，SAT与物理感知训练（PAT）结合，将分类错误率从31.4%（标准BP）降至2.9%，并支持参数跨器件迁移（误差方差0.15时精度95.2%）。
3.
衍射光学神经网络：针对OLED与空间光调制器（SLM）间无显式模型的对准误差问题，SAT通过有限差分法估计梯度，使系统在1°旋转或1像素偏移下精度维持98%，远超BP方法的43%。

关键技术方法包括：

1.
锐度感知优化框架：在损失函数中引入梯度范数正则项，通过扰动参数寻找邻域内最大损失点并反向优化，实现平坦最小值的自动定位。
2.
多平台适配训练流程：针对MRR/MZI系统已知物理模型的特点，采用解析梯度计算；对衍射光学系统等无显式模型场景，结合有限差分法估计梯度。
3.
鲁棒性量化评估：通过Hessian矩阵最大特征值（λ_max）量化损失景观锐度，SAT将λ_max从BP的746.8降至1.2。

主要研究结果

1.
SAT闭合模型-现实差距

在MRR芯片实验中，即使训练模型未考虑器件间共振波长差异和热串扰，SAT仍使MNIST分类精度在22°C时达97%，且温度在21–23°C波动时精度保持稳定（图2h）。对比实验显示，噪声感知训练（NAT）和光学剪枝（optical pruning）精度分别为73%和91%，凸显SAT对非高斯噪声的泛化优势。
2.
SAT实现可迁移原位训练

在MZI网格模拟中，原位SAT（结合PAT框架）在相位和分束器误差为0.15时达到97.1%分类精度，显著优于双自适应训练（DAT）的94.6%。参数迁移测试表明，SAT在误差方差0.15时精度仍达95.2%，而DAT降至58.6%（图4d）。
3.
SAT兼容无显式模型系统

针对衍射光学NN中OLED与SLM的旋转、平移等难以建模的误差，SAT通过序列化联合优化策略（依次优化旋转角、像素偏移和缩放因子），使系统在1.05倍缩放误差下精度达93%，而BP方法仅为12%（图5e-iii）。

结论与展望

该研究提出的SAT框架突破了PNN训练中的三大瓶颈：模型失配、器件特异性和环境敏感性。通过理论推导与多平台实验，证明SAT能够在不增加显著计算成本的前提下（训练耗时仅比BP增加约44%），使PNN在制造误差、温度漂移和装配扰动下保持高精度且支持参数跨平台迁移。未来工作可探索SAT在非线性光子系统（如饱和吸收器）中的扩展，以及通过KL散度等替代指标进一步降低计算开销。SAT为光子计算硬件的实用化部署提供了关键训练范式，对发展高能效、高鲁棒性AI加速器具有重要意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号