基于近端策略优化的无模型光学处理器原位强化学习

《Light-Science & Applications》：Model-free optical processors using in situ reinforcement learning with proximal policy optimization

【字体：大中小】 时间：2026年01月02日 来源：Light-Science & Applications 23.4

编辑推荐：

　　为解决光学计算中因硬件缺陷、噪声和失准导致模拟与物理系统存在差距，以及原位优化方法收敛慢、性能不稳定的问题，研究人员开展了一项关于利用近端策略优化(PPO)进行无模型强化学习的研究。该研究通过实验验证了PPO方法在多种任务中均能实现更快的收敛速度和更优的性能，为复杂物理系统的反馈驱动优化提供了一个可扩展的框架，具有重要的应用意义。

在人工智能计算需求激增的今天，物理神经网络(PNNs)作为一种利用光传播、电响应或声振动等物理过程进行计算的模拟系统，因其超低延迟和能效高的优势，被视为传统数字处理器的有力替代者。其中，光学计算平台，特别是衍射光学网络，因其能够通过薄型光学元件快速处理输入信息而备受关注。

然而，设计光学计算系统通常依赖于“模拟-部署”的两步法：首先在模拟环境中对硬件物理参数进行数字仿真和优化，然后将优化后的配置部署到现实物理系统中。这种模拟驱动的“硅上训练”方法面临着一个根本性的挑战——模拟与现实之间的差距。现实世界中的系统会受到噪声、光学失准以及制造或设备缺陷的影响，这些因素难以被精确建模或预先知晓。即使存在合理的模型，模拟物理过程也需要对空间和时间进行精细离散化，这使得优化计算成本高昂且易受数值误差影响。为了消除对精确模型的依赖，无模型训练算法，特别是直接在物理硬件上进行优化的原位训练方法应运而生。这些方法虽然前景广阔，但普遍存在一个关键瓶颈：物理测量的成本相对较高。与数字计算不同，每次物理测量都是一个受光学硬件速度限制的缓慢、顺序过程，导致数据收集耗时。此外，标准方法通常会在每次更新后丢弃收集到的样本，导致数据使用效率低下和梯度估计不可靠，使得收敛不稳定，需要更多迭代才能达到最优解。

为了克服这些挑战，来自加州大学洛杉矶分校的Li等人提出了一种基于近端策略优化(PPO)的无模型强化学习框架，用于衍射光学处理器的原位训练。该研究通过模拟和实验验证了该方法在多种任务中的有效性，包括通过随机扩散器进行目标能量聚焦、图像生成、像差校正和光学图像分类。研究结果表明，PPO方法在所有任务中均实现了更快的收敛速度和更好的最终性能，为复杂物理系统的反馈驱动优化提供了一个可扩展的框架。该研究成果已发表在《Light: Science & Applications》上。

关键技术方法

研究人员构建了一个基于空间光调制器(SLM)的衍射光学系统，并将其训练过程建模为一个强化学习问题。具体而言，他们将SLM上显示的相位模式视为一个从策略分布中采样的随机变量。该策略采用高斯分布，其均值作为主要可训练参数，标准差控制探索的随机性。通过将负损失函数定义为优势函数，他们利用PPO算法来优化策略参数。PPO的核心优势在于其能够通过裁剪代理目标函数来约束策略更新的幅度，确保训练的稳定性，并允许对同一批物理测量数据进行多次数字更新，从而显著提高了数据使用效率。整个训练流程包括采样、物理测量、损失与优势计算、数字策略更新和策略刷新等步骤，最终输出优化后的相位掩模。

研究结果

PPO在模拟光学分类任务中展现出更快的收敛速度

研究人员首先在模拟光学分类任务中验证了PPO策略的有效性。该任务旨在优化一个衍射层，以对相位编码的MNIST手写数字进行分类。定量比较结果显示，PPO策略仅使用单个衍射层就达到了约80%的最终测试准确率，其收敛速度比标准策略梯度(PG)方法快3.2倍。此外，对学习到的相位模式演化的可视化分析表明，PPO能够快速学习到清晰且结构化的相位模式，进一步证实了其在收敛速度和训练稳定性方面的优越性。

实验验证PPO在能量聚焦任务中的高效性和鲁棒性

在实验评估中，研究人员将PPO应用于能量聚焦任务，目标是最大化指定目标区域内的能量相对于总能量的比例。实验结果表明，PPO能够实现显著更快、更有效的能量聚焦。视觉结果证实，PPO训练的系统能够更早地产生高强度的聚焦光斑。为了测试鲁棒性，研究人员在SLM和图像传感器之间插入了一个随机、未知的扩散器。结果显示，PPO能够保持有效的聚焦能力，证明了其在存在未知光学扰动情况下的鲁棒性。此外，模拟分析表明，训练后的相位模式在扩散器横向位移约±16μm范围内仍能保持>50%的能量聚焦比，且通过少量迭代的微调即可适应更大的位移范围。

PPO在实验全息图像生成任务中实现更高保真度

研究人员进一步将PPO框架应用于全息图像生成任务，即优化一个纯相位SLM以在传感器平面上产生目标图像。实验测试了两种不同的目标：合成光栅和自然图像“Boat”。结果显示，PPO在更短的训练时间内实现了更高的峰值信噪比(PSNR)。光栅图像生成的视觉演化过程进一步证实，PPO使用更少的迭代次数就能产生更清晰、保真度更高的图像，突显了该方法在复杂光学变换原位学习方面的潜力。

PPO实现光学生成模型的原位像差校正

为了校正系统像差和随机失准，研究人员将PPO框架扩展应用于一个光学生成模型。该模型由一个数字编码器和一个光学解码器(SLM)组成，经过硅上预训练后，利用PPO对光学解码器SLM的相位模式进行原位微调。实验结果表明，这种原位强化学习过程能够显著提高生成图像的质量。定量分析显示，PSNR有显著增加，视觉结果也表明图像清晰度得到改善，与硅上生成的图像匹配更准确，证明了PPO在动态任务特定光学系统中校正实验像差和失准的有效性。

PPO实现全光学图像分类器的原位训练

最后，研究人员在图像分类任务上验证了PPO框架的通用性。实验设置使用SLM的一个800x800区域作为单层，将输入数字同时相位编码到同一SLM平面上。可训练的衍射层被原位优化，以学习特定类别的模式，并将光学能量引导至对应正确数字类别的探测器上。实验测试准确率随训练轮次的变化显示，在强化学习过程的初始阶段，分类性能迅速提高。对十个手写数字的分类测试示例表明，最终学习到的相位轮廓成功地将来自每个输入数字的光引导至其正确的对应探测器，实现了全光学图像分类。

结论与讨论

本研究引入了一个基于近端策略优化(PPO)的实用且高效的原位训练框架，用于衍射光学处理器。该无模型方法通过直接从物理测量中学习，有效绕过了模拟与现实实验之间的差距。其关键优势在于显著提高了原位学习速度：通过对单批实验数据进行多次更新，PPO大大减少了收敛所需的物理测量次数。PPO中使用的裁剪代理目标函数通过防止大的策略更新和强制稳定改进，确保了即使在噪声、有限或不完美的测量条件下也能实现稳健的收敛。研究人员通过模拟和实验验证了这一改进，例如在光学图像分类任务中，PPO实现了比其他RL方法快3倍以上的收敛速度。此外，该框架对超参数（如学习率、采样大小和裁剪因子ε）表现出良好的鲁棒性，并且能够有效适应系统偏差（如波长偏移或离焦），同时在随机扰动和噪声下保持稳定性能。

尽管取得了显著进展，该研究仍存在一些局限性，例如当前策略使用的高斯分布没有结合物理上可实现的光场或结构的空间特性先验知识，这可能导致高维空间中的探索效率低下。未来的工作可以探索更复杂或更具表现力的策略参数化方法，例如空间相关分布或离线训练的生成物理先验，以在物理条件子空间中指导基于强化学习的探索。另一个有前景的方向是开发混合建模方法，将粗略的物理模型与数据驱动的PPO框架相结合，以实现模型驱动和无模型学习的协同融合。从更广阔的视角来看，该基础方法具有通用性，可广泛应用于其他实验学习任务，特别是那些难以建模的领域，为实现智能、可重构的物理系统提供了强大的工具。

热点排行

新闻专题