长期以来,光计算一直被视为克服传统电子计算局限性的途径,尤其是在对计算要求苛刻的应用场景中。其中一个最重要的应用实例是深度神经网络(DNN),它们被用于人工智能(AI)系统中的计算机视觉和推理任务。这些系统需要每秒进行数亿次运算以实现低延迟。因此,在功率和空间有限的边缘设备上使用传统计算方法来实现这些功能颇具挑战性,因为传统的中央处理单元(CPU)受到冯·诺依曼瓶颈的限制。为此,人们提出了多种光计算系统作为替代方案,通过避免使用有线传输信息的方式,并允许矩阵-向量乘法(MVM)操作实现高水平的并行性。

不同形式的光神经网络(ONN)已应用于多种场景1,2。其中一些系统依赖于集成芯片,使用马赫-曾德尔干涉仪(MZI)3,4或微环谐振器(MRR)5,6;而其他系统则在自由空间中利用衍射光学元件(DOE)、空间光调制器(SLM)和数字微镜设备(DMD)7,8。基于光子集成电路(PIC)的方法由于干涉仪和调制器的体积较大而存在可扩展性限制。另一方面,自由空间系统受SLM或DMD切换速度的限制,无法实现高时钟频率操作。因此,为了在需要高计算速度和低延迟的边缘设备中实现ONN,人们正在研究提供所需处理速度同时保持低功耗的替代设计。

最近发表的一项研究旨在通过使用垂直腔面发射激光器(VCSEL)阵列进行输入激活,并利用SLM进行可重构权重配置来应对这一挑战9。所提出的方案如图1所示,包括一个VCSEL阵列、一个用于将激光器阵列输出信号进行空间分发的DOE、一个带有权重的SLM以及一个光电探测器(PD)阵列。检测基于差分读出方式,以支持有符号权重。VCSEL的高调制速度(达到GHz范围)足以实现高时钟频率计算。此外,与边发射激光二极管不同,VCSEL的表面发射特性使得2D激光器阵列的制造变得容易且成本低廉,这是它们适合大规模并行化的关键优势。虽然该研究中的VCSEL阵列由5×5个激光器组成,但在实际应用中通常使用更大的阵列。DOE生成3×3份副本并发送到SLM,SLM的像素可以根据所需权重进行编程。SLM被划分为3×3个核心,每个核心处理一份5×5光束的副本。光通过SLM的传播实现了乘法运算,而累加则通过在探测器上叠加输出光束来完成,从而产生与叠加光束总量成比例的电流。SLM的高像素数量(通常达到数百万)是该系统的另一个关键优势,理论上使其能够并行执行数百万次乘法运算。要在集成系统中实现相同的并行性,需要更大的芯片尺寸(考虑到MZI和MRR相对于SLM像素的较大体积)以及精确的制造工艺以确保高产量。

图1
图1此图像的替代文本可能是通过AI生成的。
全尺寸图像

使用VCSEL阵列的光计算:光计算系统的示意图

FAST-ONN(Fanout Spatial Time-of-Flight Optical Neural Network)系统的性能通过在一次观看即可识别的目标分类(YOLO)任务中对计算机视觉任务的测试进行了基准测试,以识别汽车。这是一个对决策速度要求很高的应用场景。使用COCO数据集对系统进行测试时,接收器操作特性(ROC)曲线的曲线下面积(AUC)为0.98。此外,FAST-ONN系统支持“光子可重编程”功能,实现了设备上的训练。该系统在标准10类修改后的美国国家标准与技术研究院(MNIST)数据集的800张随机选取的图像上成功进行了现场学习,测试子集的准确率达到92.8%。这种能力对于必须快速适应变化环境且不依赖耗能密集型数据传输到云端的边缘设备至关重要。

FAST-ONN设计最重要的优势之一是其可扩展性。VCSEL发射器可以优化以提高调制速度,使时钟频率达到数十吉赫兹的范围。这有可能将这些系统的吞吐量提高几个数量级。随着对更精确AI模型需求的增加以及模型规模和复杂性的提升,FAST-ONN在严格的空间、重量和功耗(SWaP)限制下提供高速矩阵-向量乘法运算的能力,为下一代智能实时边缘传感器的发展打开了大门。