光子Transformer芯片:全干涉注意力机制开启光计算新范式
《PhotoniX》:Photonic transformer chip: interference is all you need
【字体:
大
中
小
】
时间:2025年11月01日
来源:PhotoniX 19.1
编辑推荐:
本刊推荐:为突破传统电子处理器在Transformer注意力机制上面临的算力瓶颈与能耗限制,研究团队创新性提出基于Kramers-Kronig关系的光学干涉注意力机制(KKA),通过理论分析、数值模拟与芯片实验验证了其与经典自注意力等效的学习能力。所研制的光子Transformer芯片(PTC)可实现>200 POPS算力与0.5 POPS/W能效,为构建光计算专属机器学习范式开辟了新路径。
随着Transformer模型在自然语言处理和计算机视觉领域的革命性突破,其核心组件——注意力机制已成为人工智能领域“无所不能”的关键技术。然而,传统电子处理器在面对注意力机制中动态矩阵乘法运算时,硬件成本和能耗呈指数级增长,逐渐触及摩尔定律的物理极限。这种算力瓶颈严重制约了大型语言模型和视觉Transformer架构的进一步发展,亟需新的计算范式突破。
在《PhotoniX》发表的这项研究中,西安电子科技大学田野团队另辟蹊径,从光子与电子的本质差异出发,提出“干涉即所需”的创新理念。他们发现光学领域中普遍存在的Kramers-Kronig关系(振幅-相位耦合效应)并非光子计算的障碍,反而能够成为构建新型注意力机制的基础。这种基于纯光学干涉的Kramers-Kronig注意力(KKA)机制,成功将传统自注意力中的乘累加(MAC)操作替换为光学干涉操作,实现了线性与非线性计算的天然融合。
研究团队通过硅光子集成技术研制出光子Transformer芯片(PTC)原型,其核心包含11个马赫-曾德尔干涉仪(MZI)单元阵列。每个MZI配备一个外部相位调制器和两个内部相位调制器,可灵活产生纯振幅调制、纯相位调制或振幅-相位耦合调制。芯片采用热光相位调制器实现精确的光场调控,通过平衡光电探测(BPD)技术有效消除背景噪声,确保干涉计算的准确性。
关键技术方法包括:基于MZI阵列的动态干涉计算架构、振幅-相位耦合调制策略、随机傅里叶特征(RFF)理论指导的SoftMax替代方案,以及多头部注意力光学实现方案。实验采用MNIST手写数字数据集和CIFAR-10数据集进行模型验证,通过PyTorch框架构建了视觉Transformer(ViT)模型并进行对比训练。
研究团队设计了独特的时分复用矩阵-矢量干涉架构。输入光信号被分为两路,左路分成M部分生成时变光场信号Ai(t),右路调制为B(t)后广播至M个端口。时域积分信号Re(Ai(t)Bi(t))产生输出,当A(t)和B(t)为纯振幅调制时,该架构可实现矩阵-矢量乘法(MVP);扩展后支持矩阵-矩阵乘法(MMP)。与传统的权重静态型光子加速器不同,PTC的所有元件均支持运行时编程,完美适配Transformer网络的动态计算需求。
通过将标准ViT模型中的注意力模块替换为KKA模块,在MNIST任务上进行了对比验证。结果显示,KKA-based ViT模型达到96.79%的准确率,与标准自注意力模型(96.31%)相当。实验方面,团队在PTC上逐步实现了Q(=Wq□X)、K(=Wk□X)、V(=Wv□X)的光学计算,以及QT□K、(QT□K)□V等关键步骤。测量数据表明,10,000个注意力矩阵元素的实验与理论误差均值低至8.923×10-4,相当于8.3比特量化精度,最终在100个测试样本上实现94%的推理准确率。
PTC原型在5 GHz时钟频率下可实现0.45 TOPS算力,能效约7 TOPS/W。理论分析表明,通过规模扩展至512×512干涉单元,算力密度可达1 POPS/mm2,能效提升至500 TOPS/W级别。与主流光子计算架构对比显示,PTC在保持O(N)级别编程单元复杂度的同时,完美支持Transformer模型的全动态计算需求,避免了传统MZI网格随规模扩大而精度下降的问题。
研究结论表明,KKA机制通过光学干涉天然融合了线性权重乘法和非线性激活函数,省去了专门的SoftMax操作环节,使注意力计算完全通过干涉实现。这种“全干涉”特性不仅降低了硬件复杂度(每个干涉操作仅需2个相位调制器,而标准光学权重单元需要4个),还显著提升了计算精度和能效。更重要的是,该研究证明了光子神经网络不必简单模仿电子神经网络的技术路线,而是可以基于光子的独特性建立专属计算范式。
这项工作的意义在于首次实现了完全基于光学干涉的Transformer芯片,为突破AI算力瓶颈提供了光速计算解决方案。其技术路线兼容现有硅光子工艺,支持波长 division multiplexing(WDM)进一步扩展计算带宽,在自然语言处理、自动驾驶、生成式AI等领域具有广泛应用前景。随着光学-电学协同封装技术的成熟,这种干涉计算架构有望成为后摩尔时代人工智能硬件的重要支柱。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号