面向科学计算的柯尔莫哥洛夫-阿诺德网络(KAN)能效计算:一种灵活节能的内存内计算加速器设计

【字体: 时间:2026年03月03日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  这篇综述介绍了KA-CIM,一种专为新兴的柯尔莫哥洛夫-阿诺德网络(KAN)设计的灵活、节能的内存内计算(CIM)加速器。KAN在科学计算中具有高精度和小模型的优势,但其核心的非线性函数计算能耗高、延迟大。本文通过算法、架构、电路和器件的跨层协同优化,提出了一种基于分段线性(PWL)近似和忆阻器(memristor)阵列的单读取方案硬件。该加速器实现了每KAN函数8.69 pJ的超低能耗,在能量延迟积(EDP)上相比CPU、标准MLP导向的CIM加速器及现有KAN加速器有数量级的提升,为在边缘进行高效科学计算提供了有前景的硬件基元。

  
随着深度学习模型在多领域的成功应用,其规模和能耗问题日益凸显。为应对此挑战,专用集成电路(ASIC)加速器,特别是内存内计算(CIM)架构,因其能将存储与计算紧密集成,减少数据搬运,从而实现比传统GPU/CPU高数个数量级的能效,而备受关注。传统的CIM加速器(VMM-CIM)主要针对以线性矩阵乘法为主的多层感知机(MLP),但对于需要大量非线性计算的科学计算和新兴AI模型,如柯尔莫哥洛夫-阿诺德网络(KAN),其优势有限。
KAN是一种基于柯尔莫哥洛夫-阿诺德定理的新型网络,其核心思想是用可训练的非线性函数替代神经网络中的线性权重。与MLP相比,KAN能以小100倍的参数量达到相近的精度,特别适用于物理建模、电路仿真等科学计算领域。然而,KAN的优势是以计算密集的非线性函数为代价的,在GPU上,其层延迟可比更大的MLP层高出5-100倍。现有面向MLP的VMM-CIM架构并不适合KAN,开发专用硬件对KAN的规模化至关重要。
为此,本文提出了KA-CIM,一种专为KAN定制、通过跨层(算法、架构、电路、器件)协同优化实现的灵活、节能CIM加速器。其核心创新在于算法层面采用分段线性(PWL)近似,将复杂的非线性函数计算简化为单一的乘积累加(MAC)操作,从而获得与函数复杂度无关的固定延迟和能耗。在架构层面,KA-CIM采用了以读取为中心的设计,所有计算通过单行读取和执行,并使用了紧凑的阵列维度(如16×64)。这消除了功耗和面积昂贵的模数转换器(ADC),代之以轻量级的感测放大器,并使得延迟显著低于典型的VMM-CIM。
KA-CIM的基本构建块是KA-CIM Tile,用于高效计算任意的PWL近似单变量KAN函数。每个Tile包含三个步骤:首先,一个基于CIM的分段选择单元(CIM-SSU)通过将输入与存储的断点进行比较,识别出正确的PWL段;其次,根据选择信号从专用存储阵列中检索对应的斜率(MS)和截距(YS);最后,一个数字MAC单元计算输出近似值。CIM-SSU通过将输入分组编码为温度计码和独热码,并存储在紧凑阵列中,实现了单次读取完成比较,极大地提高了效率。
为平衡精度与能耗,KA-CIM默认采用N=32的PWL分段数。对于需要更高精度(更大N)的函数,系统引入了Tile分区方法,将函数定义域划分为多个组,每个组映射到一个专用的N=32 Tile上,仅激活输入所在区域的Tile,从而在保持紧凑阵列维度的同时模拟更大的N,且能耗开销极低。
在电路与器件层面,KA-CIM的卓越性能得益于为低延迟、低能耗而协同设计的忆阻器阵列。通过器件-电路协同设计策略,实现了<4 ns的读取延迟和3-4 fJ/比特的读取能量目标。这采用了一种基于RC放电的感测方案,其读取能量由电容预充电电压决定,延迟由RC时间常数决定。为此,需要特定特性的阈值转换忆阻器(VCM)器件:低阻态(LRS)需快速放电(目标~10 kΩ),高阻态(HRS)需维持电荷以提供足够的感测裕度(目标>1 MΩ)。本文制造并表征了100×100 nm的VCM器件(Pt/3 nm HfO2/3 nm TiOx/10 nm Ti/Pt堆叠),其表现出约10 kΩ的LRS、超过1 MΩ的HRS、>100的开关比,并且在长期读取漂移和读取干扰下表现稳定。结合所提出的RC放电感测电路,在28 nm工艺下实现了保守情况下<4 ns的读取延迟和~4 fJ/bit的读取能量,为系统级的高能效奠定了基础。
在系统层面,本文设计了一个16核的KA-CIM加速器,能够并行计算384个非线性KAN函数。评估了包括霍奇金-赫胥黎(Hodgkin-Huxley)神经元模型在内的7个单变量和8个多变量任务。在所有基准测试中,KA-CIM相对于32位浮点基线保持了最低的误差(中位数10-3–10-4)。整体上,KA-CIM在能量延迟积上比传统CPU提升了1996倍,比专用ASIC提升了208倍,比100 TOPS/W的VMM-CIM执行相同任务(通过MLP)的能效高出最多71倍。与现有的基于CIM的KAN加速器相比,KA-CIM提供了最高71倍的能效提升。此外,KA-CIM的一个显著特点是能够同时计算函数输出及其(偏)导数,这是现有KAN加速器所不具备的能力。
具体应用案例表明,KA-CIM能够灵活高效地处理多种科学计算任务。例如,在计算一个12变量的KAN方程时,KA-CIM以45 ns的延迟和0.16 nJ的能量消耗完成计算,吞吐量达到2.22×107输出样本/秒。对于动态系统如霍奇金-赫胥黎神经元模型,KA-CIM的输出与FP32基线高度吻合,表现出对误差累积导致发散的稳健性。在运动规划中使用的自行车运动学模型上,KA-CIM也表现出极低的能耗和延迟。
本文还将KA-CIM与现有方案进行了系统比较。结果显示,在“预测纽结签名”和“三角函数方程计算”两个应用中,KA-CIM在能耗、延迟和吞吐量上均显著优于基于VMM-CIM的MLP方案,能量延迟积有数量级优势。与同期的KAN专用加速器ASP-KAN-HAQ相比,KA-CIM在能耗上降低了1.7–2.6倍,延迟降低了22–28倍,能量延迟积提升了最高71倍,且无需针对硬件的再训练。与基于随机计算或光子器件的KAN加速器相比,KA-CIM在功耗、精度或延迟上也具有明显优势。
总之,KA-CIM通过跨层协同设计,为实现KAN的高效能效计算提供了一条切实可行的路径。其基于PWL近似的算法创新、以读取为中心的紧凑架构、以及器件-电路层面的深度优化,共同成就了其在科学计算及边缘AI应用中的巨大潜力,为未来高效、灵活的科学计算硬件奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号