面向科学计算的柯尔莫哥洛夫-阿诺德网络（KAN）能效计算：一种灵活节能的内存内计算加速器设计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月03日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　这篇综述介绍了KA-CIM，一种专为新兴的柯尔莫哥洛夫-阿诺德网络（KAN）设计的灵活、节能的内存内计算（CIM）加速器。KAN在科学计算中具有高精度和小模型的优势，但其核心的非线性函数计算能耗高、延迟大。本文通过算法、架构、电路和器件的跨层协同优化，提出了一种基于分段线性（PWL）近似和忆阻器（memristor）阵列的单读取方案硬件。该加速器实现了每KAN函数8.69 pJ的超低能耗，在能量延迟积（EDP）上相比CPU、标准MLP导向的CIM加速器及现有KAN加速器有数量级的提升，为在边缘进行高效科学计算提供了有前景的硬件基元。

随着深度学习模型在多领域的成功应用，其规模和能耗问题日益凸显。为应对此挑战，专用集成电路（ASIC）加速器，特别是内存内计算（CIM）架构，因其能将存储与计算紧密集成，减少数据搬运，从而实现比传统GPU/CPU高数个数量级的能效，而备受关注。传统的CIM加速器（VMM-CIM）主要针对以线性矩阵乘法为主的多层感知机（MLP），但对于需要大量非线性计算的科学计算和新兴AI模型，如柯尔莫哥洛夫-阿诺德网络（KAN），其优势有限。

KAN是一种基于柯尔莫哥洛夫-阿诺德定理的新型网络，其核心思想是用可训练的非线性函数替代神经网络中的线性权重。与MLP相比，KAN能以小100倍的参数量达到相近的精度，特别适用于物理建模、电路仿真等科学计算领域。然而，KAN的优势是以计算密集的非线性函数为代价的，在GPU上，其层延迟可比更大的MLP层高出5-100倍。现有面向MLP的VMM-CIM架构并不适合KAN，开发专用硬件对KAN的规模化至关重要。

为此，本文提出了KA-CIM，一种专为KAN定制、通过跨层（算法、架构、电路、器件）协同优化实现的灵活、节能CIM加速器。其核心创新在于算法层面采用分段线性（PWL）近似，将复杂的非线性函数计算简化为单一的乘积累加（MAC）操作，从而获得与函数复杂度无关的固定延迟和能耗。在架构层面，KA-CIM采用了以读取为中心的设计，所有计算通过单行读取和执行，并使用了紧凑的阵列维度（如16×64）。这消除了功耗和面积昂贵的模数转换器（ADC），代之以轻量级的感测放大器，并使得延迟显著低于典型的VMM-CIM。

KA-CIM的基本构建块是KA-CIM Tile，用于高效计算任意的PWL近似单变量KAN函数。每个Tile包含三个步骤：首先，一个基于CIM的分段选择单元（CIM-SSU）通过将输入与存储的断点进行比较，识别出正确的PWL段；其次，根据选择信号从专用存储阵列中检索对应的斜率（M_S）和截距（Y_S）；最后，一个数字MAC单元计算输出近似值。CIM-SSU通过将输入分组编码为温度计码和独热码，并存储在紧凑阵列中，实现了单次读取完成比较，极大地提高了效率。

为平衡精度与能耗，KA-CIM默认采用N=32的PWL分段数。对于需要更高精度（更大N）的函数，系统引入了Tile分区方法，将函数定义域划分为多个组，每个组映射到一个专用的N=32 Tile上，仅激活输入所在区域的Tile，从而在保持紧凑阵列维度的同时模拟更大的N，且能耗开销极低。

在电路与器件层面，KA-CIM的卓越性能得益于为低延迟、低能耗而协同设计的忆阻器阵列。通过器件-电路协同设计策略，实现了<4 ns的读取延迟和3-4 fJ/比特的读取能量目标。这采用了一种基于RC放电的感测方案，其读取能量由电容预充电电压决定，延迟由RC时间常数决定。为此，需要特定特性的阈值转换忆阻器（VCM）器件：低阻态（LRS）需快速放电（目标~10 kΩ），高阻态（HRS）需维持电荷以提供足够的感测裕度（目标>1 MΩ）。本文制造并表征了100×100 nm的VCM器件（Pt/3 nm HfO₂/3 nm TiO_x/10 nm Ti/Pt堆叠），其表现出约10 kΩ的LRS、超过1 MΩ的HRS、>100的开关比，并且在长期读取漂移和读取干扰下表现稳定。结合所提出的RC放电感测电路，在28 nm工艺下实现了保守情况下<4 ns的读取延迟和~4 fJ/bit的读取能量，为系统级的高能效奠定了基础。

在系统层面，本文设计了一个16核的KA-CIM加速器，能够并行计算384个非线性KAN函数。评估了包括霍奇金-赫胥黎（Hodgkin-Huxley）神经元模型在内的7个单变量和8个多变量任务。在所有基准测试中，KA-CIM相对于32位浮点基线保持了最低的误差（中位数10^-3–10^-4）。整体上，KA-CIM在能量延迟积上比传统CPU提升了1996倍，比专用ASIC提升了208倍，比100 TOPS/W的VMM-CIM执行相同任务（通过MLP）的能效高出最多71倍。与现有的基于CIM的KAN加速器相比，KA-CIM提供了最高71倍的能效提升。此外，KA-CIM的一个显著特点是能够同时计算函数输出及其（偏）导数，这是现有KAN加速器所不具备的能力。

具体应用案例表明，KA-CIM能够灵活高效地处理多种科学计算任务。例如，在计算一个12变量的KAN方程时，KA-CIM以45 ns的延迟和0.16 nJ的能量消耗完成计算，吞吐量达到2.22×10⁷输出样本/秒。对于动态系统如霍奇金-赫胥黎神经元模型，KA-CIM的输出与FP32基线高度吻合，表现出对误差累积导致发散的稳健性。在运动规划中使用的自行车运动学模型上，KA-CIM也表现出极低的能耗和延迟。

本文还将KA-CIM与现有方案进行了系统比较。结果显示，在“预测纽结签名”和“三角函数方程计算”两个应用中，KA-CIM在能耗、延迟和吞吐量上均显著优于基于VMM-CIM的MLP方案，能量延迟积有数量级优势。与同期的KAN专用加速器ASP-KAN-HAQ相比，KA-CIM在能耗上降低了1.7–2.6倍，延迟降低了22–28倍，能量延迟积提升了最高71倍，且无需针对硬件的再训练。与基于随机计算或光子器件的KAN加速器相比，KA-CIM在功耗、精度或延迟上也具有明显优势。

总之，KA-CIM通过跨层协同设计，为实现KAN的高效能效计算提供了一条切实可行的路径。其基于PWL近似的算法创新、以读取为中心的紧凑架构、以及器件-电路层面的深度优化，共同成就了其在科学计算及边缘AI应用中的巨大潜力，为未来高效、灵活的科学计算硬件奠定了坚实的基础。

联系信箱：

粤ICP备09063491号

热点排行