《Nature Communications》:Brain-inspired synaptic transistors for in-situ spiking reinforcement learning with eligibility trace
编辑推荐:
为了应对当前基于人工神经网络的硬件在仿生强化学习中缺乏关键生物机制(如第三端子调制的资格迹和动态奖励信号)的挑战,研究人员开展了利用α-In2Se3铁电半导体场效应晶体管构建仿生脉冲神经网络强化学习计算架构的研究。他们利用该材料的本征面内与面外极化耦合实现了多端电导调制以调控奖励信号,并利用铁电弛豫实现了生物资格迹衰减。最终,基于该晶体管阵列构建的强化学习神经网络,在没有外部存储器或计算单元的情况下,成功演示了自动驾驶任务中的原位权重更新与资格迹处理。该研究为实现功能完整、高能效、低开销的脉冲强化学习硬件架构提供了解决方案。
追求通用人工智能(AGI)的道路上,受大脑启发的强化学习(Reinforcement Learning, RL)扮演着至关重要的角色。想象一下,一个智能体能够像生物一样,通过与环境的互动,根据奖励信号不断优化自身行为。然而,当前主流的实现方式——基于人工神经网络(ANN)的硬件——却面临着一个尴尬的局面:它们虽然强大,却缺少了大脑中一些精巧而关键的内在机制。例如,大脑神经元突触的强度变化不仅取决于即时的奖励信号,还会受到先前活动留下的“痕迹”影响,这种机制被称为“资格迹”(eligibility trace)。此外,大脑中的奖励信号是动态且多变的。这些生物机制的缺失,限制了现有硬件更逼真、更高效地模拟复杂的学习过程。那么,能否制造出一种硬件,它本身就能像生物突触一样“记住”过去的活跃状态,并能被动态的奖励信号所调制,从而实现更接近大脑的强化学习呢?这正是研究人员在《Nature Communications》上发表的最新研究试图回答的问题。
为了开展这项研究,研究人员主要运用了以下关键技术方法:利用α-In2Se3铁电半导体材料制备多端场效应晶体管器件;通过表征该材料本征的面内与面外铁电极化耦合特性,实现器件电导的多端调制,以模拟奖励信号对学习过程的调控;利用该材料的铁电弛豫特性来物理实现生物资格迹的衰减动力学;最后,将多个此类晶体管器件集成构建成一个脉冲神经网络(Spiking Neural Network, SNN)阵列,并用于自动驾驶模拟任务的演示验证。
研究结果
基于α-In2Se3铁电晶体管的突触器件
研究人员设计并制备了一种基于α-In2Se3铁电半导体材料的场效应晶体管(FET)。该器件的核心创新在于利用了α-In2Se3独特的本征性质:其面内与面外的铁电极化之间存在耦合。通过引入第三个终端(栅极)施加特定的电压脉冲,研究人员可以有效地调制沟道(半导体层)的电导状态。这种多端电导调制能力,为实现动态奖励信号对突触权重(即连接强度)的调控提供了物理基础。
奖励调制与资格迹的实现
在仿生强化学习框架中,奖励信号需要能够调节突触的权重更新。本研究中的α-In2Se3晶体管恰好具备这一功能:奖励信号(以电压形式)通过第三个端子输入,能够直接改变器件的电导,从而等效于调整了神经网络中连接的权重。更重要的是,该铁电材料具有弛豫特性,即在外加电场移除后,其极化状态会随时间逐渐衰减。研究人员巧妙地利用这一物理现象,来模拟生物学习中资格迹的衰减过程。先前神经元活动在突触留下的“痕迹”(对应于器件中残留的极化状态)会自然衰减,这决定了该突触对后续奖励信号的敏感程度,完美复现了生物资格迹机制。
用于自动驾驶任务的强化学习神经网络演示
为了验证该硬件架构的实际功能,研究人员将多个α-In2Se3晶体管连接起来,构建了一个小规模的脉冲神经网络。他们将这个网络应用于一个简化的自动驾驶任务模拟中,例如车道保持或避障。在整个任务执行过程中,神经网络根据环境反馈(奖励或惩罚)进行学习。关键的突破在于,所有的学习过程——包括基于奖励信号的权重更新和资格迹的衰减——都是在硬件内部原位完成的。这意味着,网络权重的调整直接发生在晶体管器件本身的电导变化中,完全不需要任何外部数字内存来存储中间状态,也无需额外的中央处理单元(CPU)或图形处理单元(GPU)来进行计算。实验成功地演示了该神经网络能够通过在线学习,逐步优化其驾驶策略。
研究结论与意义
本研究成功展示了一种全新的、受大脑启发的强化学习计算硬件架构。该架构的核心是利用α-In2Se3铁电半导体晶体管的物理特性,在单一器件层面上同时实现了奖励信号调制和生物资格迹衰减这两大关键机制。通过将此类器件集成为脉冲神经网络,研究人员进一步证明了该架构能够在没有外部存储和计算单元开销的情况下,完成完整的原位强化学习,并在自动驾驶任务中展现出有效的学习能力。
这项工作的意义重大。首先,它为解决当前人工神经网络硬件在模拟生物学习机制方面的不足提供了一条切实可行的材料与器件路径。其次,通过将学习算法(资格迹、动态奖励)直接映射到器件的物理特性(铁电极化耦合与弛豫)上,实现了极高的能效和极低的硬件开销,为开发下一代低功耗、高性能的神经形态计算芯片奠定了坚实的基础。最后,该研究展示了类脑计算硬件在解决复杂时序决策问题(如自动驾驶)上的巨大潜力,推动了人工智能向更通用、更节能的方向发展。