《Materials Today》:Multimodal sensing-computing devices: Toward a new paradigm for embodied intelligence
编辑推荐:
本文系统综述多模态感知-计算器件(MSCDs)的研究进展,探讨其通过生物启发式架构整合感知与计算,提升信息处理效率,降低能耗。研究对比单模态与多模态感知机制,分析多源数据融合与解耦策略,阐述MSCDs的结构设计与跨模态耦合机制,并总结其在智能机器人、可穿戴设备等领域的应用。未来需突破器件与系统级集成挑战,实现自适应学习能力。
徐晨辉|郑彤|谢新凯|王卓然|史琼峰|沈国珍|吴俊
东南大学电气科学与工程学院,中国南京211189
摘要
随着人工智能系统在效率、能源经济性和自主性方面的提升,传统的感知与计算模块分离的架构已无法满足复杂环境中实时响应的需求。多模态感知-计算设备(MSCDs)为具身智能系统提供了一条有前景的技术路径,它将多源信号感知、数据预处理和神经形态计算集成在单一物理平台上。本文系统地概述了多模态感知和神经形态计算的最新进展,重点探讨了单模态与多模态感知机制之间的差异,以及多模态数据融合与解耦的策略。此外,还研究了MSCDs的结构设计和跨模态耦合机制。这类集成系统的典型应用涵盖了多个领域,包括具身智能机器人、可穿戴电子设备、仿生假肢和多模态场景识别。通过分析现有技术的优势与局限性,本文指出了实现低功耗、高集成度和自适应学习能力的关键方向。MSCDs不仅为人工智能的硬件实现提供了新的见解,也为构建能够感知、解释并与环境共同演化的具身智能系统奠定了坚实的基础。
引言
人工智能(AI)与物联网(IoT)的融合正在推动具身智能系统成为未来的关键发展方向。这些系统能够感知并与物理世界互动[1],需要准确、多属性和高效的感知能力。这通常通过集成大量传感单元来实现[2]。然而,依赖传统的单模态传感器效率低下。过度集成会增加系统和接口的复杂性,提高能耗并降低整体效率。相比之下,多模态传感器能够在更加集成且节能的平台上实现高效的多属性感知[3]。然而,生成的丰富感知信息必须实时处理才能确保有效性[4],这需要高性能的处理单元来处理大量传感数据[5]。如果这些数据不能及时处理,就会产生信息冗余,从而降低任务执行的实时性能[6][7]。这种架构还会导致计算资源占用率高、能耗增加以及计算硬件成本上升,最终限制了具身智能的进一步发展。
为了解决多模态感知与计算分离架构导致的低信息处理效率问题,研究人员从生物多感官神经系统获得灵感,提出了多模态感知-计算集成架构[8][9]。通过实现传感器内的信息处理,该架构显著提升了多模态信息处理效率,使具身智能代理能够实时、准确地感知物理世界[10]。生物系统使用多种感受器进行视觉、听觉、触觉、嗅觉和味觉感知,将这些外部刺激转换为电信号并通过突触传输到中枢神经系统,具有高效、大规模并行和超低功耗的信息处理能力(图1)。这种内在的协同机制激发了多模态感知与计算单元的融合,催生了新一代多模态感知-计算设备(MSCDs)。包括忆阻器和突触晶体管在内的神经形态元件的出现,为构建此类集成架构提供了新的物理基础[11]。这些设备具有可调导电性和非易失性存储器,有助于实现低功耗的硬件级多模态信号处理[12][13]。将这些神经形态设备集成到多模态感知节点中,可以实现现场权重调制、模拟突触可塑性以及多模态输入的自适应融合,使系统具备类似生物神经网络的学习和记忆功能。通过在单一平台上统一多信号采集、数据预处理和神经形态计算,这一策略从根本上减少了信息冗余和能耗,为高级具身智能的发展开辟了新的技术路径[14][15]。
受生物多模态感知和集成感知-计算原理的启发,近期研究已从理论探索逐步发展到设备级别的实际应用。随着神经形态元件和多模态感知技术的不断发展,MSCDs展现出了明确的历史发展轨迹(图2)。1894年,英国生理学家谢灵顿首次提出了“突触”概念,描述了神经元之间的信号传输界面,为神经科学和神经形态电子学奠定了理论基础[16]。1947年晶体管的发明和1971年忆阻器的引入进一步促进了人工神经设备系统的建立[17][18],为神经形态计算硬件提供了物理基础。相比之下,传统单模态传感器的发展始于20世纪50年代中期,1954年压力传感器的出现标志着单一维度感知系统的形成[19]。然而,在现实世界环境中,高维多模态信号通常表现出强烈的耦合特性,推动了能够同时检测和处理多种物理刺激的多模态感知设备的发展。自2020年以来,神经形态设备和多模态感知技术逐渐在相同的硬件平台上融合,催生了新的神经形态感知组件,如突触电容器、突触摩擦电纳米发电机(TENGs)和突触光晶体管。通过进一步的阵列级集成或三维(3D)堆叠,这些设备实现了高密度集成,形成了MSCDs融合的硬件框架[20][21][22][23][24][25][26]。预计到2025年后,能够在感知前端直接进行计算和学习的多模态神经形态系统将进入快速发展阶段[27]。MSCDs的快速发展迫切需要一篇全面的综述。尽管现有综述做出了重要贡献,但它们主要关注单模态感知,未能充分探讨神经形态元件与多模态系统的集成,以及设备和系统层面的实际实现挑战。因此,我们编写了这篇综述,全面讨论了MSCDs的最新进展,概述了它们对具身智能的潜在影响,并强调了需要进一步探索的研究方向。
本文系统总结了多模态感知和神经形态计算的最新进展,重点讨论了单模态与多模态感知之间的差异、多模态信号融合与解耦策略以及神经形态设备的分类和特性。在此基础上,进一步探讨了MSCDs的结构设计和跨模态(两种不同感知模式之间的协同感知)耦合机制,揭示了它们在实现高效信息处理和类脑学习方面的独特优势。同时,我们研究了感知-计算集成在具身智能系统中的典型应用,包括智能机器人、可穿戴智能系统、仿生假肢和神经接口设备以及多模态场景识别。最后,探讨了MSCDs的未来发展前景和潜在挑战。
节选内容
单模态感知
单模态感知是指系统或个体仅依赖单一感官通道获取、分析和解释外部信息的过程。例如,在视觉单模态感知中,模型仅使用图像数据进行目标识别或场景理解;在听觉单模态感知中,它完全依赖声音来完成语音识别或情感分析等任务。单模态感知具有简单等优点
神经形态设备的基础
神经形态设备模仿生物神经系统,旨在实现类脑计算和智能系统。这些设备模拟神经元的电行为和突触的工作方式,以类似于大脑中信号传输和学习的方式处理信息。本章详细介绍了常见的神经形态设备,包括忆阻器和晶体管,它们能够进行非线性计算、存储记忆等MSCDs的结构
MSCDs具备感知和计算功能,旨在为实时感知、处理和对各种环境信号的响应提供高效且紧凑的解决方案。为了在复杂环境中紧凑高效地运行,MSCDs必须具备高集成度、实时智能处理能力和强抗干扰能力。一般来说,MSCDs可以分为两种结构:平面内集成和平面外集成。平面内集成涉及具有MSCDs的具身智能系统的应用
具有MSCDs的具身智能系统通过材料、结构和算法的协同设计实现了感知和计算的集成,为智能机器人、可穿戴设备、带有神经接口的仿生假肢以及多模态场景识别系统的发展提供了新的技术路径。在智能机器人领域,这类系统使机器人能够通过协同感知和计算实现精细操作和自主决策结论与展望
得益于人工智能与物联网的深度融合,MSCDs正成为实现具身智能的基本构建块。通过模仿生物神经系统的多模态协同感知和并行信息处理机制,这些设备克服了传统冯·诺依曼架构分离范式中固有的瓶颈,实现了信号采集、处理和学习的集成
CRediT作者贡献声明
徐晨辉:撰写——审稿与编辑,撰写——初稿,概念构思。郑彤:撰写——审稿与编辑,撰写——初稿。谢新凯:撰写——审稿与编辑,撰写——初稿。王卓然:撰写——审稿与编辑。史琼峰:撰写——审稿与编辑,指导。沈国珍:撰写——审稿与编辑,指导。吴俊:撰写——审稿与编辑,撰写——初稿,概念构思。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
C.X.和T.Z.对这项工作做出了同等贡献。本工作得到了国家重点研发计划(2022YFB3603403和2021YFA1200700)、东南大学青年学者跨学科研究计划(2024FGC1007)、中央高校基本科研业务费(2242025F10007)以及江苏省研究生研究与实践创新计划(SJCX25_0079)的支持。