用于向量数据分类的稀疏分布式表示的参数化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月01日 来源：Neurocomputing 6.5

编辑推荐：

　　本研究通过参数化分析稀疏分布式表示（SDR）在向量符号架构（VSA）中的应用，探讨了维度与密度的优化策略，比较了Sparse Block Codes（SBC）、Sparse Binary Distributed Representations（SBDR）与密集HRR的模型性能，在121个UCI数据集验证了稀疏方法在能效和存储效率上的优势，同时达到与密集方法相当的分类准确率。

Dilantha Haputhanthri|Daswin De Silva|Evgeny Osipov|Dmitri Rachkovskij|Ross W. Gayler

澳大利亚墨尔本拉筹伯大学数据分析与认知中心

摘要

在各种应用场景中对人工智能（AI）能力的需求不断增加，这相应地增加了构建和部署此类模型所需的计算处理能力和内存。这促使人们从大型AI模型转向小型模型和节能的机器学习技术。向量符号架构（VSA）通过在高维向量空间中对数据进行编码和操作，为这种向节能学习的转变提供了有效的框架，特别是VSA中的稀疏分布式表示显著提高了大多数机器学习算法的计算和内存效率。在本文中，我们研究了VSA中用于向量数据分类任务的稀疏分布式表示的参数化方法。本文重点关注维度和密度，探讨了使用稀疏块码（SBC）、稀疏二进制分布式表示（SBDR）和密集全息简化表示（HRR）对向量数据进行编码的策略。我们采用组合方法对向量数据进行编码，并系统地评估参数选择以优化分类性能。通过使用121个UCI分类数据集进行详细参数化，我们确定了稀疏分布式表示的关键设计考虑因素。实验表明，随着维度的增加，准确性迅速提高，但随后达到饱和。对于SBC，中等结构密度始终表现出较高的性能：25%的密度产生了最高的平均测试准确性。对于SBDR，中等密度的CDT设置具有最佳性能，而极端密度则会降低性能。在最佳设置下，稀疏表示与最先进的密集表示性能相当：SBC在121个数据集上的平均准确率为

，SBDR为

，密集HRR为

，这些结果为实现与最先进的VSA方法相当的性能提供了实用指导，突显了它们在高效和可扩展机器学习方面的有效性。

引言

人工智能（AI）正在迅速改变我们的生活方式和工作方式，在所有行业领域带来了多样化的创新。尽管取得了这些进展，但基础AI模型的训练和推理仍然消耗大量的计算和内存资源，导致较大的能源足迹和相应的碳排放。随着AI在各个行业领域和应用场景中的整合程度不断提高，这一问题更加严重。例如，平均一个ChatGPT查询需要大约2.9瓦时的能量，这是谷歌搜索查询能耗的十倍[1]。为了应对这一需求，预计到2030年美国的数据中心数量将增长29%至166%[2]。这种能源消耗的惊人趋势促使人们从大型AI模型转向保持相似性能水平的节能模型。最近在节能AI方面的研究包括减少大型模型计算复杂性的方法，如剪枝、量化和蒸馏。剪枝通过消除神经网络中的冗余神经元来降低计算复杂性[3]，但这通常需要大量的微调来恢复丢失的准确性，而且找到最佳的剪枝策略可能具有挑战性。量化通过降低计算的数值精度来节省能源[4]，但这也会导致准确性下降，尤其是在需要高精度的任务中。知识蒸馏将知识从大型模型转移到小型模型以减少计算需求[5]，但其有效性取决于大型模型的质量，而大型模型并不总是能够很好地泛化。

向量符号架构（VSA）[6]是一个更具前景的研究方向，从根本上具有节能性。由于向量操作的计算负载较低，VSA方法已被用于构建高效的分类器，并且在多种低能耗硬件环境中得到了验证[7]，[8]稀疏VSA变体通过使用高比例的零和稀疏更新进一步减少了内存占用和计算量[9]。VSA是一个方法框架，它使用高维向量（也称为超向量（HVs）和计算简单的操作来表示各种类型的数据和信息。VSA所固有的效率和鲁棒性激发了对更广泛AI问题的研究[8]，[10]。大多数VSA解决方案使用密集表示，其中大多数向量分量是非零的。稀疏分布式表示（SDR）是VSA的一个子集，它引入了大部分分量为零的表示方式。SDR相比密集VSA表示具有更高的能效[9]和更高效的存储[11]。稀疏二进制分布式表示（SBDR）模型，也称为二进制稀疏分布式码[12]，[13]，作为关联-投影神经网络[14]的一部分出现。稀疏块码（SBC）模型在[9]中被提出，并由[15]进一步改进，它通过将HVs划分为等大小的块来对其施加额外的结构，使得HVs的维度成为块大小的倍数。每个块只包含一个非零分量。在[15]中，通过应用证明使用稀疏块码可以取得与经典VSA相当的性能。

在这项工作中，我们特别关注向量数据分类，VSA在这方面已经显示出与传统AI方法相当的结果[16]。在使用VSA中的稀疏分布式表示进行向量数据分类时，需要做出几个设计决策：将输入向量数据转换为HVs的方法；转换过程中HVs的密度；以及维度。尽管人们对VSA中的SDR越来越感兴趣，但这些设计决策往往是任意做出的，没有适当的理由或对其影响的理解。最近的VSA分类方法在编码选择、密度方法和评估协议上存在差异，这使得很难确定哪些设计决策推动了性能。虽然之前的研究在121个数据集基准测试中报告了良好的结果，但关于如何为向量数据分类选择稀疏表示参数（维度和密度控制）的实际指导仍然有限。本文通过受控的参数化研究和在同一方法下对稀疏和密集表示的直接比较来填补这一空白。本文通过对选择VSA中用于向量数据分类的SDR参数所涉及的权衡进行了全面分析，解决了这一问题。第一个关键贡献是全面参数化了分类准确性如何随HVs的维度和密度变化，为使用VSA进行向量数据分类提供了实用指导。第二个贡献是对最佳参数设置的分析，表明使用SDR训练的分类器可以达到与使用密集表示相当的准确性。此外，结果表明某些数据集使用SDR时性能更好，而其他数据集则更适合使用密集表示。这一发现表明数据集的特性决定了是稀疏表示还是密集表示更合适，强调了识别驱动这种偏好的属性的重要性。

本文的结构如下：第3节概述了所提出的方法论，详细描述了研究中使用的SDR实现。第4节描述了实验设置，包括数据集详情和用于评估每个参数影响的程序，随后是各个参数的结果以及最佳参数设置。第5节对研究结果进行了深入讨论，第6节总结了本文的贡献。

方法论

在本节中，我们首先讨论了本研究中使用的VSA模型及其基本操作以及所采用的HVs格式，然后描述了将向量数据转换为HVs表示的过程。

数据集和分类

本研究的实验结果使用了来自UCI机器学习存储库[34]的121个真实世界分类数据集[33]，确保了跨不同领域、特征分布和类别不平衡的多样化和全面评估（见表??）。我们采用了[33]中提供的训练/验证/测试划分。根据数据集的特点，应用了两种标准化方法：（1）标准化训练集并应用

讨论

我们的研究结果突出了SDR在VSA分类任务中的几个关键见解。在SDR的参数化中，我们观察到所有三种模型随着维度的增加都提高了训练和测试准确性，在较低维度时增长迅速，而在较高维度时达到饱和。HRR模型显示出最小的训练-测试准确性差异，而SDR显示出相对较高的差异。

在SBC中，我们比较了几种

结论

AI使用的快速增长增加了计算和内存需求，这加强了对于节能学习方法的需求。VSA通过在高维空间中使用简单操作来编码和操作信息，提供了一种节能的方向，而VSA中的SDR通过存储和计算的稀疏性进一步提高了效率。基于这一动机，本文研究了如何为向量数据分类参数化VSA中的SDR，重点关注关键

CRediT作者贡献声明

Dilantha Haputhanthri：撰写——原始草稿、可视化、验证、方法论、调查、形式分析、数据整理。Daswin De Silva：撰写——原始草稿、监督、方法论、调查、概念化。Evgeny Osipov：撰写——原始草稿、监督、方法论、调查、形式分析、概念化。Dmitri Rachkovskij：撰写——原始草稿、监督、方法论、调查、形式分析、概念化。Ross W. Gayler：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

D.H.、E.O.和D.S.的工作得到了Intel Neuromorphic Research Community (INRC)项目的支持：在基于相位的关联记忆上使用向量符号表示进行NLP任务的无监督学习。E.O.和D.S.的工作部分得到了瑞典国际研究与教育合作基金会（STINT，授权号MG2020-8842）的支持。D.S.的工作还得到了气候变化、能源、环境和水部的部分支持

Dilantha Haputhanthri于2018年从Moratuwa大学获得了电子与电信工程学士学位（荣誉学位）。他目前在澳大利亚拉筹伯大学数据分析与认知中心攻读人工智能博士学位。他在业界工作了多年，包括在Synopsys的工作，专注于编译器优化和定制硬件设置。他的研究兴趣包括认知计算、硬件

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

方法论

数据集和分类

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行