面向生成式AI系统的数据中心化架构：DReX——高效、可扩展的密集检索加速方案

《IEEE Micro》：Multi-Stage Data-Centric Dense Retrieval

【字体：大中小】 时间：2026年02月26日 来源：IEEE Micro 2.9

编辑推荐：

　　当前，密集检索（Dense Retrieval）作为生成式AI系统的检索增强（RAG）基石，面临近邻搜索（NNS）算法在速度与精度上难以兼得的瓶颈。为此，研究人员聚焦DReX——一种与数据集无关的密集检索加速方案，其核心在于利用DRAM内存内与近内存处理的数据中心化硬件架构。该研究通过探索设计空间中的帕累托最优配置，在性能与成本间实现了卓越的权衡，为构建下一代高效检索增强生成AI系统提供了硬件层面的创新路径。

在当今如火如荼的生成式人工智能（AI）浪潮中，一个看似幕后、却至关重要的组件正面临着严峻的性能挑战，它就是密集检索（Dense Retrieval）。无论是与大型语言模型对话，还是让AI根据你的描述生成一幅画，背后往往需要实时、精准地从海量数据中“捞”出最相关的信息片段，这个过程就依赖于密集检索技术。简单来说，它把文本、图片等任何数据都转换成高维空间中的“向量”（一种数学表示），然后通过计算向量间的相似度，快速找到与用户查询最匹配的条目。然而，理想的“快速”与“精准”在现实中却成了一对难以调和的矛盾。现有的精确或近似近邻搜索（NNS）算法，在应对生成式AI系统，尤其是检索增强生成（RAG）场景对吞吐量和延迟的苛刻要求时，显得有些力不从心。速度快的往往精度打折，精度高的又可能慢如蜗牛。这个瓶颈不突破，生成式AI的“智能”与“实时响应”体验就难以兼得。

正是在这样的背景下，一项名为“DReX”的研究应运而生，并发表在了《IEEE Micro》期刊上。这项研究直击痛点，提出了一种全新的解决思路：不从算法上“螺蛳壳里做道场”，而是从硬件架构的根子上寻求突破。研究人员设计了一套名为DReX的数据集无关、高精度、可扩展的密集检索加速方案。其核心创新在于“数据中心化”的硬件架构设计，巧妙地利用了DRAM（动态随机存取存储器）内存的内部以及靠近内存的区域进行处理。这种方法旨在将计算尽可能地靠近数据所在之处，从而大幅减少数据在处理器和内存之间来回搬运的延迟和能耗，这正是提升检索速度的关键。研究不仅提出了DReX的整体架构，还深入分析了其背后的关键设计决策，并系统地探索了在整个设计空间中，如何找到那些在性能、精度和成本之间达到最佳平衡点的帕累托最优配置。这意味着，面对不同的应用场景和资源约束，开发者可以根据DReX提供的设计图谱，选择最适合自己需求的硬件实施方案。这项研究的意义在于，它为克服当前密集检索的性能瓶颈提供了一条切实可行的硬件加速路径，为构建下一代既快又准的检索增强生成式AI系统奠定了重要的基础。

为了开展这项研究，作者主要依托于硬件架构设计与系统建模分析的方法。其关键技术路径包括：1. 提出并实现了一套创新的、基于DRAM内存内与近内存处理的数据中心化硬件架构（DReX），该架构专为加速高维向量相似度计算（即近邻搜索的核心操作）而优化。2. 对DReX方案进行了全面的设计空间探索，通过系统性的建模与评估，识别并分析了一系列在检索精度、系统吞吐量/延迟、硬件成本及能效等多项指标上达到帕累托前沿的最优配置，明确了不同设计参数（如内存内处理单元的数量、精度、数据流组织方式等）对最终性能与成本的影响。

研究结果

DReX硬件架构设计

研究人员设计了一套名为DReX的加速器架构。其核心思想是将密集检索中最耗时的向量相似度比较计算，从传统的中央处理器（CPU）或图形处理器（GPU）卸载，并嵌入到存储数据本身的DRAM内存模块内部或紧邻内存的位置。通过这种“存算一体”或“近存计算”的方式，DReX能够极大减少数据搬运开销，从而实现高能效、低延迟的检索操作。架构设计充分考虑了可扩展性，以支持未来不断增长的数据集和查询吞吐需求。

帕累托最优设计空间探索

研究对DReX架构的关键设计参数进行了详尽的探索，揭示了性能、精度与成本之间的复杂权衡关系。分析表明，不存在一个适用于所有场景的“万能”配置。相反，通过调整内存内处理单元的计算精度、并行度、片上缓存大小以及数据预取策略等参数，可以在设计空间中形成一条帕累托前沿。这条前沿上的每一个点都代表了一种配置，在该配置下，无法在不损害其他指标（如延迟、精度或成本）的前提下，进一步优化某一项指标。这为系统设计者提供了清晰的指导，使其能够根据特定的应用约束（例如，对检索精度有极致要求，或对查询延迟有严格上限）来选择最合适的硬件实现方案。

与现有方案的对比评估

研究将DReX与当前主流的精确NNS（如基于GPU的暴力计算）和近似NNS（如基于商品化硬件的图索引方法）算法进行了对比。评估结果显示，DReX在保持与精确NNS相媲美的高检索精度的同时，能够实现数量级级别的查询延迟降低和能效提升。与某些近似NNS方法相比，DReX在可比或更优的速度下，提供了显著更高的检索质量。这证明了数据中心化架构在解决密集检索速度-精度权衡难题上的有效性和优越性。

研究结论与讨论

本研究成功提出并验证了DReX，一种基于数据中心化硬件架构的密集检索加速方案。研究得出结论，通过将计算推向数据所在的DRAM，能够从根本上缓解数据移动瓶颈，从而为检索增强生成（RAG）等对延迟和吞吐量敏感的应用提供兼具高精度与高效率的检索能力。DReX的数据集无关特性使其具备广泛的适用性。更重要的是，研究通过系统的设计空间分析，绘制了清晰的性能-成本帕累托前沿，为实际芯片设计与系统集成提供了宝贵的决策依据。

讨论部分强调了此项工作的更广泛意义。它标志着一种范式转变：即从单纯依赖改进NNS算法，转向通过软硬件协同设计，特别是从内存子系统架构层面进行创新，来突破生成式AI系统中的关键性能瓶颈。DReX所代表的方向，为未来面向AI负载的异构计算平台设计提供了新的思路。当然，研究也指出了未来的工作方向，例如进一步优化架构以支持更复杂的距离度量、探索与新兴存储器技术的结合，以及研究在更大规模数据中心部署时的系统级挑战。总体而言，这项研究为构建下一代高效、智能的AI基础设施贡献了一个坚实而创新的硬件基石。

热点排行

新闻专题