用于超声成像的统一内存处理技术：一种具备流水线感知调度功能的双核忆阻器架构

《Future Generation Computer Systems》：Unified processing-in-memory for ultrasound imaging: A dual-kernel memristor architecture with pipeline-aware scheduling

【字体：大中小】 时间：2026年05月11日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　王俊杰|黄兆|姜平|刘刚|赵玉宁|徐丽慧|刘云峰西安电子科技大学计算机科学与技术学院，中国陕西省西安市雁塔区太白南路2号，710071 摘要在超声波信号处理中，内存和计算单元之间的频繁数据传输严重限制了吞吐量并增加了功耗。尽管内存计算（PIM）提供了一个有前景的解决方案，

王俊杰|黄兆|姜平|刘刚|赵玉宁|徐丽慧|刘云峰

西安电子科技大学计算机科学与技术学院，中国陕西省西安市雁塔区太白南路2号，710071

摘要

在超声波信号处理中，内存和计算单元之间的频繁数据传输严重限制了吞吐量并增加了功耗。尽管内存计算（PIM）提供了一个有前景的解决方案，但现有设计往往缺乏这种复杂多阶段工作负载所需的流水线级调度和异构计算能力。我们提出了一种基于忆阻器交叉bar的数据传输高效PIM架构，该架构集成了两个乘法-累加（MAC）核和一个统一的、具有流水线意识的控制器，用于调度和数据流控制。单比特（SBIT）核针对高精度、长链累加操作，而多比特（MBIT）核则针对低延迟、短链累加操作。控制器协调数据流通过五阶段超声波流水线，以实现原位计算并最小化片外传输。MATLAB–Cadence联合仿真表明，平均像素级相对误差（MRE）为1.9%，在1.3瓦功耗下，每瓦特芯片的流水线间隔为8.39毫秒（端到端帧延迟为17毫秒）。这些结果相对于34.0瓦FPGA基准实现了延迟减少四倍和功耗减少94%。使用65纳米CMOS PDK进行的布局级估计表明，交叉bar核心加上外围设备占据的面积为13.5平方毫米。这些结果共同证实，双核、统一控制的忆阻器PIM架构是一种实用的设计，适用于无需片外内存和离散图形加速器的紧凑型、节能的超声波成像系统。

引言

实时超声波成像对吞吐量、能效和紧凑集成提出了严格的要求。在传统的冯·诺伊曼平台上，计算和存储的解耦导致了数据传输的能量瓶颈：中间数据的频繁移动在数据密集型信号处理流水线（如超声波）中占据了主要的时间和功耗[1]，[2]。因此，本文将数据传输提升为首要的设计目标，并针对波束成形后的超声波流水线。

内存计算（PIM）通过在存储衬底内部或附近执行计算来减轻这种数据传输开销[3]。在PIM实现技术中，忆阻器交叉bar阵列提供了密集的存储和高度并行的乘法-累加（MAC）操作，非常适合低延迟信号处理。然而，大多数现有努力，即使是最近的最新设计[4]、[5]，要么关注孤立的核心，要么专注于推理为中心的工作负载，尚未实现将数据传输作为一个定量驱动因素的流水线级设计，并暴露出统一的控制抽象以实现端到端调度。

我们提出了一种数据传输高效的忆阻器PIM架构，专为五阶段的波束成形后超声波链路量身定制：带通/低通（BPF/LPF）滤波、数字下转换（DDC）、包络提取、幅度映射和极坐标到笛卡尔坐标重采样。该架构集成了两个互补的MAC核和一个集成的、具有流水线意识的控制器。单比特核针对高精度、长链累加操作进行优化，而多比特核针对低延迟、短链操作进行优化。调度策略将核心与阶段和比特宽度绑定；保持局部性的执行——包括平铺、双缓冲（乒乓球式）和数组内数据驻留——最小化了片外传输。我们随后使用数据传输比率（DMR）指标来量化数据传输，并利用它来指导各个阶段之间的架构选择，详见第5.2节。

贡献。本文有以下贡献：

1.
针对波束成形后超声波流水线的基于数据传输的PIM设计。我们将数据传输作为主要设计目标，并使用阶段性的DMR视角来指导带通滤波、数字下转换、包络提取、幅度映射和极坐标到笛卡尔坐标重采样等阶段的架构选择。
2.
基于忆阻器交叉bar的阶段/精度感知双核映射。我们设计了单比特和多比特MAC核，并提供了明确的選擇和绑定规则——这些规则由阶段特性、操作数精度和累加长度驱动，以平衡延迟、准确性和资源使用。
3.
具有保持局部性的统一控制平面。我们开发了一个集成的、具有流水线意识的控制器（接口、调度、仲裁），以协调平铺、乒乓球式缓冲和数组内数据驻留，从而最小化端到端的片外传输。

本文的其余部分组织如下。第3节阐述了算法要求并介绍了整体架构。第4节详细介绍了双核交叉bar处理单元和集成控制器。第5节描述了实验设置和基准测试方法，并报告了结果。第6节总结了本文。附录A提供了关键硬件参数和约束条件，附录B提供了设备模型和校准信息，附录C提供了算法列表，附录D提供了坐标转换实现细节、设备校准和完整算法。

章节片段

用于信号处理的忆阻器PIM：进展与局限

PIM通过在存储衬底内部或附近执行计算来缓解内存墙问题。忆阻器交叉bar实现了密集存储和大规模并行模拟域MAC操作，并已在各种信号处理和机器学习场景中得到探索[4]，[6]，[7]，[8]，[9]。最近在神经形态图像识别[10]中的单交叉bar阵列设计的进展进一步展示了基于忆阻器的计算的潜力。

背景和工作流程

实时超声波后处理在波束成形后经过五个阶段：BPF/LPF滤波、DDC、包络提取、幅度映射和极坐标到笛卡尔坐标重采样。图1总结了工作流程。每个阶段都有独特的操作类型、数据流模式和精度要求，这些共同决定了计算粒度、数据驻留和调度。为了避免传统平台上的数据传输能量瓶颈，我们的设计采用了数据传输驱动

双核设计的合理性

在数据传输驱动的目标下，需要异构核心来匹配阶段级特性，同时保持数组内的数据驻留。长链累加可以容忍比特串行周期，但受益于大范围的并行性和精确的聚合——这由SBIT核很好地满足。短链、对延迟要求高的操作则适合减少比特串行深度和分摊转换开销——这由MBIT核很好地满足。本节详细介绍了这两种核心、统一的数组内MAC语义以及

实验评估

本节在统一的跨平台协议下评估了所提出的忆阻器交叉bar架构。我们首先整合了混合联合仿真流程和平台等效设置，然后定义了整个过程中使用的指标和统计方法。结果按数据传输（作为首要驱动因素）、延迟/吞吐量、功耗、准确性和面积/资源的顺序报告，最后进行了简要总结。

结论

我们提出了一种数据传输驱动的双核忆阻器交叉bar，实现了实时、高保真的超声波后处理。五阶段的波束成形后链路在以交叉bar为中心的PIM架构中实现——将信号处理阶段保留在数组内，并通过轻量级外部逻辑协调极坐标到笛卡尔坐标的重采样——通过MATLAB–Virtuoso联合仿真流程进行了验证。以控制器为中心的微架构负责调度SBIT/MBIT核心，并进行平铺

CRediT作者贡献声明

王俊杰：概念化、数据整理、形式分析、软件开发。黄兆：撰写 – 审稿与编辑、监督、资源协调。姜平：数据整理。刘刚：方法论研究。赵玉宁：调查工作。徐丽慧：资源协调。刘云峰：验证工作。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：姜平报告得到了中国国家自然科学基金会的财务支持；姜平还报告得到了榆林大学高层次人才计划的财务支持。如果还有其他作者，他们声明没有已知的可能会影响工作的财务利益或个人关系

致谢

本研究得到了中国国家自然科学基金会（资助编号：62167009）和榆林大学高层次人才计划（资助编号：22GK04）的支持。

王俊杰是西安电子科技大学计算机科学与技术学院的博士候选人，他也在该校获得了硕士学位。他的研究兴趣包括嵌入式系统、集成系统和计算机视觉。他在这些领域发表了多篇学术论文。他还领导设计了核安全物理保护系统、辐射检测实验室系统及相关支持硬件，展现了在这些领域的强大能力

摘要

引言