CXL-DMSim:一款全系统级的CXL(Compute Express Link)内存模拟器,具备全面的硅片验证功能

《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems》:CXL-DMSim: A Full-System CXL Disaggregated Memory Simulator With Comprehensive Silicon Validation

【字体: 时间:2026年03月24日 来源:IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 2.9

编辑推荐:

  CXL-DMSim是一个开源全系统仿真器,支持CXL协议的内存解耦系统模拟,在接近gem5的仿真速度下验证了FPGA和ASIC硬件的内存延迟(2.88倍和2.18倍)和带宽(45%-69%和82%-83%)。实验表明CXL可显著提升内存密集型应用性能,如Viper数据库提升23倍,MERCI场景提升60%,并展示了观测性和可扩展性,适用于未来异构内存池研究。

  

摘要:

Compute Express Link (CXL) 已成为未来异构计算系统中实现内存解耦的关键技术,能够根据需求扩展内存并提高资源利用率。然而,CXL 仍处于起步阶段,市场上缺乏成熟的产品,因此需要一个可靠的系统级仿真工具来进行研究和开发。在本文中,我们介绍了 CXL-DMSim(开源地址:https://github.com/ferry-hhh/CXL-DMSim),这是一个开源的全系统(FS)仿真器,能够以与 gem5 相媲美的仿真速度高精度地模拟 CXL 解耦的内存系统。CXL-DMSim 包含了一个灵活的 CXL 内存扩展模型及其相关的设备驱动程序,并支持 CXL.io 和 CXL.mem 协议。该仿真器可以在应用程序管理(AM)模式和内核管理(KM)模式下运行,后者采用专用的 NUMA 兼容机制。通过使用基于 FPGA 和 ASIC 的 CXL 内存设备对仿真器进行了严格验证,结果显示 CXL-DMSim 在模拟各种 CXL 内存设备特性时的平均仿真误差仅为 3.4%。实验结果表明:CXL-FPGA 内存的延迟比本地 DDR 内存高约 2.88 倍,而 CXL-ASIC 内存的延迟约为 2.18 倍;CXL-FPGA 的内存带宽可达本地 DDR 的 45%–69%,而 CXL-ASIC 的内存带宽可达 82%–83%。研究还发现,CXL 内存能够显著提升内存密集型应用的性能,在内存有限的场景下(例如 Viper 关键值数据库),性能最多可提升 23 倍;在依赖内存带宽的应用场景(如 MERCI)中,性能提升约 60%。此外,通过详细的案例研究展示了该仿真器的可观测性和可扩展性,进一步凸显了其在未来 CXL 互连混合内存池研究中的巨大潜力。

引言

随着 AI/ML 和大数据分析等大规模数据驱动应用的普及,当今异构并行计算系统对更大内存的需求持续增长。过去二十年里,得益于摩尔定律和多核/众核技术的发展,CPU 性能得到了显著提升。然而,每核心的内存容量和带宽却在下降,这显然成为系统性能的瓶颈 [1]。在现代数据中心中,部署单元通常是包含紧密耦合的计算和内存资源的一体化服务器。这种一体化架构多年来一直以 CPU 为中心,导致整个系统的内存资源过度配置。据观察,在 Azure 和 Google 的超大规模基础设施中,大约 40% 的总内存资源大部分时间处于未使用状态,主要是由于“滞留内存”(服务器所有核心都被租用后剩余的内存)和“未使用的内存”(已租用但实际未被利用的内存)[2]、[3]。考虑到近年来 DRAM 芯片价格的上涨,内存资源的利用率低下导致了高昂的总体拥有成本(TCO)[2]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号