
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在擦除编码存储中,利用所有可用节点增强聚合修复功能
《ACM Transactions on Architecture and Code Optimization》:Boosting Aggregation Repair with All Available Nodes in Erasure-Coded Storage
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
分布式存储系统中纠删码的修复优化研究。针对现有算法忽视上行带宽限制、多故障场景处理复杂的问题,提出RAN算法通过可编程网络设备聚合传输和优化带宽分配,有效缓解双向链路瓶颈。实验表明在EC2环境下,修复吞吐量较现有方法提升达266.6%。
此摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在帮助读者发现相关内容、评估文章的相关性,并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍然是文章的正式摘要。完整文章是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI生成的摘要
该摘要由基于已发表文章文本的自动化系统生成。
生成日期:2026年1月23日
本研究解决了提高分布式擦除编码存储系统修复性能的挑战。这类系统使用擦除编码来实现容错,且存储开销低于复制方式。尽管擦除编码具有存储效率,但在数据修复过程中会产生大量网络流量,导致上行链路和下行链路网络路径出现瓶颈。现有的修复算法主要关注缓解下行链路节点的拥塞问题,但忽略了上行链路带宽的限制,这严重限制了修复吞吐量。这些算法要求每个参与节点上传整个数据块,因此性能受到上行链路带宽最低的节点的限制。此外,现有方法缺乏处理不同故障场景的统一方法,增加了系统的复杂性。
为了解决这些限制,作者提出了一种名为RAN的新修复方法,该方法利用集群中的所有可用节点和可编程网络设备同时缓解上行链路和下行链路的瓶颈。RAN将每个故障数据块分割成子块,并将修复传输分布在所有可用节点上,使上行链路带宽有限的节点只需上传部分数据。可编程网络设备通过网络内解码聚合来自多个节点的数据,从而减少修复请求节点的下行链路流量。这种统一的流程在各种故障场景下都能保持高效,包括读取性能下降、节点完全失效和多故障恢复,并能适应具有不同链路带宽的异构网络环境。
RAN采用了一个多步骤的统一修复算法,包括大小计算、数据定位和数据分割,以最大化利用可用的上行链路带宽并最小化转发延迟。对于节点完全失效的情况,它将大小分配问题表述为一个线性规划问题,随后为大规模系统引入了一种可扩展的贪心算法。协作解码通过将乘法运算分布在节点上来减少对可编程设备的计算需求。基于条带编号的恢复优先级和负载均衡的存储布局策略优化了修复过程中的内存使用。带宽估计技术(包括平均、流量控制和预测)支持准确的资源分配。
在Amazon EC2平台上的广泛实施和测试表明,与传统的修复、中继修复和聚合修复方法相比,RAN显著提高了修复吞吐量。在读取性能下降的情况下,RAN的吞吐量提高了68.9%;在节点完全失效的情况下,吞吐量提高了266.6%。RAN在重流量负载、不同的擦除编码策略以及各种网络条件下(包括跨机架和跨区域恢复)也表现出有效性,并且能够有效地与现有的分布式文件系统(如HDFS)集成。该方法具有良好的可扩展性,适用于多故障恢复场景。这项工作突显了RAN通过克服上行链路瓶颈来提高修复效率的潜力,为大型擦除编码存储系统提供了一种统一、实用且可扩展的修复解决方案。