扩展云服务:一种用于在不确定性环境下进行分布式基础设施扩展的集成优化框架

《Journal of Industrial Information Integration》:Expanding the Cloud: An Integrated Optimization Framework for Distributed Infrastructure Scaling Under Uncertainty

【字体: 时间:2026年03月23日 来源:Journal of Industrial Information Integration 11.6

编辑推荐:

  云计算数据中心扩展的联合优化模型与鲁棒性研究,提出混合Benders分解方法处理长短期不确定性,动态服务承诺降低11.25%累计成本,揭示需求波动与电力价格对部署策略的协同影响。

  
马书毅|李瑾|谢敏
中国西安交通大学

摘要

随着计算需求的持续增长,云服务提供商(CSPs)正在不同地理区域积极扩展其数据中心(DC)基础设施。考虑到巨大的资本投资和延长的规划周期,在整个扩展过程中考虑运营不确定性至关重要。本研究提出了一个联合优化模型,整合了数据中心选址、资源配置、网络配置和需求分配。需求和电价增长的长期不确定性通过鲁棒集进行建模,而可用性、需求和电价的短期不确定性则通过代表性场景来捕捉。为了解决由此产生的混合整数非线性规划问题,我们开发了一种混合Benders分解方法,该方法结合了传统的Benders切割和基于逻辑的Benders切割。数值实验验证了所提出方法的可扩展性和计算效率,表明与标准商业求解器相比,在大规模实例上实现了大约100倍的计算加速。结果表明,短期需求波动主导了成本影响,而长期不确定性则加速了设施部署。研究结果还表明,与僵化的静态策略相比,采用动态服务承诺可将累积成本降低多达11.25%。本研究还探讨了服务承诺与预算限制之间的相互作用。理论贡献包括先进的不确定性量化算法设计,而实际意义在于指导CSPs在成本效率与服务承诺之间取得平衡。

引言

云服务已成为数字经济的基础,支持大数据分析和人工智能(AI)等关键应用。这一增长体现在对数据中心(DC)容量的全球需求迅速增加上,预计到2030年这一需求将增加两倍[1]。作为回应,云服务提供商(CSPs)和公共机构正在积极扩展其云基础设施。例如,亚马逊在37个全球地区运营着117个数据中心1,并承诺到2030年在印度投资350亿美元,重点发展本地云环境[2]。政府也推出了激励措施,英国(UK)将数据中心列为关键国家基础设施[3],中国计划在未来2024年至2029年间将其数据中心投资翻倍[4]。
地理分布的数据中心相比单站点部署具有多重优势。它们可以通过将服务放置在更接近最终用户的位置来减少用户感知的延迟[5],通过地理冗余提高灾难恢复能力[6],并通过转移工作负载实现能源效率的成本优化[7]。尽管有这些好处,多站点部署也给CSPs带来了重大挑战。作为一个集成服务系统,分布式数据中心需要一种综合的成本建模方法,以协调长期容量规划与短期运营考虑。梁等人[8]开发了一个分布式数据中心部署模型,旨在最小化基础设施、能源和延迟成本,但之前的研究主要集中在实时目标上,如降低能源成本[9]或减轻性能损失[10]。与仅关注即时需求并导致后期紧急成本过高的顺序规划不同,这种前瞻性模型主动预测了长期动态,优化了整个规划期间的容量扩展,从而减轻了与次优、反应性资源分配相关的财务风险。
这种综合建模的主要挑战是管理不确定性。长期不确定性主要涉及多年期的结构变化,如总体需求增长和区域电价趋势。这些因素决定了基础设施的基本规模和地理布局。未能考虑这些长期结构变化往往会导致巨大的投资损失。例如,由于高估需求预测,微软在美国和欧洲终止了多个数据中心项目,导致超过2000万美元的不可回收资本支出[11]。同样,PJM Interconnection宣布到2026年电力拍卖价格将几乎增加三倍,这是由于数据中心部署导致的电力需求激增加剧了区域能源不平衡[12]。除了长期战略规划外,CSPs还需应对短期运营不确定性。这些包括每小时需求波动、时变电价和随机可用性。这些短期因素决定了系统的实时性能和日常运营成本。
然而,系统范围的规划周期(例如多年期)与重复短周期内的运营分配(例如每小时间隔)密切相关。将这两个时间尺度分开不可避免地会导致基础设施配置不佳。具体来说,长期的空间需求和成本模式决定了基本的容量规划[13],而短期需求则表现出极端的瞬态波动。如果长期容量规划忽略了这种短期波动,那么 resulting 的基础设施将缺乏必要的缓冲,迫使CSPs频繁租用昂贵的第三方紧急容量以防止服务下降。相反,如果长期计划盲目过度建设基础设施以吸收极端短期波动,它们会产生闲置资产,导致在正常运营时间内昂贵的设施无法得到充分利用2
为了保证服务质量并保护分布式基础设施下的用户体验,CSPs提供了明确的服务承诺。本研究重点关注服务满意率和延迟限制的承诺。服务满意率保证对于缓冲短期服务器故障和意外流量激增至关重要。包括网络传播延迟和服务停留时间在内的延迟限制对于保持响应性至关重要。通常,CSPs在整个规划周期内采用静态方法来执行这些服务承诺[14]。这种静态设置使CSPs面临巨大的财务风险。当面临需求激增或电价波动时,维持较高的固定服务水平迫使提供商购买价格高昂的紧急资源。相比之下,逐步改进的服务承诺允许CSPs调整性能保证和预算限制。这种灵活性减轻了刚性承诺的风险,并防止了为应对最坏情况而过度提供长期基础设施所导致的不可回收支出。
受这些挑战的启发,本研究开发了一个集成优化模型,支持CSPs的协调长期规划和短期需求分配。具体来说,我们解决了以下研究问题:(i)如何确定新数据中心的时机和位置?(ii)如何规划和扩展每个数据中心的能力?(iii)如何高效地在各个站点分配需求?以及(iv)如何管理不确定性对系统性能和服务交付的影响?扩展决策涉及相互依赖的方面,包括新数据中心的建设、现有设施的扩展、跨站点的容量分配、用户-数据中心网络带宽的配置以及实时需求的分配。与传统的集合覆盖问题(如物流仓库选址)不同,数据中心选址需要特别关注区域电力市场,因为能源成本通常占日常运营费用的70%以上[15]。虽然靠近用户可以降低带宽成本和响应延迟,但也可能导致土地和电力相关成本的显著增加[16]。为了管理这种权衡,我们提出了一个集成决策模型,共同优化上述扩展决策。
所提出的框架涵盖了不同时间范围内的不确定性以及随机类别。长期不确定性,如区域需求和电价的增长,使用鲁棒集在年度规划周期内进行建模。短期不确定性通过将每年划分为每小时间隔并构建反映容量可用性、需求模式和每小时电价的代表性场景来表示。由此产生的扩展问题被构建为一个混合整数非线性规划(MINLP)问题,并使用混合Benders分解方法解决。
本研究对该领域有三个主要贡献:
  • 专注于信息基础设施。虽然传统的基础设施规划主要关注发电厂和仓库等物理资产,但本研究填补了一个关键空白,解决了分布式云服务系统的特定需求,这是现代数字经济的核心组成部分。这些系统需要专门的建模来处理独特的特性,如严格的延迟要求和巨大的能源消耗。
  • 集成决策框架。本研究提出了一个多期框架,整合了容量规划、资源分配和不确定性表示。该框架使CSPs能够评估基础设施投资与运营灵活性之间的权衡,反映了现实世界的复杂性。
  • 高效的MINLP解决方案。我们引入了一种新颖的解决方案方法,使用定制的Benders分解算法。这种方法结合了用于整数决策的传统Benders切割和用于非线性约束的基于逻辑的Benders切割。数值实验表明,这种混合方法在大型实例上实现了卓越的可扩展性,并且比商业求解器或标准分段线性化技术快两个数量级。
  • 除了方法论贡献外,本研究还为CSPs提供了实际见解。首先,关于不确定性管理,我们的结果揭示了短期需求波动主导了总体运营成本影响,而长期不确定性加速了设施部署的时间。因此,CSPs应优先考虑灵活的短期资源分配,而不是过度建设长期基础设施。其次,我们的发现突出了动态服务承诺的战略价值,特别是对于较小的提供商。通过灵活调整性能保证而不是要求大规模的前期基础设施部署来满足静态目标,动态承诺显著降低了初始资本投资门槛。最后,在平衡服务承诺与紧张的预算限制时,我们的实验表明,严格执行超低延迟和高可用性会在高峰需求时触发紧急采购成本的指数级增加。建议CSPs战略性地放宽延迟限制,这可以在确保基本可用性的同时实现财务可持续性。
    本文的其余部分组织如下。第2节回顾了分布式云服务系统操作的文献。第3节介绍了问题表述,详细说明了系统架构和数学模型。第4节描述了解决方法,重点介绍了Benders分解算法及其实现细节。第5节讨论了计算结果,展示了算法的性能并提供了管理见解。最后,第6节总结了研究并提出了未来研究的方向。

    章节片段

    文献综述

    本研究与三个主要文献流派相一致,包括分布式云系统中的资源规划、不确定性建模和解决方案方法。本节回顾了相关文献,并定位了我们的贡献。

    问题表述

    分布式系统扩展问题的表述自然采用了双层结构,以反映决策过程的时间层次。从战略上讲,CSPs在不确定性实现之前就承诺了不可逆的资本支出,涉及设施位置和容量。在操作层面,实时需求分配作为在观察特定随机实现后执行的补救机制。

    解决方案设计

    第3节建立了一个双层模型,上层选择可接受的长期实现,下层在短期不确定性下最小化总成本。约束(9)通过要求上层决策位于下层问题引起的可行区域内,将两个层次联系起来。对于任何实现的长期不确定性,下层验证可行性并评估相应的总成本。解决方案程序解决了下层问题

    计算结果

    本节提供了数值评估,以分析不确定性和服务承诺对决策和成本结构的影响。首先,我们验证了所提出的混合Benders分解方法的计算效率和准确性。然后,我们从三个角度设计了实验:(i)短期不确定性如何塑造初始系统和成本?(ii)长期不确定性如何影响多年扩展策略?(iii)服务承诺如何

    结论

    人工智能的快速发展推动了对分布式云服务需求的增长,使得系统扩展成为CSPs的战略决策。本研究解决了此类扩展中涉及的复杂挑战,包括巨大的资本支出、多年规划周期以及长期和短期固有的不确定性。为了应对这些挑战,我们提出了一个双层优化框架,将长期战略规划决策与短期

    CRediT作者贡献声明

    马书毅:撰写——原始草稿、可视化、软件、方法论、调查、形式分析、概念化。李瑾:撰写——审阅与编辑、监督、资源管理、项目管理、资金获取。谢敏:撰写——审阅与编辑、监督、资源管理、项目管理、资金获取。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号