云服务已成为数字经济的基础,支持大数据分析和人工智能(AI)等关键应用。这一增长体现在对数据中心(DC)容量的全球需求迅速增加上,预计到2030年这一需求将增加两倍[1]。作为回应,云服务提供商(CSPs)和公共机构正在积极扩展其云基础设施。例如,亚马逊在37个全球地区运营着117个数据中心1,并承诺到2030年在印度投资350亿美元,重点发展本地云环境[2]。政府也推出了激励措施,英国(UK)将数据中心列为关键国家基础设施[3],中国计划在未来2024年至2029年间将其数据中心投资翻倍[4]。
地理分布的数据中心相比单站点部署具有多重优势。它们可以通过将服务放置在更接近最终用户的位置来减少用户感知的延迟[5],通过地理冗余提高灾难恢复能力[6],并通过转移工作负载实现能源效率的成本优化[7]。尽管有这些好处,多站点部署也给CSPs带来了重大挑战。作为一个集成服务系统,分布式数据中心需要一种综合的成本建模方法,以协调长期容量规划与短期运营考虑。梁等人[8]开发了一个分布式数据中心部署模型,旨在最小化基础设施、能源和延迟成本,但之前的研究主要集中在实时目标上,如降低能源成本[9]或减轻性能损失[10]。与仅关注即时需求并导致后期紧急成本过高的顺序规划不同,这种前瞻性模型主动预测了长期动态,优化了整个规划期间的容量扩展,从而减轻了与次优、反应性资源分配相关的财务风险。
这种综合建模的主要挑战是管理不确定性。长期不确定性主要涉及多年期的结构变化,如总体需求增长和区域电价趋势。这些因素决定了基础设施的基本规模和地理布局。未能考虑这些长期结构变化往往会导致巨大的投资损失。例如,由于高估需求预测,微软在美国和欧洲终止了多个数据中心项目,导致超过2000万美元的不可回收资本支出[11]。同样,PJM Interconnection宣布到2026年电力拍卖价格将几乎增加三倍,这是由于数据中心部署导致的电力需求激增加剧了区域能源不平衡[12]。除了长期战略规划外,CSPs还需应对短期运营不确定性。这些包括每小时需求波动、时变电价和随机可用性。这些短期因素决定了系统的实时性能和日常运营成本。
然而,系统范围的规划周期(例如多年期)与重复短周期内的运营分配(例如每小时间隔)密切相关。将这两个时间尺度分开不可避免地会导致基础设施配置不佳。具体来说,长期的空间需求和成本模式决定了基本的容量规划[13],而短期需求则表现出极端的瞬态波动。如果长期容量规划忽略了这种短期波动,那么 resulting 的基础设施将缺乏必要的缓冲,迫使CSPs频繁租用昂贵的第三方紧急容量以防止服务下降。相反,如果长期计划盲目过度建设基础设施以吸收极端短期波动,它们会产生闲置资产,导致在正常运营时间内昂贵的设施无法得到充分利用2。
为了保证服务质量并保护分布式基础设施下的用户体验,CSPs提供了明确的服务承诺。本研究重点关注服务满意率和延迟限制的承诺。服务满意率保证对于缓冲短期服务器故障和意外流量激增至关重要。包括网络传播延迟和服务停留时间在内的延迟限制对于保持响应性至关重要。通常,CSPs在整个规划周期内采用静态方法来执行这些服务承诺[14]。这种静态设置使CSPs面临巨大的财务风险。当面临需求激增或电价波动时,维持较高的固定服务水平迫使提供商购买价格高昂的紧急资源。相比之下,逐步改进的服务承诺允许CSPs调整性能保证和预算限制。这种灵活性减轻了刚性承诺的风险,并防止了为应对最坏情况而过度提供长期基础设施所导致的不可回收支出。
受这些挑战的启发,本研究开发了一个集成优化模型,支持CSPs的协调长期规划和短期需求分配。具体来说,我们解决了以下研究问题:(i)如何确定新数据中心的时机和位置?(ii)如何规划和扩展每个数据中心的能力?(iii)如何高效地在各个站点分配需求?以及(iv)如何管理不确定性对系统性能和服务交付的影响?扩展决策涉及相互依赖的方面,包括新数据中心的建设、现有设施的扩展、跨站点的容量分配、用户-数据中心网络带宽的配置以及实时需求的分配。与传统的集合覆盖问题(如物流仓库选址)不同,数据中心选址需要特别关注区域电力市场,因为能源成本通常占日常运营费用的70%以上[15]。虽然靠近用户可以降低带宽成本和响应延迟,但也可能导致土地和电力相关成本的显著增加[16]。为了管理这种权衡,我们提出了一个集成决策模型,共同优化上述扩展决策。
所提出的框架涵盖了不同时间范围内的不确定性以及随机类别。长期不确定性,如区域需求和电价的增长,使用鲁棒集在年度规划周期内进行建模。短期不确定性通过将每年划分为每小时间隔并构建反映容量可用性、需求模式和每小时电价的代表性场景来表示。由此产生的扩展问题被构建为一个混合整数非线性规划(MINLP)问题,并使用混合Benders分解方法解决。
本研究对该领域有三个主要贡献:
•专注于信息基础设施。虽然传统的基础设施规划主要关注发电厂和仓库等物理资产,但本研究填补了一个关键空白,解决了分布式云服务系统的特定需求,这是现代数字经济的核心组成部分。这些系统需要专门的建模来处理独特的特性,如严格的延迟要求和巨大的能源消耗。
•集成决策框架。本研究提出了一个多期框架,整合了容量规划、资源分配和不确定性表示。该框架使CSPs能够评估基础设施投资与运营灵活性之间的权衡,反映了现实世界的复杂性。
•高效的MINLP解决方案。我们引入了一种新颖的解决方案方法,使用定制的Benders分解算法。这种方法结合了用于整数决策的传统Benders切割和用于非线性约束的基于逻辑的Benders切割。数值实验表明,这种混合方法在大型实例上实现了卓越的可扩展性,并且比商业求解器或标准分段线性化技术快两个数量级。
除了方法论贡献外,本研究还为CSPs提供了实际见解。首先,关于不确定性管理,我们的结果揭示了短期需求波动主导了总体运营成本影响,而长期不确定性加速了设施部署的时间。因此,CSPs应优先考虑灵活的短期资源分配,而不是过度建设长期基础设施。其次,我们的发现突出了动态服务承诺的战略价值,特别是对于较小的提供商。通过灵活调整性能保证而不是要求大规模的前期基础设施部署来满足静态目标,动态承诺显著降低了初始资本投资门槛。最后,在平衡服务承诺与紧张的预算限制时,我们的实验表明,严格执行超低延迟和高可用性会在高峰需求时触发紧急采购成本的指数级增加。建议CSPs战略性地放宽延迟限制,这可以在确保基本可用性的同时实现财务可持续性。
本文的其余部分组织如下。第2节回顾了分布式云服务系统操作的文献。第3节介绍了问题表述,详细说明了系统架构和数学模型。第4节描述了解决方法,重点介绍了Benders分解算法及其实现细节。第5节讨论了计算结果,展示了算法的性能并提供了管理见解。最后,第6节总结了研究并提出了未来研究的方向。