考虑混合配送模式的基于需求的无人机多目标路径规划问题李淑轩（Shuxuan Li）、任腾（Teng Ren）吴国华（Guohua Wu）

《Mathematics》：A Multi-Objective Drone Routing Problem for On-Demand Delivery Considering Hybrid Delivery Modes Shuxuan Li, Teng Ren and Guohua Wu

【字体：大中小】 时间：2026年05月10日 来源：Mathematics 2.2

编辑推荐：

　　摘要本文研究了考虑混合配送模式的无人机多目标路线规划问题，用于按需配送。与以往的研究不同，那些研究要么假设单一的配送策略，要么将不同的配送模式静态地绑定到不同类型的无人机上。现实世界的运营需要一个混合框架，在该框架中，同类型的无人机可以根据订单的逻辑动态地在

　　摘要本文研究了考虑混合配送模式的无人机多目标路线规划问题，用于按需配送。与以往的研究不同，那些研究要么假设单一的配送策略，要么将不同的配送模式静态地绑定到不同类型的无人机上。现实世界的运营需要一个混合框架，在该框架中，同类型的无人机可以根据订单的逻辑动态地在专属模式和共享模式之间切换。我们构建了一个多目标混合整数规划模型，该模型在最大化订单收入的同时，最小化运营成本，并明确考虑了动态订单到达、无人机电池更换以及共享储物柜中的资源冲突。为了在动态条件下解决这个问题，我们提出了一种在线优化框架——基于分解的强化学习知识驱动的多目标进化算法（RL-KMD-MOEA/D），该算法在滚动时域方案中整合了Q学习来进行适应性操作员选择。综合实验表明，RL-KMD-MOEA/D在小规模实例上表现出了竞争力，并且在大规模、高度受限的动态场景中展现了出色的可扩展性和鲁棒性，优于其他比较算法。

1. 引言
全球在线按需配送市场正在经历前所未有的扩张，这得益于移动技术的普及以及消费者行为向即时满足的根本转变。根据最近的市场报告，2024年全球在线按需食品配送服务的市场价值为1528亿美元，预计到2030年将增长到4493亿美元，复合年增长率达到19.7% [1]。在中国，即时零售市场预计在2026年将超过1万亿元，并在“十五五”规划期间以12.6%的年均增长率增长到2万亿元 [2]。这种快速扩张反映了消费者获取商品和服务方式的广泛转变，便利性、速度和可靠性成为了服务质量的决定性指标。
现代按需配送的一个显著特点是订单类型和服务模式的多样性 [3]。像中国的美团这样的平台已经从食品配送扩展到提供文件、药品和杂货服务，并提供了从共享到高端快递的不同层级 [4]。在国际上，UberEats、DoorDash和Deliveroo也纷纷跟进，而Postmates和Swiggy等应用程序则为紧急配送提供了专门的按需服务 [1]。这反映了一个基本事实：不同的订单有不同的物流需求。高优先级的订单——如医疗用品或时间敏感的餐食——需要立即点对点配送，不允许中途停留，而标准订单则可以容忍适度的延迟，并且从整合中获益。这种二分法产生了两种本质不同的范式。专属服务模式优先考虑紧急订单的速度和可靠性。“共享+”服务模式通过在一个快递员内整合多个订单来最大化效率 [5]。
在这种背景下，无人机辅助配送作为一种变革性解决方案出现，用于增强和优化物流服务 [6,7]。无人机在最后一公里配送中具有固有的优势：它们可以绕过地面交通拥堵，实现更高的直线速度，并减少对稀缺且昂贵的快递员的依赖 [8]。认识到这种潜力，领先的商业实体正在积极部署无人机车队。美团在深圳建立了无人机配送路线，在几分钟内完成了数十万笔真实用户的订单 [9]。京东在陕西和江苏的农村地区试点无人机配送，运输新鲜农产品和电子产品 [10]。亚马逊Prime Air在2023年获得了FAA的批准，在德克萨斯州进行商业无人机配送，承诺小型包裹30分钟内送达 [11]。这些举措表明，基于无人机的配送正从实验项目转向实际运营。
尽管无人机在运营效率上具有优势，但在密集的城市环境中直接将包裹送到客户家门口仍然是一个重大挑战。与传统的地面快递员不同，后者可以在收件人门前交接包裹，无人机在导航高层建筑、避开行人交通以及确保安全降落区方面存在固有的限制。为了解决这个“最后100英尺”的问题，业界越来越多地采用了自助包裹储物柜——这种智能地面基础设施充当专用的无人机垂直起降平台，实现自动起飞、降落、装卸和电池更换 [12,13]。
实际上，这些智能储物柜已被全球领先的商业运营商广泛部署。美团已经将其专有的智能包裹储物柜整合到了多个中国城市中，累计无人机配送的订单数量超过了74万笔 [14]。每个储物柜都具备基于计算机视觉的精确定位能力和自动包裹传输系统。在国际上，美国的DroneUp开发了DBX自主对接站，这是一种专门为公寓和多户居住社区设计的控温安全储物柜系统 [15]。然而，自助包裹储物柜的广泛部署引入了新的运营复杂性。作为关键的共享资源，这些储物柜由于基于视觉的定位和装卸的精确要求，一次只能容纳一架无人机 [16]。在高峰时段订单密度高时，这种空间排他性不可避免地导致排队、资源争夺和不可预测的等待时间。此外，订单到达是动态且不可预测的，而无人机受到严格的电池续航能力和载荷容量限制，同时配送时效性直接影响订单收入。这些随机和动态因素相互关联，使得确定性或静态优化方法在现实世界中的执行变得脆弱。此外，这个问题本质上是多目标的：平台必须同时最小化运营成本和最大化订单收入——这两个目标往往存在冲突，需要仔细权衡分析。

受这些观察的启发，本文研究了考虑混合配送模式的无人机多目标路线规划问题（Mo-DRPOD-HDM）。在这个混合框架中，同类型的无人机车队根据订单的紧急程度和系统状态动态地在专属模式和“共享+”模式之间切换。核心思想是同时整合专属和共享配送模式，使得动态模式分配和路线优化构成一个统一的动态决策框架。本研究的主要贡献有三个方面：
我们研究了Mo-DRPOD-HDM，并构建了一个多目标混合整数规划模型，该模型涵盖了其基本复杂性，包括动态订单到达、无人机电池更换以及共享储物柜中的资源冲突。该模型在最小化总运营成本（运输、时间窗口罚款和电池费用）的同时，最大化总订单收入，这反映了客户满意度和服务质量。
为了在动态条件下解决这个问题，我们提出了一种名为RL-KMD-MOEA/D的在线优化框架。该框架以多目标进化算法（MOEA/D）的分解策略为核心，并引入了Q学习，根据子问题权重偏好和进化停滞情况自适应选择知识驱动的操作员。这些操作员分别针对紧急订单、标准订单和资源冲突解决进行设计。滚动时域策略结合预测性动态初始化，加快了收敛速度。
我们对不同订单规模的动态测试实例进行了广泛的模拟。RL-KMD-MOEA/D与六种最先进的算法进行了比较。实验结果和Wilcoxon秩和测试表明，所提出的算法在小规模实例上表现出竞争力，并在大规模、高度受限的动态场景中显示出压倒性的优越性。参数敏感性分析确定了最佳配置，消融研究确认了预热策略、知识驱动的操作员和强化学习机制的不可或缺的作用。
本文的其余部分组织如下。第2节回顾相关文献。第3节提供正式的问题陈述并发展数学建模。第4节详细介绍了提出的RL-KMD-MOEA/D框架。第5节展示了计算实验和结果分析。第6节总结了本文的主要发现和未来研究方向。

2. 文献综述
2.1. 按需配送路线问题
按需配送属于动态车辆路线规划（DVRP）的广泛类别 [17]，其特征是订单动态且不可预测地到达，需要实时调整路线。在这个领域，不同的订单类型适合不同的物流服务模式，每种模式都是为特定的配送场景设计的 [5]。
专属服务模式是为紧急或时间敏感的订单设计的。在这种模式下，无人机必须严格遵守“从起点到终点点对点交付，不允许中途停留”的原则，因为任何途中的延误都会大幅降低客户满意度。在文献中，这类问题通常被建模为具有严格优先级约束和时间窗口的路径规划问题。例如，单商家单快递员的即时配送问题已经被转化为具有优先级约束的单机调度问题，并作为带有时间窗口的旅行推销员问题来解决 [18]。Liu等人 [19] 和Wang等人 [20,21] 从随机服务时间和不确定订单生成的角度研究了单点对单点的即时配送 [19,20,21]。
共享服务模式适用于时间要求相对宽松的标准订单，旨在最大化资源利用率。在这种模式下，一架无人机可以在其容量范围内被分配多个取货和配送任务，通过顺序访问多个节点并通过订单整合和路线优化来完成配送。Wang [5] 的实证分析表明，共享模式的总体运营成本显著低于专属模式。Liao等人 [22] 进一步研究了绿色即时配送，考虑了配送时间、平台碳足迹和任务平衡等综合目标 [22]。这种高效且灵活的模式已被许多即时配送平台采用，适用于涉及多个商家和多个任务的大规模动态调度问题 [23,24,25]。
然而，大多数现有研究是孤立地处理这些模式的，或者将它们静态地绑定到不同类型的无人机上。尽管一些研究考虑了多模式操作，但它们通常将不同类型的无人机分配给不同的模式，而不是允许同类型的无人机动态切换 [26,27]。在现实运营中，标准和紧急订单同时到达，需要一个集成模式分配和路线优化的统一框架。

2.2. 无人机辅助的按需配送
除了模式差异化之外，许多研究还关注了无人机按需配送系统。Liu [25] 开发了一个混合整数规划模型和一个基于优化的在线车队调度算法，用于无人机运营 [25]。Huang等人 [28] 研究了具有随机到达时间和截止日期的按需食品配送的动态任务调度，使用了带有模拟退火算法的迭代启发式框架 [28]。Pei等人 [16] 考虑了起飞和降落点的空间冲突，并为实际商业无人机配送项目设计了一个分支剪枝精确算法 [16]。Xiang等人 [29] 最近提出了一个基于Transformer的强化学习模型，通过路径聚合来捕捉大规模车队的长期依赖性 [29]。
然而，无人机按需配送受到续航时间短和载荷容量小的严重限制，这限制了单次飞行中无人机可以服务的订单数量。这些固有的缺点使得纯无人机系统在应对城市高峰需求时缺乏必要的灵活性和规模经济。为了克服这些限制，研究人员探索了结合无人机和地面资源的协作配送模式。主要有三种方式：无人机-车辆协作、无人机-骑手协作和无人机-储物柜协作。
无人机-车辆协作。Gu等人 [30] 研究了考虑计划配送和按需取货的动态卡车-无人机路线问题 [30]。Dukkanci等人 [31] 开发了一个针对灾后道路损坏情况的卡车-无人机协作紧急物流模型 [31]。Dayarian等人 [32] 研究了带有无人机补给的当日配送的车辆路线问题 [32]。Ren等人 [33] 考虑了具有可变无人机速度和禁飞区的时变电动车-无人机路线问题，以满足计划和动态需求 [33]。
无人机-骑手协作。Hamid等人 [34] 开发了一个多目标模型，平衡了运输成本、食物新鲜度和客户满意度 [34]。Lu等人 [35] 和Sun等人 [36] 研究了使用协作无人机和骑手的ODD服务，提高了运营效率 [35,36]。Lyu等人 [37] 解决了城市食品配送的多骑手多无人机取货和配送问题，允许在时间窗口、容量和续航限制下在枢纽进行包裹转移 [37]。
无人机-储物柜协作。这种模式越来越被认为是大规模无人机配送的关键基础设施。一个分布式的自助储物柜网络提供了可靠的降落、装卸和电池更换节点。Zou等人 [38] 使用遗传算法结合样本平均近似法优化了储物柜的位置、需求分配和网络成本 [38]。Zhu等人 [39] 专注于使用分支剪枝和问题转换来最小化带有色锁柜的无人机配送的总行驶距离，并随后通过时间扩展网络和变邻域搜索研究了最短路径最小化 [40]。Li等人 [40] 在滚动时域框架中结合了动态订单到达、无人机电池更换和订单拆分，使用了聚类和自适应的大邻域搜索 [40]。

3. 问题描述
3.1. 问题场景
在本文研究的Mo-DRPOD-HDM的动态运营场景中，一个按需配送平台管理着一支无人机车队，为随机到达的异构即时订单提供服务。订单主要分为两种类型：标准订单和紧急订单。对于标准订单，无人机可以在其容量限制内整合多个订单并进行路线配送。然而，紧急订单对时间非常敏感，需要在取货后立即进行点对点配送。这导致了一种复杂的路由模式，它结合了“共享配送”和“专属配送”。在这个问题中，按需配送平台提供了一个仓库，该仓库内有多架无人机和分布在整个服务区域内的多个自助包裹储物柜。仓库作为无人机的起飞、降落和调度基地，而储物柜则作为操作节点，无人机可以在这些节点自主地取货、送货和更换电池。在载重能力范围内，无人机可以根据订单类型执行不同的配送模式。每个订单都必须严格遵循“先取货后送货”的顺序。在动态响应新订单的同时，系统需要同时优化多个目标，如配送及时性、运营成本和资源利用率。如果无人机在执行任务时电池电量不足，它必须在当前储物柜更换电池。无人机在飞行过程中也可能会收到新到的订单；完成当前订单后，它们会重新规划剩余的订单并继续执行，直到所有任务完成，最后返回仓库。具体场景如图1所示。在该图中，“取货路线”和“送货路线”后面标有的字母S和E分别代表共享配送和专属配送。图1. 无人机联合Mo-DRPOD-HDM模式。在本文中，Mo-DRPOD-HDM是在一个图上定义的，其中V是节点集，E是弧集。订单集由两个子集组成：标准订单和紧急订单。每个订单包括一个取货点和一个送货点。在节点集V中，节点0和1代表无人机出发和返回的仓库。无人机集合为U。每个订单都有一个商家准备时间Tm。通常，无人机k从仓库0开始，在完成按需配送服务后返回仓库0。这个问题面临多个动态来源和严格的运营约束。订单到达时间是不确定的，而且作为关键共享资源的自助包裹储物柜一次只能被一架无人机占用，从而导致等待和竞争。在飞行过程中，无人机必须动态评估其电池电量，并在需要时在储物柜节点更换电池。因此，路线规划必须同时处理诸如订单排序、资源竞争和电池管理这样的耦合约束。基于问题描述，对Mo-DRPOD-HDM做出以下假设：只有一个无人机调度中心（仓库）。同一类型的全部无人机都从仓库出发。同一类型的全部无人机具有相同的特性（速度、载重能力、续航时间）。飞行速度是恒定的，不受风、降水或其他天气条件的影响。只要满足载重能力，无人机可以同时携带多个订单，并且可以在飞行途中接收额外的调度任务。当无人机没有剩余订单时，它将返回仓库。每个订单由 exactly 一架无人机服务，并且取货必须在送货之前进行。无人机可以服务不同类型的订单（包括共享和专属订单）。对于单个订单，取货地点和送货地点（自助包裹储物柜）是不同的。忽略从商家到取货储物柜以及从送货储物柜到客户的时间。无人机不能在商家在取货储物柜的准备时间之前装载包裹。每个自助包裹储物柜都支持取货和送货操作，并且有多个可更换的电池；因此，无人机可以自主进行装载和卸载。电池更换时间对所有无人机和所有储物柜来说是恒定且相同的。自助包裹储物柜一次只能被一架无人机用于装载/卸载操作。如果多架无人机需要同时使用同一个储物柜，则先到达的无人机获得使用权，其他无人机必须等待当前操作完成。无人机的起飞和降落时间是相同的，并且忽略了携带包裹对这些时间的影响。问题场景是半动态的。在每个重新规划的时刻（即每个滚动时段的开始），所有将在当前调度窗口内到达的订单都是已知的。超出该时段的订单仍然未知，但会在后续的重新规划步骤中处理。因此，在当前时段内没有完全不可预测的订单。在本节中，为Mo-DRPOD-HDM建立了一个混合整数规划模型。为了处理按需配送问题的动态性质，我们采用了一种滚动时段的方法，将连续过程分解为多个在连续调度间隔内的静态子问题。因此，单个调度期间的随机动态无人机路由模型可以用表1中列出的符号来描述。表1. Mo-DRPOD-HDM模型的符号表示。3.2. 数学表述 3.2.1. 变量分析为了制定Mo-DRPOD-HDM模型，我们定义了五种类型的决策变量。Δik等于1表示无人机k从节点i飞往节点j（即经过弧ei），否则为0。Δik′等于1表示无人机k由于电量不足而在节点i进行电池更换，否则为0。Δik″等于1表示无人机k在其取货节点i装载订单n，否则为0。Δik?等于1表示无人机k在其送货节点i卸载订单n，否则为0。Δik″′等于1表示无人机k需要在节点i悬停等待，因为有多架无人机需要使用同一个智能储物柜进行送货或充电，否则为0。我们还定义了五个连续变量和一个排序变量。Δki表示无人机k在节点i的剩余电池电量。Δpi表示无人机k在节点i的载重。Δti表示无人机k在节点i的到达时间。Δti′表示无人机k从节点i的离开时间。Δtk表示无人机k在节点i的悬停等待时间。最后，Δnk表示无人机k访问节点i的订单n的顺序。3.2.2. 目标函数解决Mo-DRPOD-HDM的目标是设计合理的订单分配和无人机路由方案，以最大化按需配送订单的总收入并最小化无人机的配送成本。1. 总订单收入的最大化从无人机的角度来看，按需配送订单的总收入包括固定收入和每单订单的额外收入[41]。只要无人机完成取货和送货操作，就能获得固定收入。在真实的配送场景中，由于各种不确定因素，无人机可能无法在客户预期的时间窗口内完成配送。因此，订单的额外收入直接与客户满意度相关。本研究允许无人机在一定程度上容忍延迟服务，但客户满意度会随着实际到达时间与预期时间的偏差而动态变化。我们采用模糊隶属函数[34]来描述满意度与配送时间之间的关系，旨在通过最小化实际配送时间与客户预期时间之间的差距来系统地提高整体服务水平。基于此，最大化按需配送订单总收入的目标准程表示为方程（1）–（3）。2. 无人机配送成本的最小化根据上述描述，Mo-DRPOD-HDM中无人机的总配送成本由方程（4）给出，主要包括飞行成本、电池更换成本和等待时间成本。（4）飞行成本当无人机从仓库出发执行按需配送任务时，会产生某些成本，包括部署多架无人机的使用成本和送货过程中的能耗产生的单位电力成本。电力成本包括在弧e上的飞行成本以及在无人机智能储物柜悬停时的等待电力成本。飞行成本表示为方程（5）。（5）这里，Δek是无人机k从节点i飞往节点j时消耗的电力，Δek′是无人机k在节点i悬停等待时消耗的电力。无人机的能耗取决于其有效载重，并且大致与载重成线性关系。能耗模型由方程（6）给出，其中Δew表示每单位重量（千克）的能耗（千瓦时），Δmw是无人机装载的货物总重量，Δek是保持无人机在空中所需的能量（千瓦时）。因此，从节点i飞往节点j的能耗由方程（7）给出，而在节点i悬停等待的能耗由方程（8）给出。（6）（7）（8）电池更换成本当无人机没有足够的电池电量到达下一个节点时，它会在当前节点进行电池更换，从而产生电池更换成本。成本Δcs表示为方程（9）。（9）等待时间成本等待时间成本包括两部分：（i）无人机在商家准备货物之前到达取货点时产生的等待时间成本；（ii）多架无人机尝试同时使用同一个智能储物柜时的等待时间成本。这里，u是等待时间成本系数。等待时间成本表示为方程（10），总等待时间成本表示为方程（11）。3.2.3. 约束根据上述描述，Mo-DRPOD-HDM模型的约束如下。（12）（13）（14）（15）（16）（17）（18）（19）（20）（21）（22）（23）（24）（25）（26）（27）（28）（29）上述约束共同构成了Mo-DRPOD-HDM模型的完整约束系统，从路径连通性、容量限制、功率限制、时间连续性和排序变量等方面严格定义了无人机的配送过程。每种约束类别在下文中详细解释。路径连续性约束。方程（12）–（16）确保无人机在配送网络中的移动逻辑一致性。具体来说，约束（12）确保D中的每个节点（包括取货和送货节点）都被恰好一架无人机访问一次。约束（13）和（14）明确将流量变量与装载和卸载决策联系起来：无人机只有在装载相应订单时才能访问取货节点，送货节点也是如此。约束（15）要求每架无人机必须从仓库出发并在完成所有订单后返回仓库，从而形成一条完整的闭合路线。约束（16）确保任何节点j的流量平衡，即无人机进入节点的次数等于离开的次数，从而防止绕行。载重能力约束。方程（17）和（18）限制了无人机的载重能力。约束（17）要求任何无人机k在取货点装载的所有订单的总重量不得超过其最大载重Q。约束（18）描述了无人机载重的动态变化：当无人机在取货节点n装载订单n时，其载重增加相应的重量；在送货节点卸载后，载重减少。这个约束确保了载重的连续性和一致性。电池约束。方程（19）和（20）管理无人机的能耗。约束（19）规定任何无人机在两次连续电池更换之间（或从仓库到第一次更换）消耗的总电力不得超过其电池容量E。约束（20）描述了节点之间的电池电量连续性。具体来说，Δek表示无人机k从节点i飞往节点j时消耗的能量，这取决于该段旅程中的载重，如方程（7）所定义。当无人机到达节点j时，如果剩余电池电量Δek足够覆盖飞行能量Δef和节点j处的等待能量Δew，则新的电池电量为Δek+Δef；否则，无人机必须在节点i进行电池更换，到达节点j时的电池电量为Δek-Δef。这种分段逻辑确保了无人机永远不会在负能量状态下运行，并且能够准确模拟在剩余电池不足以完成下一段任务时触发电池更换的场景。时间连续性约束通过方程（21）–（25）详细描述了无人机的时间状态。约束（21）限制了无人机k在节点i的等待时间，不得超过前一架无人机p占用该资源所导致的等待时间，其中p是从节点i出发的时间。约束（22）建立了连续节点间出发时间的递归关系：无人机k离开节点j的时间不早于它离开前一个节点i的时间加上飞行时间。约束（23）要求无人机到达取货点的时间不得早于订单放置时间，以确保订单已经生成。约束（24）确保每个订单的取货操作必须在送货操作之前完成，即从取货节点i出发的时间加上从i到相应送货节点的飞行时间不应晚于从送货节点出发的时间。约束（25）综合了多个因素来确定无人机k从节点i出发的最早可能时间；这个时间取决于加载时间、到达时间、电池更换操作、卸货时间和订单准备时间中的最大值，以确保在起飞前满足所有前提条件。

顺序变量约束通过方程（26）–（29）管理无人机的访问顺序。约束（26）引入了顺序变量和一个足够大的正数M，以确保如果无人机k直接从节点i飞往节点j，则节点j的访问顺序必须大于节点i的访问顺序，从而保证路径的非循环性。约束（27）将仓库节点的顺序变量设置为0作为初始参考。约束（28）专门针对紧急订单：它要求无人机在取货节点i取货后必须直接飞往相应的送货节点j，不得中途插入其他订单，即访问顺序必须是连续的，以确保紧急订单的优先处理。为了完全消除仅靠顺序变量可能无法捕捉到的子路径，我们进一步为每架无人机施加了一组Dantzig–Fulkerson–Johnson（DFJ）类型的约束，如方程（29）所示。该约束确保对于任何合适的非空送货网络节点子集U，无人机k选择的、两端点都在U中的弧的数量最多为某个值，从而禁止任何不包含仓库的闭环。

4. 解决方法基于上述模型，本节提出了一种解决Mo-DRPOD-HDM模型的算法。该算法主要采用滚动时域方法将动态问题转化为一系列静态子问题，然后使用RL-KMD-MOEA/D方法解决每个子问题。动态算法及其关键组成部分在下面详细阐述。

4.1. 滚动时域方法无人机按需送货路由问题的动态性质主要源于订单的实时生成，其中订单放置时间、取货地点和送货地点都是不可预测的。信息逐渐揭示的特性使得静态规划方法不适用。如果对每个订单到达都进行全局重新优化，计算负担将非常沉重；相反，简单地进行启发式插入则容易导致局部最优解。本文采用滚动时域方法将连续的动态问题离散化为一系列静态子问题。滚动时域方法的核心思想是将整个调度时间T划分为若干相等或长度可变的时间间隔，每个间隔称为一个滚动时域。在每个时域的开始，系统基于当前已知信息（包括上一个时域未完成的订单、新到达的订单和无人机的实时状态）解决一个优化子问题。生成并执行该时域的最优分配和路由方案。当一个时域结束后，时间窗口向前推进，系统根据执行反馈和新到达的订单更新其状态，进入下一个优化周期。这种“执行–更新–重新优化”的闭环机制使系统能够持续适应动态环境。算法A1展示了滚动时域调度算法的框架。

在每个调度周期的开始，系统区分三类订单：（i）已经取货并且正在运输中的订单——这些订单是固定的，不包括在下一个优化子问题中；（ii）已经分配给无人机但尚未启动的订单（例如，在仓库或储物柜等待）——这些订单被重新收集到新的订单集中；（iii）当前时域内新到达的订单——也加入到订单集中。这种全局订单重新收集策略一起重新优化所有未执行的订单，尽管在计算上比渐进式插入更复杂，但在高度动态的环境中更为稳健，因为它避免了短视决策的累积。我们在之前的工作中通过实验验证了这种策略的有效性[4]。对于已经在空中携带订单的无人机，在重新规划时刻，其剩余的路线（从当前位置到送货节点）被固定下来，并直接添加到下一个子问题的解决方案中。无人机的当前位置、剩余电池电量和载荷作为初始条件传递给静态子问题；在这个冻结的段落中不能插入新的订单。只有当无人机完成当前的送货任务后，它才能在后续时域中接受新的任务。

4.2. RL-KMD-MOEA/D对于上述制定的Mo-DRPOD-HDM模型，随着订单规模的增加，解空间呈指数级增长。同时，专用模式的严格优先级约束和共享模式的容量约束在搜索空间内形成了高度异构的可行区域。传统的单一进化策略在处理此类具有密集约束和动态特性的组合优化问题时，常常难以平衡收敛速度和种群多样性，其操作符在不可行区域内容易进行无效搜索。为了解决这个问题，本文提出了一种基于上下文的RL-KMD-MOEA/D算法。如图2所示，该算法的底层逻辑是引入了一个强化学习（RL）代理来模拟进化过程中的操作符调度，将其视为马尔可夫决策过程（MDP）[42]。根据不同子问题的搜索状态，算法自适应地选择与当前进化阶段和约束结构相匹配的启发式操作符，从而引导种群高效地搜索复杂的可行和不可行区域。

4.2.1. 算法框架RL-KMD-MOEA/D建立在MOEA/D [43]的基础上，该算法将多目标问题转化为一系列并行解决的单一目标子问题。算法首先均匀生成H个权重向量，其中分别对应于成本最小化和收益最大化目标的偏好权重。每个权重向量定义一个子问题，并采用切比雪夫聚合函数[44]将两个目标标量化，如方程（30）所示。这里，理想点是所有目标的历史最佳值，较小的权重值表示个体在相应子问题方向上的表现更好。每个子问题维护一个由欧几里得距离上权重向量最接近的T个子问题组成的邻域。后代个体首先在它们父代的邻域内竞争替换位置。如果后代个体为邻近个体实现了更好的聚合函数值，则发生替换。这种机制允许每个子问题在共享有前途的个体的同时保持独立的优化方向。

然而，将标准的MOEA/D应用于Mo-DRPOD-HDM面临三个结构挑战：（1）在动态环境中重新规划通常依赖于随机初始化，放弃了在前几个进化周期中积累的高质量路由结构。（2）通用的交叉和变异操作符没有嵌入特定问题的约束（例如容量、时间窗口），导致在狭窄的可行区域内产生大量不可行的评估结果。（3）静态操作符选择概率无法适应不同进化阶段中探索和利用的动态需求。如算法A2所示，RL-KMD-MOEA/D引入了三种核心机制来解决这些挑战。

预测性Warm-Start策略：在动态重新规划期间触发，它通过启发式规则重新使用上一个时期的帕累托前沿结构，为新环境提供高质量的初始种群。

知识驱动的操作符：将专用订单的及时性约束、共享订单的容量约束和路径冲突转化为操作符设计原则，构建了三种特定于问题的操作符：紧急加速、容量压缩和冲突扰动。

4.2.2. 预测性Warm-Start策略在动态调度周期中，当系统时间t达到预定义的调度间隔并且有一组新的订单到达时，系统从动态阶段转换到另一个阶段。如果采用随机初始化，算法将不得不从头开始重新建立收敛梯度。Warm-Start策略旨在利用历史解决方案的结构先验来加速新阶段的收敛。在阶段开始时，初始种群通过环境映射函数从上一个阶段继承帕累托前沿记忆，如方程（31）所示。在这里，新订单被嵌入到从历史解中提取的高质量无人机路线中。对于专用模式订单，取货-送货对被视为一个不可分割的块，并优先插入到三个候选无人机中取货点最近的路线前面。对于共享模式订单，采用两阶段插入：首先在候选路线中找到最小化成本增加的取货位置，然后在该位置之后的有限窗口内确定送货位置，并在每一步检查容量约束的可行性。此外，如果算法确定当前规划是第一次进行，则使用完全随机的初始化。Warm-Start策略的具体步骤如下：

步骤1：从历史帕累托前沿中提取每个解决方案的路线，移除已完成或无效的节点，保留当前有效的结构。
步骤2：根据子问题的偏好，将种群分为以成本为导向、以收益为导向和平衡导向的子组，分别采用最小化距离增量、最大化收益或混合策略作为后续订单插入的评估标准。
步骤3：对于专用模式订单，将取货点和送货点视为一个绑定块，并在三个候选无人机中距离取货点最近的路线中寻找最佳插入位置。对于共享模式订单，进行两阶段局部搜索：首先确定取货位置，然后在受限的时间窗口内确定送货位置以减少搜索空间。
步骤4：引入容量预检查机制；如果插入方案违反了无人机的容量约束，则立即剪裁以确保生成种群的可行性。

4.2.3. 操作符设计为了解决数学模型中专用模式订单的及时性优先与共享模式订单的容量效率优先之间的结构冲突，以及自助储物柜造成的路径冲突，传统的通用操作符无效。本文遵循约束分解–操作符映射的原则，将模型约束转化为操作符设计标准，并设计了以下三种操作符：
1. 紧急加速操作符：该操作符旨在优先考虑高优先级专用订单的及时性。其核心逻辑是从拥挤或效率较低的路线中随机选择一个紧急订单，并将其重新插入到当前工作量最轻的无人机路线的前面，从而以最短的等待时间开始服务。如算法A3所示，其具体实现步骤如下：
1. 从所有独占模式订单中随机选择一个目标订单n。
2. 遍历所有无人机的路线序列，找到包含目标订单及其对应交货点的路线。
3. 从路线中移除目标订单及其交货点。
4. 计算每条无人机路线的当前负载，并选择负载最轻的无人机作为接收者。
5. 将目标订单的取货点和交货点作为一个单独的区块插入接收者路线的开头。

2. 容量压缩操作符
容量压缩操作符专注于优化共享模式订单的空间利用率。它不是一个简单的插入操作，而是结合了容量预检查和局部滑动窗口搜索，以确保新插入的订单满足容量限制，同时最小化路径成本增加。如算法A4所示，其具体实现步骤如下：
1. 从共享模式订单中随机选择一个目标订单n。
2. 从目标订单的当前路线中移除该订单。
3. 计算目标订单的取货点到所有无人机当前位置的距离，并选择三个最近的无人机作为候选集。
4. 对于每个候选无人机，检查其剩余容量是否可以容纳目标订单。
5. 对于通过容量检查的候选路线，尝试将取货点插入路线的每个可能位置，并严格将交货点的插入限制在取货点之后的一个有限窗口内。
6. 计算每种插入方案的路径成本增加量，并记录并执行成本增加量最小的方案。

3. 冲突扰动操作符
当算法陷入局部最优解或检测到路径冲突时，冲突扰动操作符通过无人机之间的重新分配来破坏现有结构，以获得新的搜索方向。它强制将一个订单从其当前无人机迁移到另一个完全不同的无人机上。如算法A5所示，其具体实现步骤如下：
1. 随机选择一个无人机作为被扰动的源无人机。
2. 从该无人机的路线中随机选择一个目标订单n。
3. 从该路线的订单n及其交货点中移除它们。
4. 随机选择一个非源无人机的无人机作为接收者。
5. 检查该无人机的剩余容量是否可以容纳订单n。
6. 如果容量允许，对该无人机的路线进行局部插入搜索，以最佳位置插入订单n。
7. 如果容量不允许，将订单n重新插入到该无人机的原始路线开头。

4.2.4. 基于上下文的Q学习自适应操作符选择机制
在混合配送模式下，订单序列的优先级约束和容量约束构成了一个高度不规则的可行区域。静态操作符选择策略缺乏对种群进化状态的反馈机制。为了解决这个问题，本文将操作符调度建模为一个MDP，并采用Q学习来实现在线自适应调整。
(1) 上下文状态空间建模
具有不同权重偏好的子问题对操作符的依赖性不同：偏好成本最小化的子问题倾向于依赖容量压缩操作符，而偏好收入（及时性）的子问题则更多依赖紧急加速操作符。同时，处于停滞状态的个体和正常收敛状态的个体对操作符扰动强度的需求也有显著差异。为此，构建了一个二维离散上下文状态空间S。权重偏好集定义为[...]，其中[...]对应于成本最小化偏好，[...]对应于收入最大化偏好。收敛特性集定义为[...]，分别代表个体的停滞状态和正常收敛状态。状态空间由这两个集合的笛卡尔积形成，如方程(32)所示。
(32)
这四个独立的状态使得控制器能够为不同搜索方向和不同进化阶段的个体维护不同的操作符价值估计，从根本上避免了奖励信号在不同状态之间的干扰。这个刻意简化的状态空间没有直接编码物理环境变量，如电池电量、储物柜竞争或订单到达率。然而，这些环境因素通过奖励函数(方程(33))隐含地被捕获，该函数评估每个生成后代的可行性和聚合函数改进。因此，控制器无需显式模型即可学习在当前环境条件下表现良好的操作符。在本文中，“上下文感知”特指进化搜索上下文，而不是完整的外部环境。基于此，奖励函数的设计决定了控制器是否能够在不同进化阶段正确评估操作符价值。设x为父解，为应用动作后生成的后代解，为约束违反度量，为切比雪夫聚合函数。奖励函数定义为方程(33)所示。
在这里，[...]是一个用于数值稳定性的小常数，[...]是当后代从不可行区域移动到可行区域时的固定正奖励，[...]是解决方案质量下降的惩罚。这种分段设计的核心是在约束处理上施加明确的优先级层次结构。在早期进化阶段，当许多个体仍处于不可行区域时，奖励信号由[...]的减少所主导，促使控制器偏好具有约束修复能力的操作符。一旦种群进入可行区域，信号自动切换到聚合函数的改进，从而鼓励精细调度的路径优化操作符。这种阶段适应的信号切换机制允许控制器在种群进化过程中无需人工干预地调整操作符选择偏好。

(2) 在线Q表学习和种群更新
基于上述MDP建模，控制器根据贝尔曼方程在线更新Q表，如方程(34)所示。
在这里，[...]是学习率，用于控制新旧估计的融合比例；[...]是折扣因子，用于平衡即时奖励和长期回报的相对重要性。在执行操作符时，控制器采用[...]-贪婪策略来平衡探索和利用：以[...]的概率选择当前状态中Q值最高的操作符；以[...]的概率从动作空间中均匀采样一个动作。值得注意的是，[...]的值与问题规模显著相关：在大规模、高约束的情景中，无人机轨迹冲突的密度急剧增加，种群更容易陷入深度死锁。在这种情况下，需要更高的随机探索概率来触发跨无人机重新分配的冲突扰动操作符。在操作符生成后代解并更新Q表后，根据约束支配规则进行邻域替换。如果后代是可行的而邻近个体不可行，则后代直接替换邻居；如果两者都可行，则只有当后代的聚合函数值更好时才进行替换；如果两者都不可行，则只有当后代的约束违反程度更低时才进行替换；否则，保留原始个体。同时，算法维护一个外部精英档案，用每个新生成的可行非支配解更新档案，并使用拥挤距离机制控制档案大小，以确保最终输出解集在目标空间中具有均匀分布的多样性，为后续动态阶段的暖启动策略提供高质量的Pareto前沿记忆。

5. 计算实验
为了全面评估所提出的RL-KMD-MOEA/D的有效性和适用性，本节从三个角度进行系统验证：参数敏感性分析、算法性能比较和消融实验。首先，进行参数敏感性分析，以检查核心超参数对算法性能的影响并确定最优配置。其次，将所提出的算法与六种最先进的多目标算法进行比较，以验证其在解决方案质量和收敛性能方面的优势。最后，进行消融实验，以分析每个核心组件对整体性能的贡献。所有算法均在MATLAB 2022b中实现，并在配备Windows 10操作系统、Intel i7-11700K 3.60 GHz CPU和32 GB RAM的计算平台上进行测试。详细的实验设置和参数配置如下所述。

5.1. 实验设计和评估指标
本节以中国某个按需配送平台（例如美团）的无人机配送业务为参考。基于现有文献和测量数据，使用美团无人机的平均配送时间（大约15分钟）作为场景特征的时间尺度参考[45]。测试区域基于以仓库为中心的Solomon基准数据集构建。服务区域被划分为四个大小分别为100 × 100、150 × 150、200 × 200和300 × 300的正方形区域，根据订单规模进行划分[46]。根据订单数量，实验实例被划分为小规模组()和大规模组()。对于上述规模区间，在不同的无人机资源和操作条件下生成测试案例：无人机数量[...]，电池容量[...]。我们将滚动视野长度设置为调度周期(60秒)，因为[...]更适合全局订单重新收集策略[4]。在满足模型假设和合理配送约束的前提下，为每个订单规模构建六个代表性实例，共计24个测试实例。在模型中，最大化目标函数中的可容忍时间窗口设置为[...]和[...]，其中[...] [47]。其余关键参数引用自现有文献[4,35,48]，它们的具体值和描述列在表2中。
表2. Mo-DRPOD-HDM模型的参数值。为了确保统计稳健性，每种算法在每种实验配置下独立运行30次，并记录关键性能指标。
(1) 为了客观和全面地评估所提出的多目标算法在动态调度环境中的性能，采用超体积(HV)作为主要指标。HV同时衡量解集的收敛性和分布广度，是多目标优化中最广泛认可的综合性性能指标。由于问题是一个动态多目标问题，在计算HV时引入了全局离线公平评估机制，以消除系统随时间演变的幅度偏差。具体来说，在完成一次动态调度模拟后，收集所有比较算法在同一测试实例下每个时间阶段生成的所有非支配解，并提取全局真实理想点和代表物理极限的全局最差点。然后，将所有算法在每个阶段的前沿相对于这个统一的极端集进行标准化。最后，设置一个统一的参考点来计算HV面积。较大的HV表明算法的综合性性能更好。
(2) 为了研究不同算法之间性能差异的显著性，采用Wilcoxon秩和(WRS)非参数检验进行成对比较，显著性水平为0.05。为了控制由于多次比较导致的家族错误率，进一步应用了Holm校正。符号“+”表示RL-KMD-MOEA/D在统计上显著劣于竞争对手，“?”表示其显著优于竞争对手，“≈”表示没有显著差异。

5.2. 参数敏感性分析
启发式算法的性能往往严重依赖于核心超参数的设置。为了找到一个平衡搜索效率和优化质量的RL-KMD-MOEA/D的最佳参数组合，本节进行了参数敏感性分析。选择了四个对进化和强化学习过程有关键影响的参数作为分析因素：种群大小([...]；RL代理的学习率([...]；RL代理的折扣因子([...]；以及[-贪婪策略]中的探索率([...]）。为了确保参数选择的通用性和稳健性，上述九种配置在选定的动态测试实例上独立运行，并提取平均HV值。实验获得的主要效应响应图显示在图3中。图3展示了不同规模三个问题实例(lc121(100个订单)、lc141(200个订单)和lc161(300个订单)的参数敏感性分析结果。图3揭示了每个参数对算法性能的独立影响趋势。种群规模的最佳平衡了多目标解集的多样性与在有限计算资源下单个个体的收敛生成。强化学习（RL）代理的学习率和折扣因子展示了最强的全局稳定性。这种组合既平滑了操作员反馈中的随机误差（防止好的策略被轻易覆盖），又引导算法在即时奖励和长期进化潜力之间达到最优平衡。值得注意的是，探索率显示出显著的尺度依赖性。在小规模场景中，表现最佳，而随着尺度阶数的增加，最佳探索率显著向0.2甚至0.3转变。这表明在大规模、高度受限的复杂调度中，算法更容易陷入深度僵局，必须给予代理更高的随机探索概率以触发扰动操作器来打破僵局。基于上述分析，以下实验采用了以下参数组合：这种组合确保了探索与利用之间的平衡，同时最大化了算法在复杂环境中的适应性能。5.3. 算法性能有效性分析为了验证RL-KMD-MOEA/D相对于现有方法的优势，进行了全面的实验。所有算法在相同条件下（最多4000次评估）对相同的测试实例（50-300个订单）运行30次。选择了六个高级基线：基于分解的多任务多目标进化算法（MTMOEA/D）用于动态环境；多目标变邻域下降（MOVND），一种基于局部搜索的多目标算法；MOEA/D，我们的基线版本，结合了传统的交叉/变异操作来分离来自RL和知识操作的收益；非支配排序遗传算法II（NSGA-II），一种经典的快速非支配排序算法；强度帕累托进化算法2（SPEA2），一种具有出色存档多样性的基于强度的算法；以及基于指标的进化算法（IBEA），它直接使用超体积作为适应度。从表3可以看出，在整个测试规模范围内，RL-KMD-MOEA/D保持了强劲的竞争力，但其优势的大小随规模的变化而显著变化。在具有50个订单的小规模实例中，竞争格局最为复杂。在lc101和lrc201这样的聚集场景中，IBEA的HV值分别为0.406和0.551，略高于RL-KMD-MOEA/D的0.393和0.480，Wilcoxon检验显示了统计显著性。这是因为在高度聚集的场景中，IBEA的基于度量的选择压力与强烈的空间局部性相匹配，允许快速聚焦于高质量区域。相比之下，在随机分布的lr类型场景中，RL-KMD-MOEA/D显示出明显的数值优势，lr101和lr201的差距分别为25.1%和23.1%，表明当解决空间分散且约束频繁交互时其优越性更为明显。当订单规模扩展到100时，IBEA的竞争力显著下降。它仅在lr221和lrc221中与RL-KMD-MOEA/D没有显著差异（HV分别为0.432 vs 0.433和0.460 vs 0.464），而在其他四个实例中明显较差。MTMOEAD、MOVND、MOEA/D、NSGA-II和SPEA2在所有六个实例中都显示出显著差异。同时，RL-KMD-MOEA/D的标准差缩小到0.015–0.021，进一步提高了稳定性。在200的规模上，所提算法的优势最为明显。RL-KMD-MOEA/D在所有六个实例中均实现了最高的HV，与表现最佳的竞争者IBEA相比，差距扩大到12.1–30.2%。其标准差降至0.010–0.017，所有六个比较算法都显示出显著差异。在300个订单时，这种差异更加明显：RL-KMD-MOEA/D的HV范围为0.475至0.599，而IBEA仅为0.428至0.469，像MTMOEAD和MOVND这样的算法通常低于0.316。最终，在所有24个实例中，所有六个比较算法都与RL-KMD-MOEA/D有显著差异。这种随着规模增加而不断扩大的性能差距主要归因于三个设计方面。首先，动态响应和内存重用。比较算法通常在每次重新规划时重新初始化种群，丢失了历史上的高质量路线。我们的预测性动态预热策略保留了这些路线，并将它们注入下一个优化轮次，从而在环境变化后提供了一个更高的起点。这种机制在小规模场景中效果有限，但在超过200个节点时变得占主导地位。其次，减少无效搜索。在大规模场景中，时间窗口和容量约束使得可行区域极其稀疏。随机交叉/变异方法（例如MOEA/D、SPEA2）产生许多不可行的评估，稀释了进化压力。我们的共享打包和独占加速操作器结合了可行性检查和容量预检查，确保大多数评估能够改进可行解决方案。这解释了为什么MTMOEAD和MOVND的HV在超过200个节点时保持在0.24–0.30之间，而RL-KMD-MOEA/D保持在0.44以上。第三，从局部停滞中适应性地逃脱。密集的订单增加了路径冲突，算法经常在局部区域停滞。我们的RL代理监控收敛状态，并在检测到停滞时切换到更强的扰动策略，在正常情况下返回精细的利用。规模越大，冲突越频繁，这种机制的贡献就越大，这与表3中逐渐扩大的性能差距一致。图4、图5、图6和图7绘制了每种算法在不同规模实例上的HV收敛动态曲线，展示了RL-KMD-MOEA/D的进化效率。从图中可以看出，在小规模实例（图4和图5）中，所有算法在早期阶段迅速上升并相互交织。然而，在大规模实例（图6和图7）中，大多数比较算法在进化早期就停滞了。值得注意的是，在每个动态环境切换的初始阶段，RL-KMD-MOEA/D的收敛曲线显示出更高的初始起点和更陡峭的早期上升梯度。这一现象验证了预热策略在动态重新规划中的关键作用。同时，得益于RL代理的动态调度，即使在进化的后期阶段，该算法也保持了强劲的上升趋势，彻底克服了传统算法在大规模动态场景中容易陷入深度局部最优的缺陷。图4. HV收敛_N50（Lc101）。图5. HV收敛_N100（Lc121）。图6. HV收敛_N200（Lc141）。图7. HV收敛_N300（Lc161）。5.4. 激化实验本节通过剥离实验评估RL-KMD-MOEA/D中每个提出的组件的有效性。设计了四种变体：RL-KMD-MOEA/D-NoKMD（没有知识驱动的操作器，只有传统的交叉/变异）；RL-KMD-MOEA/D-NoRL（在三种知识驱动的操作器中随机选择）；RL-KMD-MOEA/D-BasicRL（无上下文意识的单一状态Q学习）；以及RL-KMD-MOEA/D-NoWS（没有预测性预热，在每次重新规划时完全随机初始化）。所有变体都在相同的测试实例上运行30次，使用离线HV指标。结果报告在表4中。表4. RL-KMD-MOEA/D的剥离实验结果。如表4所示，RL-KMD-MOEA/D在大多数实例上的表现优于所有四种变体，且随着规模的增加优势也在增长。知识驱动操作器的影响：比较RL-KMD-MOEA/D与RL-KMD-MOEA/D-NoKMD。在N = 50时，HV差距相对较小；在某些聚集实例中，NoKMD甚至接近完整版本。这是因为在小规模场景中，订单密度较低，约束不频繁触发，允许传统的随机操作器在有限的可行区域内找到可接受的解决方案。随着规模的增加，差距变得明显：在N = 200时，NoKMD的平均差距扩大到26.4%，在N = 300时进一步扩大到40.4%，而HV值仅在0.267至0.386之间，而完整版本保持在0.475至0.599之间。这表明在密集约束下，随机进化操作器生成的不可行解决方案的比例急剧增加，而我们的知识驱动操作器通过容量预检查等机制不断将搜索引导到可行区域，从而从规模扩展中获得显著的效率提升。强化学习的影响：比较RL-KMD-MOEA/D与RL-KMD-MOEA/D-NoRL。NoRL变体的表现与NoKMD类似，在N = 200时平均差距为26.8%，在N = 300时为45.1%。值得注意的是，在lc161实例（N = 300）上，NoRL的HV仅为0.334，而完整版本达到了0.599，差距接近44%。这一结果表明，当操作器选择是固定的或随机的时，算法无法根据不同动态阶段的搜索状态调整其策略；在订单密集、冲突频繁的场景中，它倾向于在低质量区域长时间迭代。强化学习机制通过实时感知种群收敛状态并动态分配操作器，有效地提高了算法在复杂动态环境中的适应性。上下文意识的影响：以RL-KMD-MOEA/D-BasicRL作为基线。在四个剥离的变体中，BasicRL与完整版本最为接近，总体平均差距为22.8%，在lc141实例（N = 200）上达到了0.509，这是该规模下所有变体中最高的。在像lc101（N = 50）这样的小规模聚集实例中，BasicRL的HV略高于完整版本。这是因为只有50个订单且约束密度低，对差异化状态表示的需求有限；共享的Q表避免了多状态学习的初始探索开销，因此表现略好。然而，这种优势随着问题规模的增加而不再持续。在N = 300时，BasicRL的HV下降到只有0.271–0.407，而完整版本达到了0.475–0.599，差距为32–43%。这表明当所有子问题共享相同的状态表示和统一Q表时，具有不同权重偏好的个体之间的奖励信号会相互干扰，损害了前端的广度。我们的上下文感知状态为具有不同偏好方向的子问题提供了差异化的行动选择，同时保持了收敛性和帕累托前端的多样性。预热策略的影响：为了评估预测性动态预热策略的作用，我们将RL-KMD-MOEA/D与RL-KMD-MOEA/D-NoWS进行了比较。NoWS在四个变体中表现最差，总体平均差距为46.6%。在N = 100时，其HV已经降至0.225–0.317，在lc141实例（N = 200）上降至0.192，与完整版本的0.589相比差异为67.4%——这是剥离实验中记录的最大单点差距。这是因为每次新订单触发重新规划时，NoWS都从随机初始化的种群开始，消耗大量评估来重新建立收敛梯度；每次环境切换都伴随着指标的显著下降。相比之下，RL-KMD-MOEA/D通过预热将历史上的精英路线注入新的优化中，在有限的评估预算内实现了更好的最终解决方案质量。Wilcoxon测试结果还显示，NoWS在所有24个有效实例上与完整版本有统计学上的显著差异，进一步证实了预热策略对整体性能的关键贡献。RL-KMD-MOEA/D的高性能源于其组件的闭环协同作用：动态预热提供了高的初始起点；知识驱动的操作器提供了强大的进化压力；上下文感知的RL作为精确的导航系统。这三者对于大规模动态多目标调度都是不可或缺的。6. 结论我们通过提出一种具有混合交付模式的多目标随机无人机路由方法来处理混合标准和紧急订单。与之前的工作使用单一模式不同，我们集成了独享和共享模式，使无人机能够动态切换策略。问题受到负载、电池、储物箱冲突以及两个冲突目标（在动态到达下最小化成本和最大化收入）的约束。高动态性和严格的可行性使得传统算法在处理大规模实例时显得困难。为了解决这个问题，我们提出了RL-KMD-MOEA/D。首先，预测性动态预热重新使用了过去周期中的精英路线来缓冲环境冲击。其次，三个知识驱动的操作器（容量打包、独占加速、冲突扰动）结合滑动窗口修剪和容量预检查，将搜索引导到狭窄的可行区域。第三，一个上下文感知的RL代理根据子问题的权重和收敛状态自适应地调度这些操作器，平衡了探索与利用。在50到300个订单的动态实例上的实验将RL-KMD-MOEA/D与六种现有算法进行了比较。Wilcoxon测试显示在小规模上具有竞争力，在大规模、高度受限的场景中具有压倒性的优势。参数分析确定了最佳设置，剥离实验确认了预热、知识操作器和RL的必要性。本研究为了保持可行性做了一些简化假设：无人机是同质的，每个储物箱都有无限的电池供应，忽略了商家到储物箱和储物箱到客户的转移时间，以及一次只有一架无人机服务的储物箱规则。这些假设在文献中很常见，但在应用于实际需求的交付操作时可能会影响我们的管理结论的有效性。例如，忽略转移时间可能会低估总交付时间，无限电池更换可能会降低表面运营成本。为弥合这一差距，未来的研究将逐步放宽这些假设：(i) 利用实时交通数据纳入商家到储物柜以及储物柜到顾客之间的传输时间；(ii) 建立有限电池库存和储物柜补货物流的模型；(iii) 扩展储物柜的使用规则，以便在基于视觉的系统允许的情况下实现并行操作；(iv) 考虑使用不同类型的无人机队伍。此外，我们还将引入更现实的随机不确定性因素，例如恶劣天气对能源消耗的影响以及无人机突然发生故障的情况。将所提出的框架扩展到其他动态路由问题上仍然是一个具有前景的研究方向。

热点排行