针对具有同时救援组件约束的异构双组分系统的最优任务中止策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Reliability Engineering & System Safety》：Optimal mission abort policy for the heterogeneous two-component system with constraints on simultaneous components’ rescue

【字体：大中小】 时间：2026年02月22日 来源：Reliability Engineering & System Safety 11

编辑推荐：

　　任务终止策略优化与两组件系统期望损失评估

格雷戈里·莱维廷|马克西姆·芬克尔斯坦

NOGA- 以色列独立系统运营商，以色列

摘要

在许多情况下，执行重要任务的系统在任务中止后，会启动救援程序，其主要目的是确保昂贵系统的生存。现有的任务中止模型假设，当有多个组件参与完成任务时，各个组件的救援程序是独立进行的。然而，系统往往没有足够的资源同时执行所有组件的救援程序。因此，某些组件的任务中止可能会被延迟或取消。本文考虑了一个禁止同时救援两个组件的系统，并提出了一种算法来评估这种设置下的预期任务损失。此外，本文还制定了任务中止策略优化问题并提供了实际示例，表明组件之间的操作依赖性会影响任务成功指标和相应的任务中止策略。

引言

从迈耶斯的开创性论文[1]开始，任务中止理论及其应用已经在复杂技术系统的可靠性和效率分析中发展成为一个完善的学科。在某些情况下，确保昂贵且重要的系统的生存可能比完成任务本身更为关键。随着系统在执行任务时退化，发生具有重大不利影响的故障的概率会随着时间的增加而增加。因此，为了拯救系统，可以中止任务并执行救援程序（RP）。为了建立明确的标准来定义触发中止的退化状态，必须制定任务中止策略（MAP）。该策略应包括反映组件状态及其触发中止的相应阈值的决策变量。关于任务中止的最新综合研究可以在[2,3]中找到。

上述推理也可以应用于执行具有固定持续时间的任务的多组件分布式系统。系统组件可能是异构的，并在不同的环境和位置运行。本文描述了这些系统的MAP，以下简要的文献综述主要针对这种情况。

已经研究了具有多个组件的分布式系统的各种MAP。在[4]中，为在PM和RP期间在不同冲击环境下运行的同质多组件多尝试系统模型化了固定和尝试依赖的MAP。在[5]中，为执行具有多个子任务的任务的多组件系统，将组件依赖的MAP与子任务分配策略一起进行了优化。在[6]中，为在冲击更新过程中运行的同质多组件工作共享系统优化了一个动态MAP。根据任务工作的数量和剩余损害的数量，该策略决定了每个冲击后执行主要任务和损害减少程序的可用组件的分配。在[7]中，MAP与执行目标打击任务的无人机的路由和打击策略一起进行了优化。在[8]中，为每个组件可以独立完成任务并在RP期间被拯救的多尝试多组件系统优化了尝试依赖的MAP。在[9]中，为必须完成指定工作量的同质多组件工作共享系统优化了MAP。在[10]中，将此MAP扩展为一种策略，该策略确定在满足触发条件时应继续执行任务的组件数量，而其余的运行组件应中止任务并开始RP。在[11]中，分析了具有多个中止标准的多组件多状态系统的MAP。在[12]中，将MAP与多组件的组件激活延迟一起进行了优化，其中多个组件可以按固定延迟连续激活。

在[13]中，将MAP与具有故障交互的多组件的检查策略一起进行了设计。当系统的预测可靠性（基于退化和年龄信息更新）低于指定阈值时，会触发中止。在[14]中，将组件/尝试依赖的MAP与异构多组件的组件激活策略一起进行了优化。在这项工作中，不同组件可以根据预定义的时间表进行多次尝试，并且任何组件完成任务后都会发出共同的中止命令。在[15]中，考虑了具有组件间依赖性的多组件运输系统的MAP。在[16]中，分析了所有运行组件同时受到共同冲击的情况的任务中止策略。在[17]中，使用深度强化学习为状态变化的组件群获得了动态MAP。在[18]中，考虑了一个通用的多组件连贯系统，并采用基于签名的方法来定义MAP标准。在[19]中，研究表明，在多尝试多组件任务中使用不同的MAP是有益的。高等人[20]考虑了具有随机任务执行时间的分布式多组件系统的MAP，以最大化任务完成概率。赵等人[21]讨论了联合优化任务中止规则和系统结构，以最小化动态任务的成本。查等人[22]研究了具有部分可修复组件的异构系统的最优中止策略。彭[23]考虑了多个无人飞行器的联合路由和性能（即组件的分布式系统）。

据我们所知，这项工作是第一个考虑具有操作依赖性的两组件的任务中止情况，这些依赖性阻止它们同时执行组件级的RP。这种设置在实际中非常重要，并且存在一定的建模和计算挑战。实际上，在分布式系统的多个组件参与完成任务的情况下，由于RP资源有限或特定的RP条件，系统无法同时执行所有组件的RP。在这种情况下，某些组件的任务中止和RP激活可以推迟到其他组件完成RP（失败或完成）为止。组件操作模式中的这种依赖性会影响整体任务成功指标，必须特别开发出考虑这种情况的指标。后者以及相应的分析是本研究的目标。

本文通过考虑两个非相同组件在不同环境中执行任务且任何时刻只有一个组件可以执行RP的新颖且实际重要的设置，为现有技术做出了贡献。它提出了一种算法来评估这种设置下的预期任务损失。此外，本文还制定了任务中止策略优化问题并提供了说明所提出方法的实际示例。

章节摘录

问题陈述

一个由两个统计上异构但功能相同的组件组成的系统必须完成任务。如果任何组件在时间

τ

内不发生故障，就可以完成任务，从而显示出重要的操作冗余性，增加了任务成功的机会。组件同时执行任务。在执行任务过程中，每个运行组件（∈{1,2}）都会暴露在特定的随机环境中。

组件的抗冲击能力和冲击发生概率

让

q_{i}

(k)表示组件在存活所有先前冲击( $q_{i}$ (0)1)的情况下存活第< />次冲击的条件概率。例如，根据[24,25]中的冲击模型， $q_{i}$ (k)对于k>0可以定义为 $q_{i} (k) = ω_{i} Ω i (k),i=1,2,$ $ω_{i}$ $ω_{i}$ $Ω_{i} (k)$ 表示第一次冲击对组件的影响及其抗冲击能力下降因子。假设这个函数的具体形式为 $Ω_{i} (k)$ $Ω_{i} (k)$ ，这是一个递减函数。

示例说明

考虑两台虚拟机（数据处理软件版本），它们必须在时间τ=100小时内完成相同的计算任务，这些虚拟机在两个不同的云服务器上使用敏感数据。每台服务器都会遭受随机黑客攻击（冲击），这些攻击旨在访问和破坏敏感数据。攻击按照HPP的速率

Λ_{i} = 0.02

h^-1发生。数据损坏会导致服务器上执行的任务立即失败。如果两个虚拟机都受到攻击，将会造成损害C_F。

结论和进一步研究方向

本文模拟了一个禁止同时执行RP的两个组件的系统，并且当一个组件执行RP时，另一个组件不能中止任务。这种情况在实践中可能发生，因为没有足够的资源同时中止，或者有其他原因（后勤、管理或设计限制）阻止了这种情况。

一种用于评估任意任务和组件参数以及组件任意MAP的任务指标算法

CRediT作者贡献声明

格雷戈里·莱维廷：撰写——原始草稿、软件、方法论、概念化。马克西姆·芬克尔斯坦：撰写——原始草稿、形式分析。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号