在固定翼飞机侧面姿态跟踪控制中，采用对称数据增强技术的深度确定性策略梯度算法

《Aerospace Science and Technology》：Deep Deterministic Policy Gradient with Symmetric Data Augmentation for Lateral Attitude Tracking Control of a Fixed-wing Aircraft

【字体：大中小】 时间：2026年05月10日 来源：Aerospace Science and Technology 5.8

编辑推荐：

　　李一飞 | Erik-Jan van Kampen 德尔菲理工大学，控制与仿真系，Kluyverweg 1，德尔菲，南荷兰，2629 HS，荷兰 **摘要** 动态系统的对称性可以用于状态转换预测，并有助于控制策略的优化。本文利用系统对称性开发了高效的离线强化学习（

　　李一飞 | Erik-Jan van Kampen
德尔菲理工大学，控制与仿真系，Kluyverweg 1，德尔菲，南荷兰，2629 HS，荷兰

**摘要**
动态系统的对称性可以用于状态转换预测，并有助于控制策略的优化。本文利用系统对称性开发了高效的离线强化学习（RL）方法。在对马尔可夫决策过程（MDP）的对称性假设下，提出了一种对称数据增强方法。这些增强样本被整合到深度确定性策略梯度（DDPG）的数据集中，以增强其对状态空间的覆盖。此外，通过引入一个基于增强样本训练的第二个批评者，提高了样本利用效率，从而形成了双批评者结构。验证了飞机模型的对称性，并通过飞行控制仿真证明了使用增强样本时策略收敛速度的加快。

**1. 引言**
机械系统（如飞机[1]、汽车[2]和机械臂[3]）运动的一个共同特点是对称性，这来源于其机械结构的对称设计。这种特性意味着每个状态轨迹都有一个相对于参考平面的对称对应轨迹，并且与相应的对称控制策略相关联。因此，可以利用一个状态轨迹的运动来推断其对称对应轨迹的运动。一个示例是小车-杆系统[4]中的对称运动。

飞机框架的配置对称性表现出两种主要类型：反射对称性和四方对称性[1]。这些结构属性被用来推导某些空气动力学导数消失的条件。它们还导致了运动对称性和动态对称性。因此，飞机运动表现出对称性，这可能有助于提高基于RL的飞行控制框架的学习性能。近年来，RL已成功应用于各种飞行器的飞行控制设计，包括四旋翼机[5]、[6]、[7]、[8]、固定翼飞机[9]、[10]、[11]和垂直起降（VTOL）飞机[12]，减少了对精确模型的依赖。在这些例子中，飞行控制律通常由神经网络参数化，并使用样本进行训练。飞行数据集的质量，特别是其对状态-动作空间的覆盖，直接影响学习到的控制律的有效性。在离线训练阶段，飞行数据是通过代理与仿真模型交互产生的，使用探索策略。然而，控制策略的收敛会减少探索，可能导致状态-动作空间覆盖不足。这凸显了学习过程中的一个众所周知的探索与利用之间的权衡[13]。此外，探索策略设计不当会通过限制收集样本的多样性而加剧这一问题，从而可能由于Actor对状态空间未访问区域的泛化能力差而降低控制性能。这些挑战引发了学习过程中的样本效率问题。为了解决这个问题，已经探索了基于系统属性（如对称性[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]）的数据增强技术，从而实现对称数据增强。使用对称数据增强进行基于RL的飞行控制设计的动机是飞机动态的高维状态-动作空间的昂贵探索成本。

本文首先阐述了基于Q函数的策略优化方法。然后在MDP框架内定义了样本的对称性。推导出了一种对称性条件，以确定样本是否对称。这一理论结果激发了对称数据增强方法的使用。此外，将增强样本集成到深度确定性策略梯度（DDPG）算法[23]中，从而获得更丰富的数据集。为了提高样本利用效率，我们提出了一种两步近似值迭代方法。第一步，使用探索到的样本训练一个批评者和一个Actor。第二步，使用增强的（对称的）样本训练另一个批评者，同时更新相同的Actor。最后，对飞机模型的对称性分析验证了对称数据增强在离线飞行控制学习中的应用。

**本文的主要贡献总结如下：**
- 提出了一种对称数据增强方法来生成额外的训练样本。
- 开发了一种两步近似策略迭代方法，以提高训练过程中的样本利用效率。
- 分析了飞机模型的对称性，并应用了具有对称性信息的RL算法，以实现高效的样本策略学习。

本文的结构如下：第2节讨论了离散时间最优控制问题和近似值迭代方法。第3节定义了动态系统的对称性特征。第4节介绍了对称数据增强方法。第5节开发了具有对称批评者增强的DDPG。第6节介绍了飞机动态模型并分析了其对称性。第7节介绍了动作平滑技术。第8节提供了具有对称性信息的RL在飞行控制中的仿真结果。第9节总结了本文。

**1.1 相关工作**
**1.1.1 RLS的对称数据增强**
对称数据增强依赖于状态-动作空间中对称性的假设。这一假设意味着每个状态轨迹都有一个对称的对应轨迹，允许使用来自探索轨迹的样本来生成其对称对应轨迹的样本，而无需与环境进一步交互。这种方法增加了训练样本的数量，从而提高了样本效率，这对于应用RL于复杂、高维系统尤其重要，因为在这些系统中探索状态-动作空间代价高昂。在[14]中，根据简单的对称关系镜像探索样本，并将其整合到最大后验策略优化中以加速学习。在[15]、[16]中，开发了一种专家引导的检测方法来验证对称性，假设系统动态是不变的。检测到的对称性用于增强样本，以学习Grid、小车-杆和Acrobot系统的转换函数。在[17]中，使用李点对称群来增强样本，以求解神经偏微分方程（PDE）。在[18]、[19]中，使用对称性对数据增强方法的泛化界限进行了理论分析。在[20]、[21]中，将对称数据增强与经验回放技术相结合，形成了基于反射对称性的Kaleidoscope Experience Replay和Goal-augmented Experience Replay，后者是Hindsight Experience Replay的直接泛化。参考文献[22]学习MDP的等变集，并将其用于离线RL中的数据增强。参考文献[24]采用预训练的前向模型进行Koopman潜在表示，以实现等变动态系统的对称数据增强。

**1.1.2 DDPG/TD3用于飞行控制**
DDPG和双延迟DDPG（TD3）是确定性的、离线策略学习方法，通过连续状态-动作空间中的状态-动作（Q）价值函数实现策略优化。在飞行控制设计中，这些方法通过利用样本减少了对精确系统模型的依赖，从而减轻了与建模空气动力学系数、执行器动态和其他未知动态相关的挑战。相关研究的综述可以在[25]、[26]中找到。具体应用包括Flying-V[27]、Cessna Citation PH-LAB[28]、四旋翼机[5]、[29]、[30]、[31]、[32]、[33]、[34]、[35]、F-16模型[36]、喷气流[37]、固定翼无人机（UAV）[38]、[39]、[40]、UAV自动航母着陆系统[41]、无人机互联网[33]、Skyhunter[42]、单旋翼机[43]、飞翼飞机[44]、仿生鸟翼可折叠无人机模型[45]和变形后缘翼[46]的姿态控制设计。本文的贡献在于对飞机横向模型的对称性分析及其在制定对称数据增强方法中的应用。在现有文献中，很少讨论利用飞机模型对称性来增强离线策略训练的想法。

**2. 基础**
本节首先为非线性系统制定了无限视界最优控制问题。然后定义了状态值（V）函数和状态-动作值（Q）函数，分别用于评估状态和动作的价值。最后，引入了精确值迭代和近似值迭代作为解决最优控制问题的数值方法。

**2.1 定义**
考虑一个离散时间控制仿射非线性系统
(1)
xk+1 = F(xk) + uk,
k ∈ N
其中 xk ∈ Rn，uk ∈ Rm 分别表示状态向量和输入向量。非线性函数 F(xk) ∈ Rn×n 和 G(xk) ∈ Rn×m 与 xk 相关联。下标 k 表示时间步索引，N 表示非负整数集。

定义一个从初始状态 x0 开始的性能指标
(2)
J(x0, u0) = ∑k=0∞ γkr(xk, uk)
其中 r(xk, uk) 表示步骤 k 的奖励函数，γ ∈ [0, 1] 是折扣因子。控制输入序列 {uk|k=0,1,2,?} 由状态反馈控制律 uk = h(xk) 生成。

**假设1**
控制策略 h(x) 关于状态 x 是Lipschitz连续的。
假设1在现实世界机械系统的控制设计中通常得到满足。该条件确保了策略梯度的存在，并便于基于梯度的策略搜索。可以通过使用Lipschitz连续的激活函数（如tanh和ReLU[47]、[48]、[49]）来构建满足Lipschitz连续性的神经网络策略。

**定义2**
状态值函数 Vh: Rn→R+，从任何初始状态 x0 开始，按照确定性策略 h(·) 进行定义
(3)
Vh(x0) = ∑k=0∞ γkr(xkh, h(xkh))
其中 xkh 表示按照控制策略 h(·) 进行的状态 xk。

**定义3**
状态-动作值函数 Qh: Rn+m→R+，从任何初始状态 x0 开始，采取动作 a0 并按照 h(·) 进行定义
(4)
Qh(x0, a0) = r(x0, a0) + ∑t=1∞ γkr(xkh, h(xkh))
Vh(x0) 的贝尔曼方程表示为
(5)
Vh(x0) = r(x0, h(x0)) + γVh(x1)
Qh(x0, a0) 的贝尔曼方程表示为
(6)
Qh(x0, a0) = r(x0, a0) + γVh(x1)
使用 Vh(x1) = Qh(x1, h(x1)) 在方程(6)中：
(7)
Qh(x0, a0) = r(x0, a0) + γQh(x1, h(x1))

**2.2 基于Q函数的策略优化**
从 x0 开始定义一个最优控制策略，策略 h*(x0) = argmax h(·)Vh(x0)。
在方程(5)中使用 h*(x0)：
(8)
Vh*(x0) = max h(·)(r(x0, h(x0)) + γVh(x1)
状态-动作对 (x0, a0) 的最优Q函数定义为从 x1 开始遵循最优控制策略 h*(·)：
(9)
(Qh(x0, a0.*) = Qh*(x0, a0) = max h(·)(r(x0, a0) + γVh(x1)) = r(x0, a0) + γVh*(x1)
最优动作 a0* 使 Qh(x0, a0) 最大化，表示为
(10)
a0* = argmax a0 Qh(x0, a0) = argmax a0(r(x0, a0) + γQh(x1, h(x1)))
在方程(7)中使用 a0*：
(11)
Qh(x0, a0*) = max a0(r(x0, a0) + γQh(x1, h(x1)))

**2.3 精确值迭代**
精确值迭代[13] 递归地评估并改进当前策略，产生动作 ak = h(xk)，?xk ∈ S，其中 S∈Rn 表示状态空间。
策略评估
(12)
(Qh)i+1(xk, ak) = r(xk, ak) + γ(Qh)i(xk+1, hi(xk+1))，?xk, xk+1∈S
策略改进
(13)
hi+1(xk) = argmax h(·)(Qh)i+1(xk, h(xk))
其中 i ≥ 0 表示迭代索引。基于贝尔曼算子的γ-收缩性质，证明了收敛到固定点 limi→∞(Qh)i=(Qh)*, limi→∞hi=h*。

**2.4 近似值迭代**
函数 Qh(x, a), h(x) 通常是未知的，因此解决方程(12)、(13)很困难。一种常用的方法是使用神经网络对这些函数进行参数化，从而得到解决这些方程的近似方法，即近似值迭代（AVI）[50]。AVI使用两个神经网络：(1) 批判者网络近似状态-动作值函数，表示为 Q^ψh(x, a)，参数集为 ψ；(2) Actor网络近似策略 h(x)，表示为 μ?(x)，参数集为 ?。因此，方程(12)、(13)可以重构为
近似策略评估
(14)
(Q^ψh)i+1(xk, ak) = r(xk, ak) + γ(Q^ψh)i(xk+1, μ?)i(xk+1))，?xk, xk+1∈S
近似策略改进
(15)
(μ?)i+1(xk) = argmax ?(Q^ψh)i+1(xk, μ?(xk))
参数集 ψ 和 ? 在DDPG算法[23]中使用梯度下降进行优化。

**3. 对称动态模型**
假设系统(1)满足马尔可夫性质，定义为：状态转换仅取决于当前状态和动作，而不取决于任何先前的状态[13]。因此，状态转换的样本表示为 (xk, ak, xk+1)，表示当应用动作 ak 时系统从 xk 转换到 xk+1。

**定义3 (对称一步状态转换)**
两个状态转换样本，表示为 (xk, ak, xk+1) 和 (xk′, ak′, xk+1′)，当遵循以下条件时相对于参考状态 x* 是对称的：
(16)
xk + xk′ = x*
(17)
ak = ?ak′
(18)
xk+1 + xk+1′ = x*
假设方程(16)、(17)成立，以下定理讨论了方程(18)成立的条件。
**定理1 (xk+1的对称性)**
从系统(1)中选择两个样本，表示为 (xk, ak, xk+1), (xk′, ak′, xk+1′)，以及参考状态 x=x*。假设方程(16)、(17)成立，则 xk+1, xk+1′ 相对于 x* 是对称的，当
(1)
x* = 0 ∈ Rn, G(xk) = G(xk′), F(xk) = F(xk′)
(2)
x* ≠ 0 ∈ Rn, G(xk) = G(xk′), F(xk) = F(xk′) = I ∈ Rn×n。
**证明**
见附录A。

**定义4**
当以下条件满足时，系统(1)相对于参考状态 x* 是对称动态系统：
(19)
xk + xk′ = x*，?xk, xk+1∈S
ak = ?ak′，?ak, ak′∈A
xk+1 + xk+1′ = x*，?xk′, xk+1′∈S
其中 A∈Rm 表示动作空间。这种对称关系在图1中说明。
**下载：** 下载高分辨率图像 (141KB)
**下载：** 下载全尺寸图像
图1. 动态系统状态-动作空间 S×A 中对称性的示意图。完整的状态-动作空间 S×A 由两个子空间组成：(1) 包含探索样本的子空间，表示为 (S×A)exp；(2) 包含增强样本的子空间，表示为 (S×A)aug。

**定义5**
当以下条件满足时，奖励函数 r(xk, uk) 在状态-动作对 (xk, ak) 和 (xk′, ak′) 处是对称的：
(20)
r(xk, ak) = r(xk′, ak′)

**定义6**
方程(4)中的状态-动作值函数 Qh(xk, ak) 在状态-动作对 (xk, ak) 和 (xk′, ak′) 处是对称的，当
(21)
Qh(xk, ak) = Qh(xk′, ak′)

**4. 带有对称数据增强的DDPG**
本节基于第3节中的假设开发了一种对称数据增强方法。这些增强样本在DDPG框架中使用，以提高样本效率。对称数据增强
根据方程（16）、（17）、（18）、（20），可以通过镜像已探索的样本来获得增强样本，即：
\(s_k' = A_s + B_x^*\)
其中 \(s_k=[x_k, a_k, x_{k+1}, r_k]^T\) 是一个已探索的样本，\(s_k'=[x_{k}', a_{k}', x_{k+1}', r_{k}']^T\) 是一个增强样本。矩阵 \(A\) 和 \(B\) 定义如下：
\(A = \begin{bmatrix}-1 & 0 & 0 & 0 & 0\\0 & -1 & 0 & 0 & 0 & -1\\0 & 0 & -1 & 0 & 0\\0 & 0 & 0 & 0 & -1\end{bmatrix}\)
\(B = \begin{bmatrix}2 & 0\end{bmatrix}\)

2. 带有对称数据增强的一致性强化学习（DDPG）
DDPG是一种基于Q学习的方法，通过小批量更新进行操作。评论家被训练来近似Q函数，而演员被训练来近似次优策略[23]。这可以通过近似值迭代（AVI）来实现。使用一个重放缓冲区 \(D\) 来存储已探索的样本和增强样本：
\(s_k \in D, s_k' \in D\)
通过这种方式，数据集得到了丰富。可以选择包含已探索样本和增强样本的小批量来训练评论家和演员。这导致了一种改进的DDPG算法，即具有对称数据增强的一致性强化学习（DDPG-SDA）。伪代码在算法1中提供。

3. 带有对称评论家增强的DDPG
本节研究了如何提高DDPG-SDA的样本利用效率。我们发现，在一个小批量中使用混合样本并不能有效利用增强样本。基于此分析，我们提出了对算法结构的两种修改：（1）使用两个评论家网络来近似Q函数；（2）两步近似值迭代。

4. DDPG-SDA的缺点
在一个小批量中混合已探索的样本和增强样本可能不会显著提高策略的收敛性，因为与只包含已探索数据的小批量相比，已探索样本的数量减少了。一个可能的解决方案是增加小批量的大小，但这可能会反过来降低学习性能[51]。因此，研究在不改变小批量大小的情况下提高策略收敛性的方法是值得的。

5. 双评论家用于Q函数近似
为了更有效地利用增强数据集，我们提出了分别存储和采样已探索的样本和增强样本的方法。为此，使用两个重放缓冲区 \(D_1\) 和 \(D_2\) 来分别存储这些样本：
\(s_k \in D_1, s_k' \in D_2\)
这样，就可以分别采样这两种类型的样本来训练两个评论家。因此，Q函数的近似是通过以下方式实现的：
\(Q_h(x_k, a_k) \approx \{\begin{cases}Q^{\psi_1}(x_k, a_k), & \text{如果}(x_k, a_k) \in D_1\\Q^{\psi_2}(x_k, a_k), & \text{如果}(x_k, a_k) \in D_2\}\)
其中 \(\psi_1\) 和 \(\psi_2\) 是两个评论家的参数集。

6. DDPG-SDA
提出的修改使得DDPG具有对称评论家增强（SCA）。其优势在于可以在不增加小批量大小的情况下更有效地利用增强样本，从而可能在学习过程中实现更快的策略收敛（如仿真结果所示）。伪代码见算法2。

7. 模型
本节介绍了飞机的横向动力学。首先介绍了一个连续时间动力学模型。然后，使用欧拉方法对该模型进行离散化。最后，基于定理1分析了离散时间模型的对称性。

8. 飞机模型
8.1. 动力学模型
飞机动力学模型由微分方程描述[53]：
\(\phi' = p', p' = L_p p + L_r r + L_\beta \beta + L_\delta a' \delta_a + L_\delta r' \delta_r\)
\(\beta' = Y_p p + Y_\phi * \phi + (Y_r *^{-1}) r + Y_\beta \beta + Y_\delta a * \delta_a + Y_\delta r * \delta_r\)
\(r' = N_p p + N_r r + N_\beta \beta + N_\delta a' \delta_a + N_\delta r' \delta_r\)
其中 \(\phi\) 是 bank angle，\(p\) 是 roll rate，\(\beta\) 是 sideslip angle，\(r\) 是 yaw rate。\(δ_a\) 是 aileron deflection，\(δ_r\) 是 rudder deflection。气动系数见表1。

9. 离散化
微分方程（31）可以使用欧拉方法[54]进行离散化，采样步长为 \(T\)：
\(\phi_{k+1} = \phi_k + p_k T p_k + L_p' p_k + L_r' r_k + L_\beta' \beta_k + L_\delta a' \delta_a_k + L_\delta r' \delta_r_k\)
\( \beta_{k+1} = \beta_k + (Y_p * p_k + Y_\phi * \phi_k + (Y_r *^{-1}) r_k + Y_\beta \beta_k + Y_\delta a* \delta_a_k + Y_\delta r* \delta_r_k\)
将方程（32）重写为：
\(\phi_{k+1} = F(x_k)\)
\(u_k = [ \phi_k, p_k, \beta_k, r_k]^T\)
\(F(x_k) = \begin{bmatrix}1 & 0 & 0 & 1\\0 & L_p' T & T & L_\beta' T\\Y_\phi* T & 1 + Y_\phi* T\\Y_r*^{-1} T & 0 & N_p' T\end{bmatrix}\)
\(G(x_k) = \begin{bmatrix}0 & 0 & L_\delta a' T\\L_\delta r' T & Y_\delta a* \delta_a_k & T\\Y_\delta r* T & N_\delta a' \delta_a_k & T\\N_\delta r' \delta_r_k & T\end{bmatrix}\)

10. 对称性分析
本小节分析了离散时间模型（33）的对称性。定理1将对称平面分为两种情况：\(x^* = 0\) 和 \(x^* \neq 0\)。第二种情况对系统矩阵 \(F(x_k)\) 有更严格的约束。方程（32）还展示了roll通道和yaw通道之间的耦合效应，这些耦合效应被包含在 \(F(x_k)\) 中。应用定理1的假设到系统（33）：
\(\phi_k + \phi_{k+1}^2 = x^* a_k = -a_k'\)
其中 \(x_k=[\phi_k, p_k, \beta_k, r_k]\)，\(x_{k+1}=[\phi_{k}', p_{k}', \beta_{k}', r_{k}']\) 是关于参考平面 \(x^*=[\phi_k*, p_k*, \beta_k*, r_k*]\) 对称的状态，\(a_k=[\delta_a, k, \delta_r, k]\)，\(a_{k}'=[\delta_a, k', \delta_r, k']\) 是关于 \(0 \in \mathbb{R}^m\) 对称的动作对。
由于条件 \(F(x_k) = F(x_{k}' \neq 0\) 对于系统（33）成立，可以从定理1的情况（1）得出：
\(\phi_{k+1} + \phi_{k+1}^2 = 0 \in \mathbb{R}^n\)
其中 \(x_{k+1}=[\phi_{k}+1, p_{k}+1, \beta_{k}+1, r_{k}+1]\)，\(x_{k+1}'=[\phi_{k}+1', p_{k}+1', \beta_{k}+1', r_{k}+1']\)。

11. 动作策略平滑性的条件化
为了实现四旋翼飞行器的平滑控制，已经开发了动作策略平滑性条件化（CAPS）技术[32]，并将其应用于Flying-V和Cessna Citation PH-LAB飞机的平滑控制[28]、[55]、[56]、[57]。核心思想是将平滑性损失纳入策略优化中，这可以被视为一个明确考虑动作平滑性的多目标优化问题。这种方法鼓励演员对于在空间或时间尺度上变化的相邻输入状态产生相似的动作。
对于一个小批量，空间平滑性损失可以表示为：
\(L_s = \frac{1}{N_s} \sum_{j=1}^{N_s} \| \mu_{\theta}(x_{k-j}) - \mu_{\theta}(x_{kj}) \|^2\)
其中 \(x_k\) 是时间步长 \(t\) 时演员的输入，\(x_{k-j}\) 是空间尺度上的偏差 \(x_k\)，\(j\) 是来自 \(x_k\) 分布的 \(N_s\) 个样本的索引。空间平滑性损失惩罚由于测量噪声导致的动作变化，有助于提高策略的泛化和鲁棒性。
对于一个小批量，时间平滑性损失可以表示为：
\(L_t = \frac{1}{N} \sum_{i=1}^{N} \| \mu_{\theta}(x_{k+1}^i) - \mu_{\theta}(x_{ki}) \|^2\)
其中 \(x_{k+1}, x_k\) 是时间步长 \(k\) 和 \(k+1\) 时演员的输入，\(i\) 是小批量中 \(N\) 个样本的索引。时间平滑性损失衡量了演员输出对输入变化的响应。连续时间步长之间动作的突然变化会受到惩罚，以便演员学会随时间产生一系列变化缓慢的动作。
然后，多目标优化可以表示为：
\(h(x_{ki}) = \argmax_h\left(\sum_{i=1}^n [Q^{\psi_h}(x_{ki}, h(x_{ki})\right) - \lambda_1 L_s - \lambda_2 L_t\)
其中第一项衡量长期状态-动作价值，\(\lambda_1 \geq 0\)、\(\lambda_2 \geq 0\) 是平滑性损失的权重。这些参数可以调整以平衡在最大化估计的状态-动作价值和确保动作平滑性方面的策略性能。

12. 仿真
本节展示了飞行控制仿真结果。在对称性感知的RL算法在在线训练和在线操作阶段进行了评估。此外，通过跟踪在策略训练期间未使用的bank-angle参考值来评估训练有素的演员的泛化能力。

13. 环境设置
环境设置为飞机模型（31）。这些微分方程使用四阶龙格-库塔方法进行积分，时间步长为0.1秒。每个剧集包含300个时间步长。评论家和演员的权重使用PyTorch的线性模块提供的Kaiming分布[58]进行初始化。从重放缓冲区中采样是无放回的，以确保小批量中样本的完全多样性，从而提高每次网络更新时的样本效率。飞机状态通过均匀分布随机初始化，即 \(\phi_0 \sim U(0^\circ, 20^\circ)\)，\(p_0 \sim U(0^\circ/s, 10^\circ/s)\)，\(\beta_0 \sim U(0^\circ, 20^\circ)\)，\(r_0 \sim U(0^\circ/s, 10^\circ/s)\)。执行器动作受到限制，即 \(\delta_a, \delta_r \in [-57.3^\circ, 57.3^\circ]\)，这定义了一个动作空间 \(A = [-57.3^\circ, 57.3^\circ] \times [-57.3^\circ, 57.3^\circ] \in \mathbb{R}^2\)。bank angle参考值 \(\phi_{\text{ref}}\) 被设置为周期为 \(T=3\) 秒的方波信号。振幅在每个剧集开始时通过从均匀分布 \(U(0^\circ, 20^\circ)\) 中采样来选择。环境状态通过跟踪误差 \([e_{\phi}, \phi, p, \beta, r]^T \in \mathbb{R}^5\) 进行增强，其中 \(e_{\phi} = \phi - \phi_{\text{ref}}\)。奖励函数被设计为促进bank angle跟踪和侧滑角稳定，即 \(\phi \rightarrow \phi_{\text{ref}}\)，\(\beta \rightarrow 0\)。通过惩罚过度角速率和控制努力来限制激进的控制行为。奖励函数定义为：
\(r_k = -\frac{1}{1 + \sqrt{1 - \|\delta_a,k\|^2 - \|\delta_r,k\|^2 - 0.01}}\)
其中跟踪误差向量定义为 \(e_k = [e_{\phi}, k, e_\beta,k] \in \mathbb{R}^2\)，\(e_{\phi}, k = \phi_k - \phi_{\text{ref}}, e_\beta,k = \beta_k - 0\)。函数 \(clip(\cdot)\) 用于放大集合 \(\{e_{\phi}, k| 0.2 < |e_{\phi}, k| < 1\}\) 和 \(\{e_\beta,k| 0.2 < |e_\beta,k| < 1\}\) 中的跟踪误差 \(e_{\phi}, k\) 和 \(e_\beta,k\)。\(||\cdot||_1\) 是1-norm运算符。图2展示了基于RL的飞行控制系统的整体架构。图3显示了bank angle参考值。不对称参考值有助于测试代理对状态空间的“想象力”，而不是使用探索来覆盖状态空间。

14. 评论家网络
评论家网络是一个多层感知（MLP），输入向量为 \([e_{\phi}, \phi, p, \delta_a, \beta, r, \delta_r]^T \in \mathbb{R}^7\)，输出为估计的状态-动作值。在输出层应用了激活函数 \(-\abs(\cdot)\) 以确保估计的状态-动作值函数的负确定性。演员网络也是一个多层感知（MLP），输入向量为 \([e_{\phi}, \phi, p, \beta, r]^T \in \mathbb{R}^5\)，输出为控制面偏转 \([\delta_a, \delta_r]^T \in \mathbb{R}^2\)。在输出层应用了缩放的tanh(\cdot)激活函数来限制动作在执行器范围内。目标评论家和演员与其对应的主网络具有相同的架构。

15. 训练过程
整个训练过程包括五个独立的实例，每个实例都使用不同的随机种子初始化。每个实例运行3000个剧集。基线算法包括：（1）DDPG，用于评估增强样本与DDPG-SDA的有效性；以及（2）每次迭代两次更新的DDPG（记为DDPG（2次更新）)，用于与DDPG-SCA在增强样本的有效性方面进行比较。超参数列在表2中。

16. 注意事项
由于用于离策略训练的数据集是由探索策略收集的，因此学到的策略可能会提出与数据集中的动作大相径庭的动作。在这种情况下，Q值估计可能会变得非常不可靠，导致策略改进不准确[59]。当训练期间跟踪误差在较大范围内变化时，这个问题尤为明显，因为策略尚未学会跟随参考值。为了解决这个问题，可以对跟踪误差进行裁剪，以确保评论家和演员的更新保持在安全范围内，从而减少对离分布（OOD）动作的依赖[60]。使用 \(clip(\cdot)\) 可以防止由于过度跟踪误差导致的大型TD误差和Q值更新，否则可能会破坏评论家和演员的更新。

17. 规范化角速率
在奖励设计中规范角速率有助于减少跟踪误差收敛期间的超调和振荡幅度。这种方法与线性二次调节器（LQR）[61]和二次成本近似动态规划（ADP）[50]中的速率反馈控制设计一致，其中状态加权矩阵（通常表示为Q）中的速率权重参数被调整以实现类似的效果。

18. 训练结果
图4展示了3000个剧集的训练性能。表3总结了统计结果。滚动平均回报定义为最近100个剧集的平均回报，提供一个平滑的性能度量。所有算法在第3000个剧集时都收敛到可比的剧集回报。DDPG（2次更新）实现了比DDPG更高的滚动平均回报，这表明两次更新频率比一次更新频率能达到更高的最终值。如果演员在每次迭代中对已探索的数据集进行两次训练，这种训练设置的优势也适用于对称性感知算法。在图4中，DDPG-SCA在每次迭代中更新演员两次，但其中一次更新使用来自状态空间其他区域的增强样本，这在对训练场景中的滚动平均回报贡献较少。平均速率量化了滚动平均回报的变化率。在最初的500个剧集中，DDPG-SDA表现出比DDPG更高的滚动平均速率，从而实现更快的策略收敛。这验证了混合已探索样本和对称样本相比仅使用对称样本的性能改进。然而，在充分探索后，它们的性能变得相当。DDPG-SDA相对于DDPG的另一个优势是它与环境的交互次数较少，从而减少了探索的成本。DDPG-SCA的平均训练率（14.212）远高于DDPG-SDA（8.045），这表明两步近似值迭代在加速策略收敛方面优于一步方法，因为采用了更频繁的更新频率。在第2500至3000集期间训练率的下降证明了策略已经得到了充分的训练。

图4. 3000集内的在线训练性能。实线代表五次独立运行的平均回报，虚线表示最大值和最小值。

表3. 训练性能。
指标/算法 DDPG-SCA DDPG-SDA
DDPG DDPG (2次更新) 在第500-1670集的滚动平均回报 2.669 ± 250.239
-240 8.224 ± 234.935
-249 9.168 ± 147.257
-78 4.213 ± 435.842
在第1-500集的平均率 14.212 ± 2.118
8.045 ± 1.058
7.489 ± 2.805
12.642 ± 1.918
在第3000-1460集的滚动平均回报 8.781 ± 395.151
-164 3.008 ± 345.124
-165 4.506 ± 197.981
-49 2.559 ± 262.708
在第2500-3000集的平均率 -0.197 ± 0.678
-0.056 ± 0.212
0.326 ± 0.099
-0.197 ± 0.678

图5 显示了局部状态空间Slocal中的训练样本 {[?,p,β,r]T∈R4|?∈[?30°,30°],p∈[?150°/s,150°/s],β∈[?30°,30°],r∈[?150°/s,150°/s]}。探索和增强样本相对于原点的对称分布反映了数据增强过程的固有对称性。OU噪声是沿着执行器的策略添加的随机噪声，因此探索性能取决于执行器的策略和OU噪声的随机性。由于探索策略的能力有限，探索样本仅覆盖了Slocal的局部区域。然而，增强样本补偿了相应缺乏探索的对称区域，主要是在[?,p,β,r]∈[?30°,0°]×[?50°/s,50°/s]×[?20?,10?]×[?50?,0?]范围内。用1?的分辨率对?轴和β轴进行离散化，对p轴和r轴用10?/s进行离散化。覆盖率定义为至少有一个样本占据的四维单位网格的百分比。如表4和图5(a)(b)(c)所示，OU噪声的探索能力（方差σ=0.015,0.045,0.075）提高了Slocal的覆盖率。增强样本仍然补偿了高角度和速率的对称区域，在策略收敛时探索变得有限。样本增强方法还节省了探索工作。因此，对称数据增强对于获取通过探索难以获得的样本非常有效，同时减少了探索工作。

图5. 局部状态空间中的单例训练样本分布，投影到两个二维平面上。

表4. Slocal的覆盖率。
初始状态和参考状态的分布
不对称（σ=0.015）不对称（σ=0.045）不对称（σ=0.075）对称（σ=0.015）
探索样本 0.286% 0.467% 1.111% 0.652%
探索和增强样本 0.542% 0.796% 1.865% 1.006%

为了更直观地说明，使用了对称的初始状态分布：?0～U(?20?,20?), p0～U(?10?/s,10?/s), β0～U(?20?,20?), r0～U(?10?/s,10?/s)，以及一个参考振幅分布U(?20?,20?)。图5(d)显示，探索样本实现了Slocal的对称覆盖，覆盖率为0.652%，而包含增强样本后覆盖率上升至1.006%。这表明探索样本与增强样本大量重叠，表明OU噪声（σ=0.015）可以生成广泛覆盖Slocal的样本，类似于SDA。此外，大量的探索集确保了Slocal的足够密集采样。

8.4. 姿态跟踪
本小节评估了使用RL方法训练的控制器在姿态跟踪方面的性能。参考信号分别为?ref(t)=20?sin(0.2πt), βref=0。我们评估了训练有素的代理在未在策略训练期间使用的银行角参考下的表现。这种银行角参考的一个显著特点是它在正负区域都有范围，这对仅在训练期间提供正区域的执行器来说是一个挑战。在操作阶段，执行器参数固定在在线训练3000集后获得的值。初始状态根据训练阶段使用的相同均匀分布进行随机化。

图6和图7展示了状态和动作的曲线。可以观察到，使用DDPG训练的控制器在银行角参考的负部分无法跟踪银行角参考，因为在此区域没有收集和使用任何样本。因此，控制器必须仅基于神经网络的泛化能力来产生动作。相比之下，利用对称性信息的方法在银行角参考的正负部分都展示了相当的跟踪性能，这要归功于对称数据增强算法生成的额外样本。

随后，我们从跟踪准确性和控制努力的角度定量评估了跟踪性能。第一个指标是绝对误差均值积分（IAEM）[62], [63]，它评估了n条轨迹上的跟踪误差ek，每条轨迹的时间范围为k=0,1,?,ne。其计算公式为IAEM=1/n∑i=1n(IAE)i。辅助指标（IAE）i=∑k=0ne∥eki∥1T评估了由索引i的单条轨迹上的跟踪误差。与IAEM的定义类似，第二个指标是绝对控制均值积分（IACM），它评估了n条轨迹上的控制努力，公式为IACM=1/n∑i=1n(IAC)i，其中辅助指标（IAC）i=∑k=0ne∥aki∥1T衡量了第i条轨迹在步骤k=0,1,?,ne上的绝对控制输入aki的积分。结果呈现在表5中。DDPG-SCA和DDPG-SDA在横摇通道上实现了可比的φ跟踪性能。相比之下，由于丢失了对称样本，DDPG的φ跟踪性能较差。因此，SDA算法改善了在状态空间缺乏探索区域的执行器的跟踪性能。所有三种方法都实现了有效的β调节，但由于横摇通道的耦合效应，在偏航率和方向舵偏转中观察到了周期性振荡。

表5. 跟踪控制的统计结果。
通道 DDPG-SCA DDPG-SDA DDPG
横摇通道 IAEM 1.044 1.136 5.225
IACM 22.630 26.898 19.649
偏航通道 IAEM 0.232 0.251 0.212
IACM 54.466 56.647 50.211

然而，如果状态空间的探索已经是对称的或足够丰富的，SDA不会提供如此显著的改进，因为策略是在具有相似覆盖范围的数据集上训练的。因此，策略的表现也将相似。SDA的优势在于以下情况：（1）初始状态和参考值不对称，导致状态轨迹不对称，因此代理无法访问对称轨迹的样本；（2）探索不足，例如，当OU噪声的方差较小时，导致策略快速收敛并探索了S的有限区域。SDA的重点在于代理对状态空间的想象，而不是使用探索来覆盖状态空间。

9. 结论
本文研究了利用动态模型的对称性来提高样本效率和降低探索成本的对称性信息RL算法。飞机模型表现出对称性特征，这与开发对称性信息强化学习时所做的假设一致。在线训练仿真显示，与DDPG相比，DDPG-SDA加速了向次优策略的收敛。在操作阶段，对称性信息RL的优势在于改善了状态空间缺乏探索区域的跟踪控制性能。这得益于使用对称样本来提高状态空间的覆盖范围。尽管随着探索的增强，这种优势会减弱，但对称数据增强（SDA）仍然强调了在减少探索成本同时提高控制器性能的潜力。这种好处源于SDA有效捕捉飞机模型中的对称运动并提供信息丰富的样本的能力。

热点排行