基于深度强化学习的自适应多智能体股票交易决策支持系统

《Engineering Applications of Artificial Intelligence》：Adaptive multi-agent stock trading decision support system based on deep reinforcement learning

【字体：大中小】 时间：2026年02月10日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　提出一种混合神经网络框架用于相干阵波束形成，结合MLP与物理信息网络实现非线性映射和优化，支持低旁瓣、零点偏转、多模式及共发散散能力，计算效率达1.7×10^7 FLOPs，适用于复杂阵列配置。

作者：康乐 | 戴梦瑶 | 李辉 | 王新怀

单位：西安电子科技大学高性能电子装备机电一体化制造国家重点实验室，中国西安 710071

摘要

具有低旁瓣、零指向、共发散和多模特性的涡旋波束对先进射频系统具有重大潜力。为此，提出了一种基于混合神经网络（NN）的相控阵框架。该框架采用多层感知器（MLP）后接物理信息网络，将阵列的替代建模与元件激励的优化相结合。所建立的模型学习了从输入轨道角动量（OAM）特征到输出激励的非线性映射，并促进了与训练同时进行的优化过程。物理信息网络进一步将学习范式从单纯的数据拟合转变为寻找物理指导的解决方案。这减少了了对密集层架构的依赖，并增强了模型的波束成形功能。为了验证，进行了涉及各种场景的数值实验。对于一个16×16的均匀矩形阵列，生成的涡旋波束实现了≤?19.5分贝（dB）的旁瓣水平、≤?20.2 dB的零深度、≥85%的模态纯度以及（30°, 30°）的零指向。同时也支持共发散和同轴多模特性。该实现涉及512个变量和5个约束条件，需要1.7×10^7次浮点运算（FLOPs），平均时间为20秒。同时，它还支持激励量化，并兼容多种阵列配置和元件模式。与现有的波束成形方法相比，本文展示了并发的多功能性、对复杂和高维问题的更广泛适用性以及更高的计算效率。

引言

携带轨道角动量（OAM）的涡旋波束因其提供了除了时间和频率之外的一个未充分利用的自由度而受到广泛关注。涡旋波具有特殊的螺旋相位剖面，该剖面随方位角φ变化，并且电场（E场）强度呈环形分布。此外，OAM具有无限多的本征态l，每个本征态都是正交的且彼此独立。中心奇点和扩散波束的存在限制了EM涡旋波束的利用（Li等人，2024年）。然而，它们提高频谱效率和传输容量的潜力使其在无线通信中得到应用（Guo等人，2022年；Noor等人，2022年）。最近的研究还展示了它们在雷达检测和成像的射频（RF）领域的应用（Wang等人，2022年）。特别是具有低旁瓣（Khan等人，2022年）、零指向（Tian等人，2021年）、共发散（Yang等人，2025年）和多模（Chen等人，2020年）特性的涡旋波束对于提升基于OAM的应用性能至关重要。尽管如此，生成和接收所需的涡旋波束仍然是一个未解决的问题。

目前，RF涡旋波束成形方法可以分为三种主要类型：单天线、天线阵列和超表面。在单天线设计中探索了各种相位调制结构，包括螺旋相位板（Hu等人，2024年）、行波环谐振器（Xiong等人，2020年）、介质谐振器（Yu等人，2020年）等。尽管结构简单且易于实现，但这些天线只能支持特定的模式。为了实现定制的涡旋波束，人们研究了使用辐射模式合成的超表面和天线阵列。超表面通过操纵入射的EM波来实现涡旋波束的合成（Shuang等人，2020年；Tao等人，2025年；Yang等人，2022年；Zhou等人，2023年）。然而，大多数报道的工作仅允许定量相位调制，缺乏对超原子的幅度控制，这可能会降低波束模式的性能。

通过分析和优化方法，可以适当激发天线阵列以辐射可调的OAM波束。对于均匀圆形（Yu等人，2022年；Yu和Kou，2023年；Zhao等人，2025年）、矩形（Cho和Byun，2019年；Nemitz和Chevalier，2024年）和椭圆形阵列（Xue等人，2022年），已经报告了具有封闭形式表达式的分析解。然而，大多数分析模型仅适用于某些阵列，并且只能实现单一功能。或者，可以使用全局优化方法来解决波束成形问题。在Dang等人（2025年；Wang等人（2023年）的研究中，分别应用了基于遗传算法（GA）的合成方法来获得高纯度欺骗性OAM模式的均匀环阵列和抑制旁瓣。传统优化算法的性能高度依赖于问题的维度。处理大型阵列时，这些程序耗时较长，甚至可能无法收敛到最优解。通过将分析方法与稀疏优化程序相结合，基于多极矩展开（MME）的合成方法能够在保持较低计算复杂度的同时实现合理的精度（Zhu等人，2023年）。

神经网络（NN）凭借其强大的非线性映射能力，已被证明是建模和设计有源电路（Charoosaei等人，2022年；Pirrone等人，2024年）、无源元件（Roy和Wu，2022年）、天线结构（Liu等人，2024年；Peng和Chen，2024年）以及阵列天线（Cui等人，2022年；Gong等人，2020年；Li等人，2025年；Sun等人，2024年；Yang等人，2024年；Zou等人，2024年）的有效工具。在天线结构设计中（Liu等人，2024年；Peng和Chen，2024年），构建并训练了基于NN的模型，作为全波仿真的替代方案。这有助于加快EM响应的参数建模。然后，可以使用进化算法实现天线的优化设计。对于阵列天线，使用基于人工神经网络（ANN）的迭代算法合成了受掩模约束的模式（Cui等人，2022年；Sun等人，2024年）。采样的辐射模式作为网络的输出层，导致二维（2D）模式合成的模型复杂度过高和数据采集量巨大。通过结合差分进化（Gong等人，2020年）、粒子群优化（Yang等人，2024年）和基于迭代扰动的凸优化（Li等人，2025年）算法以及NN辅助的替代建模，也实现了阵列合成。与EM仿真相比，评估元件模式的计算时间显著减少。然而，当处理多个约束时，阵列优化的进化计算仍然需要大量时间。

在本文中，探索了一种混合NN，为有源相控阵系统提供涡旋波束成形方案，如图1所示。为了映射所需的OAM特征和所需的激励之间的关系，采用了具有三个全连接层的多层感知器（MLP）。然后接一个物理信息网络，以结合物理机制并预测涡旋波束模式特性。通过误差传播最小化期望性能与预测性能之间的差异，从而实现网络的更新和元件激励的优化求解。这些获得的激励用于控制相控阵中的可调移相器和功率衰减器。基于有源相控阵技术，所得到的涡旋波束模式可以在OAM模式、发散特性和零指向角度方面进行定制，同时具有低旁瓣水平和零深度。本文的主要贡献总结如下：

1) 提出了一种利用混合网络的方法。该方法将阵列的替代建模与元件激励的先进优化相结合。所建立的模型学习了复杂的非线性波束成形映射，进而指导与网络训练同时进行的优化过程。因此，该方法在不需要大量数据收集的情况下实现了更高的效率和效果，特别是对于具有多个约束的问题。
2) 物理信息网络进一步将学习范式从单纯的数据拟合转变为寻找物理指导的解决方案。这减少了了对密集层架构的依赖，并增强了模型的波束成形功能。这种可微网络促进了在整个网络训练期间由理论指导的波束模式生成和转换。它使相控阵能够执行多种功能，如旁瓣抑制、三维（3D）零指向、同轴多模生成和灵活的发散控制。这一独特能力将显著提高EM涡旋波束的适应性和同时控制能力。
3) 所提出的方法实现了全面和灵活的实现，包括激励量化、兼容多种阵列配置和元件模式。输出的复杂激励被量化，以满足商用设备施加的功率控制和移相约束。还可以应用阵列稀疏化来生成涡旋波束，同时减少元件总数、相关控制和功耗。除了主动元件模式（AEPs）外，该方法还可以使用孤立元件模式（IEPs），从而实现对大型阵列的准确波束成形。

本文的其余部分组织如下。第2节描述了所提出的基于混合NN的方法的框架及其原理。第3节展示了各种场景下的数值结果，以验证所提出方法的可行性和多功能性。第4节讨论了性能比较和实际挑战。第5节得出了结论。

框架

与可以使用数值模型进行的阵列分析不同，波束成形是一个没有精确解析解的逆问题。值得一提的是，涡旋波束模式的性能是从多个方面评估的，如OAM模式、波束发散和指向特性，以及旁瓣水平和零深度。因此，这个问题不能归类为传统的掩模约束波束模式合成。为了解决这个问题，提出了一种基于混合NN的方法

实验设置

为了验证该方法，进行了一系列数值实验。如图4所示，构建了一个16×16的均匀矩形阵列（URA），间距为0.5λ。选择这种元件间距是为了确保在宽扫描范围内适当的波束成形并避免光栅瓣。这里，使用工作频率为5.8吉赫兹（GHz）的微带贴片天线作为阵列中的辐射元件。在不失一般性的前提下，平面阵列被排列

比较分析

为了展示这项工作的优点，与现有的波束成形方法进行了比较。表2比较了各种涡旋波束成形方法的功能和通用性。关键功能包括零指向、多模生成、波束发散控制和旁瓣抑制。通用性从阵列类型、与稀疏阵列的兼容性以及模型逼真度等方面进行评估。对这些方面进行了直接和公平的定量比较（例如，旁瓣水平）

结论

本文提出了一种基于混合NN的方法，用于合成具有多种要求的涡旋波束。所建立的NN不仅作为天线阵列的替代模型，还作为元件激励的先进优化求解器。根据获得的结果，该方法可以应用于任意阵列（例如URA、UCCA和TLA），生成定制的零指向、共发散和多模涡旋波束。在这些阵列中，获得的性能是

CRediT作者贡献声明

康乐：撰写——原始草稿、方法论、概念化。 戴梦瑶：撰写——审阅与编辑、方法论、研究。 李辉：撰写——审阅与编辑、概念化。 王新怀：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了国家自然科学基金（项目编号：52475279）和国家重点研发计划（项目编号：2022YFB3306101）的支持。

摘要

引言

热点排行

新闻专题