基于Q学习的持续预测性注意力强化机制，采用优先级经验回放策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　针对传统注意力机制依赖静态相似度函数导致动态适应能力不足的问题，本文提出Q-Attention框架，将Q-learning与注意力机制结合，通过离散动作调整注意力权重，利用任务损失作为可微分奖励信号，并引入优先级经验回放和持续预测学习模块，有效优化动态环境下的权重分配，在多个基准数据集上验证了其性能优势。

赵立成|左毅

大连海事大学导航学院，中国辽宁省大连市凌海路1号，110026

摘要

大型语言模型（LLMs）作为基于Transformer架构的生成式人工智能系统，被广泛应用于语言理解、问答、数学推理和代码生成等复杂任务中，其核心功能依赖于注意力机制。然而，传统的注意力机制受到静态、预定义的相似性函数的限制，这些函数引入了固定的归纳偏见。这些偏见阻碍了模型对动态或非静态环境的适应能力，导致权重分配不理想，甚至在稳定环境中出现注意力崩溃或消失的情况，从而削弱了其建模上下文依赖语义关系的能力。为了解决这些问题，本文提出了Q-Attention，这是一种新颖的、以价值为导向的、基于反馈的框架，它将注意力权重表示为状态，将离散扰动表示为动作（即减少、增加或保持不变），通过Q学习实现奖励驱动的权重优化。该方法使用任务损失作为可微分的奖励信号，并结合优先级经验回放来引导策略更新，以实现高影响力的调整。此外，连续预测收益模块通过从历史经验中重建注意力状态转换来提高随机环境中的训练稳定性。在基准任务上的评估表明，Q-Attention的表现始终优于标准注意力机制：在CIFAR-10和Fashion-MNIST数据集上，平均准确率提高了1.14%；在Traffic和Japanese Vowels数据集上，平均绝对误差降低了7.11%，同时准确率提高了2.06%，验证了其在动态注意力权重优化方面的有效性。

引言

近年来，注意力机制因其在深度学习和强化学习等模型中的应用而受到人工智能领域科学家的广泛关注[1]、[2]、[3]。注意力机制能够动态调整焦点，专注于关键信息并忽略次要内容，从而有效提高模型学习和准确性[4]，同时也大大增强了神经网络的可解释性[5]。

注意力机制的成功通常归因于它们使用得分函数来确定输入信息中查询Q和键K之间的相关性[6]，并通过

函数映射来获取权重信息[7]。在自然语言处理（NLP）[8]、计算机视觉（CV）[9]和工程[10]、[11]等许多领域，深度学习的最新进展依赖于注意力机制的应用，这使得模型在处理任务时能够更有效地关注相关信息，从而提高学习效率和最终性能。

然而，尽管取得了广泛的成功，传统的注意力机制仍然受到其依赖于静态、预定义的相似性度量（如点积、乘法交互或加法评分[12]、[13]）的根本限制。虽然这些操作提供了计算效率和数值稳定性，但它们编码了固定的归纳偏见，难以捕捉复杂的、上下文依赖的或非线性的语义依赖关系，特别是在动态或非静态环境中[14]。与更具适应性的架构相比，这一局限性尤为明显。Hinton等人[15]在胶囊网络中引入了动态路由机制，其中耦合系数通过来自高级别预测的自上而下的反馈进行迭代优化。这种反馈循环使系统能够根据预测输出和实际输出之间的一致性调整信息路径，有效建模复杂的部分-整体关系。这种机制突显了标准注意力机制的一个关键缺陷：缺乏能够根据不断变化的任务需求或环境不确定性指导权重适应的动态、以价值为导向的反馈[16]。为了弥合这一缺陷，我们从基于价值的强化学习（RL）中获得了灵感，在RL中，代理在奖励信号的引导下与环境互动以学习最优策略[17]、[18]。与静态相似性函数相比，RL提供了一个有效的长期目标导向优化框架，使注意力权重能够根据全局性能结果进行适应性调整，而不仅仅是基于局部特征匹配。

为了解决这些限制，我们提出了Q-Attention，这是一种新颖的、以价值为导向的注意力框架，它将Q学习与注意力机制相结合，以实现动态的、基于经验的权重优化。我们的方法用一个可学习的策略替换了固定的相似性度量，该策略通过与特定任务的奖励环境互动来适应性地调整注意力权重。为了确保样本效率和学习稳定性，我们结合了优先级经验回放[19]来优先处理高价值的状态转换，并引入了基于回放的连续预测学习（CPLEAR）[20]模块，该模块通过从存储的经验中克隆行为来重建注意力状态之间的转换动态，从而减轻由随机状态演变引起的不稳定性。

Q-Attention的核心包括三个阶段：（1）基于注意力权重配置构建离散的状态-动作空间；（2）通过基于损失的奖励信号驱动的Q值更新迭代优化注意力权重；（3）利用训练期间记录的历史最优权重调整序列来实现高效的、有指导的推理。本工作的主要贡献如下：

•

本文提出了第一个以价值为导向的注意力权重优化框架，通过Q学习动态优化权重分配策略。

•

引入了一种目标导向的、基于交互的优化架构，显著提高了在非静态或高不确定性环境中的建模能力。

•

通过连续预测学习重建注意力状态转换，有效减轻了由随机动态引起的不稳定性，从而提高了Q-Attention的训练稳定性。

第二部分回顾了与注意力机制相关的工作。第三部分介绍了所提出的方法。第四部分通过实验验证了Q-Attention的有效性。第五部分总结了研究工作并展望了未来的研究方向。

部分片段

基本注意力机制

注意力机制是一种计算方法，通过权重分配实现关键信息的集中处理，从而提高模型性能和上下文建模能力。它在计算机视觉（CV）、自然语言处理（NLP）和智能交通系统中的广泛应用吸引了大量研究关注[9]、[21]、[22]、[23]，表1总结了该领域的当前研究重点。

权重分配机制构成了注意力机制的核心。

问题陈述

为了克服传统注意力机制的局限性（这些机制依赖于固定的评分函数），并改进权重分配，我们提出了一种结合激励反馈和注意力机制的权重分配方法。假设我们有一个特征集

=

，其中每个特征都有一个初始权重

。通过将Q学习与注意力机制相结合，我们可以定义一个新的权重更新公式。

其中

代表集成Q学习机制的注意力函数，

表示

数据描述

在实验中，我们使用两个数据集测试了我们的方法：图像分类和时间序列预测。

图像分类。 CIFAR10数据集包含60,000个样本[42]，分为50,000个训练样本和10,000个测试样本，每个样本是一个32像素的RGB图像，每个图像有3个通道。数据集中的图像被分为10个不同的类别。Fashion-MNIST数据集[43]由Zalando Research提供，包含70,000张图像，其中60,000张用于训练，10,000张用于

结论与未来工作

本研究提出了一种基于Q学习的注意力机制权重优化框架，旨在解决传统注意力机制中固定权重分配策略导致的动态适应性不足的问题。通过将注意力权重的调整建模为一个带有激励反馈的策略学习过程，该框架采用了三种离散动作，结合贪婪策略动态优化注意力权重的分布。

CRediT作者贡献声明

赵立成：撰写——原始草案、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化
左毅：撰写——审阅与编辑、验证、监督、资源管理、方法论、资金获取、概念化、项目管理

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了中国国家自然科学基金（项目编号52131101）和大连市杰出青年科学家科学技术基金（项目编号2021RJ08）的支持。

赵立成是中国大连海事大学交通信息工程与控制专业的博士生。他于2019年在厦门华夏大学获得物流工程学士学位，2022年在大连海事大学获得交通工程硕士学位。他的研究兴趣包括深度学习、数据科学和智能交通系统。

联系信箱：

粤ICP备09063491号

摘要

引言