你所需要的只是关注 [来自编辑]

《IEEE Control Systems》：Attention Is All You Need [From the Editor]

【字体：大中小】 时间：2026年06月08日 来源：IEEE Control Systems 6.3

编辑推荐：

　　本文的标题来源于一篇极具影响力的论文[1]，该论文被引用超过20万次，位列21世纪被引用最多的前十篇论文之列。“注意力”（attention）这一概念与一种名为Transformer的神经网络架构相关，这种架构被应用于大型语言模型（LLMs）中，它允许模型权衡序列中不

本文的标题来源于一篇极具影响力的论文[1]，该论文被引用超过20万次，位列21世纪被引用最多的前十篇论文之列。“注意力”（attention）这一概念与一种名为Transformer的神经网络架构相关，这种架构被应用于大型语言模型（LLMs）中，它允许模型权衡序列中不同单词的重要性，从而有效解决规模问题。这一概念的具体发展可以追溯到循环神经网络（RNNs），RNN通过让模型专注于输入序列中的特定相关部分而非平等对待所有输入来提升性能。这是通过利用网络结构高效编码和解码与语言建模相关的单词序列来实现的。注意力概念从RNN发展到长短期记忆（LSTM），最终在LLMs中得到广泛应用，尤其是广受欢迎的ChatGPT。

尽管注意力概念在语言领域的机器学习工具革新中发挥了核心作用，但值得提醒的是，注意力是一个具有广泛适用性的术语。让我们从简单的定义开始：注意力是指有选择地集中注意力于特定信息、刺激或任务，同时忽略其他事物的认知过程，通常涉及仔细观察、倾听或思考。因此，这一认知过程成为艺术、科学乃至整个人类活动的基石。苏珊·桑塔格（Susan Sontag）在一篇毕业典礼演讲中曾说过这样一句话[2]：“注意力就是活力。它将你与他人联系在一起，让你保持渴望。永远保持渴望。”哲学家兼小说家艾里斯·默多克（Iris Murdoch）也认为：“对细节的关注能让我们更接近真相。”

所有物理系统、工程系统以及控制系统中的动态系统都将注意力作为基本要素。

在我们熟悉的领域中，所有物理系统、工程系统以及控制系统都将注意力视为基本组成部分。我们的基础模型

x ˙ = a x + b u

查看源代码

说明了你通过a关注过去的程度，而b则指出了你需要对新输入给予的关注程度。注意力是持续兴奋（persistent excitation）概念的重要组成部分：当输入数据位于已经完成参数识别的同一子空间时，就无法实现学习。注意大数据中是否包含新信息是非常重要的。在我们的领域中，有许多关于注意力的研究亮点。

注重细节至关重要。仔细观察和倾听也很重要。因为“高尚的思想来自宇宙的各个方向”[3]。令我印象深刻的是，许多获奖者谈到灵感是如何以完全出乎意料的方式出现的[4]：可能是同事的一次随意评论，可能是某个完全不同领域的人的演讲，或者只是偶然看到的一篇文章。所以要保持警惕，机会总是会敲两次门！

允许灵感涌现是我撰写这些专栏文章的一部分过程。对于这篇文章的灵感，来源于与我们的编辑委员会成员卡梅伦·诺瓦扎里（Cameron Nowzari）的对话，他提到了2017年的《神经信息处理系统》（Neural Information Processing Systems）论文[1]》，这为我上面的思考提供了方向。我还要感谢桑德拉·诺顿（Saundra Norton），她让我了解了文献中关于“注意力”的讨论。—阿努拉达·安娜斯瓦米（Anuradha Annaswamy）