本文的标题来源于一篇极具影响力的论文[1],该论文被引用超过20万次,位列21世纪被引用最多的前十篇论文之列。“注意力”(attention)这一概念与一种名为Transformer的神经网络架构相关,这种架构被应用于大型语言模型(LLMs)中,它允许模型权衡序列中不同单词的重要性,从而有效解决规模问题。这一概念的具体发展可以追溯到循环神经网络(RNNs),RNN通过让模型专注于输入序列中的特定相关部分而非平等对待所有输入来提升性能。这是通过利用网络结构高效编码和解码与语言建模相关的单词序列来实现的。注意力概念从RNN发展到长短期记忆(LSTM),最终在LLMs中得到广泛应用,尤其是广受欢迎的ChatGPT。
尽管注意力概念在语言领域的机器学习工具革新中发挥了核心作用,但值得提醒的是,注意力是一个具有广泛适用性的术语。让我们从简单的定义开始:注意力是指有选择地集中注意力于特定信息、刺激或任务,同时忽略其他事物的认知过程,通常涉及仔细观察、倾听或思考。因此,这一认知过程成为艺术、科学乃至整个人类活动的基石。苏珊·桑塔格(Susan Sontag)在一篇毕业典礼演讲中曾说过这样一句话[2]:“注意力就是活力。它将你与他人联系在一起,让你保持渴望。永远保持渴望。”哲学家兼小说家艾里斯·默多克(Iris Murdoch)也认为:“对细节的关注能让我们更接近真相。”
在我们熟悉的领域中,所有物理系统、工程系统以及控制系统都将注意力视为基本组成部分。我们的基础模型
\[\dot{x}={ax}+{bu}\]
注重细节至关重要。仔细观察和倾听也很重要。因为“高尚的思想来自宇宙的各个方向”[3]。令我印象深刻的是,许多获奖者谈到灵感是如何以完全出乎意料的方式出现的[4]:可能是同事的一次随意评论,可能是某个完全不同领域的人的演讲,或者只是偶然看到的一篇文章。所以要保持警惕,机会总是会敲两次门!
允许灵感涌现是我撰写这些专栏文章的一部分过程。对于这篇文章的灵感,来源于与我们的编辑委员会成员卡梅伦·诺瓦扎里(Cameron Nowzari)的对话,他提到了2017年的《神经信息处理系统》(Neural Information Processing Systems)论文[1]》,这为我上面的思考提供了方向。我还要感谢桑德拉·诺顿(Saundra Norton),她让我了解了文献中关于“注意力”的讨论。—阿努拉达·安娜斯瓦米(Anuradha Annaswamy)





