特征增益优化解释和预测人类选择性听觉的成败

《Nature Human Behaviour》：Optimized feature gains explain and predict successes and failures of human selective listening

【字体：大中小】 时间：2026年03月14日 来源：Nature Human Behaviour 15.9

编辑推荐：

　　推荐：本文报道了Griffith等人通过优化特征增益的人工神经网络模型，成功模拟了人类在“鸡尾酒会”场景下的选择性听觉行为。该模型无需模仿人类，即可在多变的真实环境中重现人类的听觉注意策略，包括基于语音特征和空间位置的选择，以及在人类易失败的条件下产生相似的选择失败。模型还预测了新的注意效应，并在人类实验中得以验证，揭示了“晚期选择”的特征，为理解特征增益在选择性听觉中的作用提供了新见解。

在喧嚣的日常环境中，比如人头攒动的社交聚会，我们的大脑能神奇地专注于倾听某一个人的讲话，而忽略其他并存的声源，这一经典难题被称为“鸡尾酒会问题”。这种选择性注意能力对有效沟通至关重要，但长期以来，科学界对其为何在一些条件下成功，在另一些条件下却会失败，缺乏根本性的理解。神经生理学研究提示，乘法特征增益可能是注意选择的机制，但这些增益是否足以解释现实世界中基于注意的行为，一直悬而未决。此外，虽然计算感官系统模型在解释人类对图像和声音的某些判断方面取得了显著进展，但它们大多尚未纳入注意机制。为了探究特征注意的计算基础，Josh H. McDermott 团队开展了一项研究，旨在测试一个配备了乘法特征增益的任务优化模型，是否能复制人类的选择性听觉行为。

为开展这项研究，团队主要运用了以下几个关键技术方法：首先，构建了包含可学习注意增益函数的深度神经网络听觉系统模型（特征增益模型）。其次，通过监督式深度学习，利用大量在模拟混响房间中空间化渲染的双耳音频数据对模型进行训练，任务是指定报告线索提示的目标说话者在混合音频中所说的中间单词。再次，在模型训练后，设计并实施了多项人类行为学实验，将模型在相同实验条件下的表现与人类参与者的表现进行系统比较，以评估模型是否重现了人类注意的多种特征。最后，利用训练好的模型对所有可能的目标-干扰源空间配置进行穷举式行为预测，筛选出新的注意效应假设，并在后续的人类实验中进行验证。

结果

特征增益模型在单耳条件下复现人类“鸡尾酒会”表现

在消除双耳空间线索的单耳条件下，特征增益模型大致复现了人类听者的整体表现，以及对信噪比和干扰源类型的依赖关系。模型在仅有一个干扰说话者的条件下表现与人类相似，表明其选择性注意能力达到了人类听者的水平。

模型复现了干扰源语言和性别的影响

人类注意选择在目标与干扰说话者性别不同、或干扰说话者使用听者不熟悉的语言时会得到改善。模型也表现出了这两种效应，表明它学习了依赖与人类相同的线索。

模型表现出类人的注意失败

即使在试图注意目标说话者时，人类有时也会错误地报告干扰说话者的话。模型的混淆率在较低信噪比以及目标与干扰源性别相同时也会增加，与人类表现出定量的相似效应。这表明一些选择失败是目标-干扰源特征相似性不可避免的结果。

模型复现了语音谐波性的影响

人类注意选择也依赖于语音信号的频率成分是否谐波相关。与人类类似，模型在并发干扰条件下，对非谐波语音和耳语语音的表现比对谐波语音更差。

模型复现了人类在噪音中的语音识别表现

模型再现了人类跨不同类型噪音干扰源的表现模式，与之前的语音识别模型结果一致。

模型复现了人类空间注意的特征

由于模型在来自不同位置声音的双耳音频上训练，它可以学习利用空间信息来帮助选择。模型展示了与人类相似的空间分离收益（空间掩蔽释放），表现为随着目标-干扰源方位角分离的增加，识别阈值降低。

模型复现了人类在虚幻空间分离下的优势

人类听者能从声源的虚幻分离中获益，例如由“优先效应”介导的分离。模型也从这种虚幻分离中获得了类似的益处，表明其学习的声音位置表征适应了反射的存在。

模型预测人类行为

利用模型可对大量实验条件进行廉价筛查的优势，研究者对所有可能的目标-干扰源位置组合进行了测试，并总结出两个突出的效应，随后在人类实验中进行了验证。

模型预测空间选择存在水平/垂直不对称性

模型预测，垂直方向上的偏移比水平方向上相同幅度的偏移产生的空间分离收益要小得多。人类行为实验证实了这一预测，表明水平偏移带来的空间掩蔽释放显著大于垂直偏移。

模型预测空间“聚光灯”的宽度存在中心/外周差异

模型预测，与位于中线（0°）的目标相比，位于外周（±90°）的目标需要更大的目标-干扰源空间分离才能获得收益。人类行为实验证实了这种差异，表明注意的空间“聚光灯”在中心更窄、更锐利，在外周则更宽。

模型表现出晚期选择的特征

人类听觉注意的一个标志是在听觉层级相对较晚的阶段（如非初级听觉皮层）增强目标声源的神经表征。在模型中，通过比较混合表征与目标或干扰源单独表征的相关性，发现目标选择的特征（即混合与目标的相关性高于混合与干扰源的相关性）仅在较晚的模型阶段变得明显。这表明增强发生在模型的相对晚期，与人类神经科学的发现定性地一致。

缺乏架构约束特征增益的模型与人类的相似性较低

为了研究特征增益这一归纳偏置的重要性，研究者训练了几个替代版本的模型进行比较。总体而言，特征增益模型解释了人类在所有实验中表现的许多差异，而这种解释力依赖于特征增益提供的架构约束。每个替代架构（如无显式增益函数的基线模型、增益在归一化后应用的模型、仅在早期或晚期应用增益的模型）都显示出显著较低的人-模型相似性，并且在某些条件下表现更不类人，特别是空间掩蔽释放更弱。这证实了乘法增益的架构偏置有助于重现类人的注意行为。

讨论

本研究通过优化解决“鸡尾酒会”问题的刺激可计算模型，研究了基于特征的注意。我们将记忆驱动的乘法特征增益加入标准的前馈神经网络架构，并优化模型仅根据双耳音频报告线索提示的说话者所说的单词。生成的模型复制了人类听觉注意的表型，在多种条件下表现出与人类相似的表现变化。模型还预测了人类空间选择的两个先前未记录的特性，并在人类听众中得到了验证。模型在人类容易失败的相同环境中出错，且程度大致相同。然而，模型的表现和人-模型相似性依赖于乘法增益的架构主题，在没有显式增益函数或增益仅限于早期或晚期模型阶段的模型中表现更差。这些结果为基于特征的注意可以用乘法增益来解释的观点提供了支持，并表明人类注意的成功和失败都反映了通过特征选择声源这一问题的优化解决方案。最后，对模型表征的检查显示了晚期选择的证据，为神经生理学中看到的效果提供了规范性的视角。

该研究框架是通用的，应适用于任何涉及基于特征的注意的行为。未来的工作可以扩展该框架，以纳入更灵活的注意控制、随时间演变的注意滤波器，并探索其在其他感觉模态中的应用。尽管这里构建的模型在许多方面与生物感觉系统不同，但随着训练更具生物真实性的模型成为可能，本文提出的通用框架应仍然适用。这项研究不仅深化了我们对人类听觉注意机制的理解，也为开发更强大的机器听觉系统和辅助听力技术提供了新的计算视角和理论依据。

热点排行

新闻专题