基于等级顺序编码的神经模型：连接语音感知与运动规划的等级层次框架

【字体：大中小】 时间：2026年03月13日 来源：Neural Networks 6.3

编辑推荐：

　　这篇论文探讨了如何从声学输入到前句法结构（proto-syntax）的神经编码与生成机制。研究者们受STG-LIFG-PMC通路启发，构建了一个基于等级顺序（rank-order）编码的神经网络模型。该模型展示了从语音输入到抽象等级表征的“自下而上”压缩编码能力，以及从该等级表征重建完整语音序列的“自上而下”生成能力。研究结果表明，等级编码不仅能高效压缩输入，还能支持对抽象语法结构的表征，模拟了婴儿早期语音习得中感知-运动整合与语法结构习得的过程，为理解语音到语法的神经过渡提供了计算模型支持。

婴儿是如何从咿呀学语过渡到能够说出具有结构规律的词语的？这背后涉及到大脑如何从连续的语音流中识别模式，并最终将其转化为可规划的发音动作。理解从语音输入到前句法结构的神经表征与生成机制，是语言习得和认知科学的核心问题。然而，我们对于大脑如何内部表示声音序列的层级结构，以及这种结构如何从感知过渡到运动规划，仍知之甚少。当前研究面临的一个关键挑战是，如何建模一种既能够有效压缩连续的听觉输入，又能从中提取抽象、规则性结构，并支持从这些抽象结构生成具体发音序列的神经机制。为了回答这个问题，研究者们将目光投向了一种特殊的编码方式——等级顺序编码。

受大脑处理语言的双背侧通路理论启发，特别是STG（颞上回）-LIFG（左额下回）-PMC（前运动皮层）通路，一个由Xiaodan Chen、Alexandre Pitti、Mathias Quoy和Nancy F. Chen组成的研究团队，在《Neural Networks》期刊上发表了一项研究。他们构建了一个创新的、基于等级顺序编码的神经网络模型。这个模型的核心假设是：等级顺序编码不仅是一种高效的压缩方案，更能作为一种“语法”，支持对语音序列的层级结构化表征，即“前句法”。该研究旨在通过计算建模，模拟婴儿从语音感知到前句法结构习得，再到发音运动规划的全过程。

为了验证这一假设，研究人员主要采用了以下几种关键技术方法：首先，模型架构上，他们设计了一个受大脑双背侧通路启发的双循环神经网络。第一个循环模拟STG到PMC的直接感觉运动映射通路，用于快速模仿音素大小的语音单位。第二个循环模拟STG到LIFG再到PMC的前句法处理通路，负责将具体的索引序列转化为抽象的等级表征，并利用该表征进行序列规划和生成。其次，在数据处理上，他们使用了来自LibriSpeech语料库的英语语音数据，提取梅尔频率倒谱系数作为声学特征输入。通过一个自组织映射网络对输入进行聚类，并利用预测编码机制从获胜神经元索引中构建“索引块”。接着，运用等级顺序变换，将索引块转化为抽象的“等级块”，从而实现对序列相对顺序信息的编码。最后，在网络训练与评估上，他们采用了两阶段训练策略，先训练并冻结感觉运动通路，再训练前句法通路，并通过一系列精心设计的实验来评估模型的压缩效率、序列生成能力、新颖性检测以及对结构扰动的敏感性。

研究团队开展了一系列实验，系统地验证了等级顺序编码模型的多方面能力，结果部分清晰地展示了模型的性能。

在“等级作为一种高效压缩空间”的实验中，研究者比较了不同时长语音数据下，原始MFCC特征、唯一索引块和唯一等级块的数量增长。他们发现，当块长度小于8时，等级块的数量增长远慢于索引块，表现出强大的压缩能力。而当块长度接近10时，这种压缩优势开始消失。基于此，并结合工作记忆容量的理论，研究者在后续实验中选择了块长度为6，以在结构敏感性和表征效率之间取得平衡。这一结果表明，等级顺序编码能够从具体的感知输入中提取出高度压缩的抽象结构。

接着，在“使用固定大小滑动窗口进行连续序列生成”的实验中，模型展现了其从部分线索重建完整序列的强大能力。在一个试点实验中，研究者测试了模型仅凭已知部分索引来重构整个6长度索引序列的表现。结果显示，即使只有一个索引未知，模型也能在有限迭代内实现完美重构。基于此，研究者进一步采用了一个滑动窗口机制，让模型仅凭5个已知的起始索引，以自回归的方式成功生成了长度为10的完整索引序列。这证明了等级表征作为一种“前句法”语法，能够稳定地指导序列的生成，并抵抗递归预测中常见的漂移问题。

为了探究模型的认知相关性，研究者在“全局新颖性检测”实验中，试图复现人类脑电研究中观察到的P3b波。P3b是与检测意外刺激相关的事件相关电位成分，在序列违反已习得的全局规则时会出现。研究者向模型输入遵循特定等级模式（如A⁴B）的“伪6-gram”刺激，然后插入违反该模式的新序列。结果发现，模型的“等级层”对违反已习得等级模式的新序列产生了强烈的“全局响应”，这与人类大脑对违反抽象语法规则的刺激产生P3b波的现象相似。这表明，等级顺序编码能够支持类似语法的、对全局序列结构敏感的表征机制。

最后，在“索引水平与等级水平扰动的敏感性”实验中，研究者测试了模型对不同类型序列偏差的鲁棒性。他们向模型输入局部（索引水平）被扰动或全局（等级水平结构）被扰动的序列。结果显示，模型对索引水平的局部扰动（例如，替换序列中的个别项目）表现出较强的鲁棒性，意味着其表征对具体的表面变化不敏感。然而，模型对等级水平的全局结构扰动（例如，改变项目的相对顺序模式）则表现出高度敏感性。这种“对表层变化的鲁棒性”与“对抽象结构违规的敏感性”的组合，正是与前句法泛化相关的关键特征，进一步支持了等级编码能够表征层级语法结构的观点。

综合所有实验结果，本研究得出了明确的结论：等级顺序编码可以作为连接语音学和前句法的有效桥梁。研究者提出的脑启发神经网络模型成功地模拟了从听觉输入到抽象等级表征（前句法）的自下而上转换，以及从该等级表征到具体运动序列生成的自上而下投射。该模型不仅展示了高效的数据压缩能力，还能从部分线索重建完整话语，并表现出对抽象结构违规的敏感性，这些特性与人类语言处理中对语法结构的敏感性相吻合。

这项研究的意义深远。在理论上，它为一个长期存在的问题——大脑如何从连续的语音流中提取并利用层级结构——提供了一个具体的、可计算的机制模型。它将感觉运动学习与更高级的句法结构习得联系了起来，支持了语言发展是建立在感觉运动基础之上的观点。在方法上，该研究为未来探索更复杂的语言结构和认知过程提供了一个强大的计算框架。模型中对STG-LIFG-PMC通路的模拟，也加深了我们对这些脑区在语言处理中特定功能的理解。最终，这项研究推动了我们对于人类最独特能力之一——语言——的神经计算基础的认识，为开发更类人的语音处理人工智能模型提供了新的思路。

热点排行