语音表达感知中的歧义性：来自嗓音融合及其电生理相关性的证据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《NeuroImage》：Ambiguity in vocal expression perception: Evidence from voice morphing and its electrophysiological correlates

【字体：大中小】 时间：2026年05月11日 来源：NeuroImage 4.5

编辑推荐：

　　态度韵律（如自信、意愿）传递丰富的声学线索以传达说话者意图与信念，在自然言语交际中起关键作用。神经认知研究多集中于从无歧义的“典型嗓音”中推断态度，而对歧义嗓音的神经机制探索不足——尤其与情绪韵律相比，这在副语言社会认知加工的理解上留下关键空白。研究者采用嗓音

态度韵律（如自信、意愿）传递丰富的声学线索以传达说话者意图与信念，在自然言语交际中起关键作用。神经认知研究多集中于从无歧义的“典型嗓音”中推断态度，而对歧义嗓音的神经机制探索不足——尤其与情绪韵律相比，这在副语言社会认知加工的理解上留下关键空白。研究者采用嗓音融合（voice morphing）技术混合两种对立效价的态度典型嗓音，记录被试的效价评分与脑电图（EEG）反应。数据分析结合基于单试次数据的线性混合效应模型传统ERP分析，以及多元方法（多元时间响应函数[mTRF]、多变量模式分析[MVPA]）。行为上，歧义嗓音引发更长反应时与中间效价评分。神经层面，歧义嗓音表现出类似正性嗓音的P2（274–324 ms）、类似负性嗓音的N400样负波（400–450 ms），以及区别于典型嗓音的稳健晚期持续负波（LSN；700–1600 ms）。控制声学参数后早期效应（N1/P2/N4）消失，证实其反映声学加工，而LSN持续存在——索引对态度歧义的神经响应。mTRF验证在控制声学因素后歧义嗓音更强的晚期神经追踪；MVPA揭示声学编码与语用推理间的跨时间早–晚功能耦合。这些发现表明大脑将歧义态度韵律视为独特类别，参与专门级联：增强的早期声学辨别、分级效价评估、精细语义加工及费力语用推理。该研究将多阶段模型从情绪扩展至态度韵律，通过强调歧义解决中的交互神经动态挑战严格串行解释。

研究人员针对态度韵律歧义加工的神经机制空白，开展了一项结合嗓音融合技术与多模态脑电图分析的研究，相关成果发表在《NeuroImage》。研究旨在阐明大脑如何处理自然言语中常见的歧义态度表达，区分其与典型（明确）态度的神经动态差异，并验证态度韵律与情绪韵律的加工分离。

关键技术方法包括：采用TANDEM-STRAIGHT融合技术生成典型正性/负性态度嗓音的连续体；招募32名中国大学生完成效价评分任务并记录EEG；结合传统ERP分析（线性混合效应模型控制声学协变量）、多元时间响应函数（mTRF）与多变量模式分析（MVPA）解析神经动态。样本队列包含通过情景指导录制的专业发声者材料，经预实验验证典型性后用于主实验。

研究结果

行为结果

效价评分显示歧义嗓音评分介于正性与负性之间，反应时（RT）呈正性<负性<歧义的顺序，表明歧义加工需更多认知努力。温暖（欲望/不情愿）与能力（自信/怀疑）维度的行为模式一致，支持后续分析合并维度。

事件相关电位（ERP）

•
N1（176–226 ms）：无显著效价主效应，但效价×脑区交互显著，负性嗓音在前部/中央区比正性更负（边缘显著）。控制声学协变量后效应消失，反映早期声学驱动。
•
P2（274–324 ms）：效价主效应显著，负性嗓音比歧义/正性嗓音波幅更低，歧义与正性无差异。控制协变量后效应消失，表明其反映声学处理。
•
N4样负波（400–450 ms）：无主效应，但效价×脑区交互显著，正性嗓音比歧义/负性嗓音在前部区更不负。控制协变量后效应消失。
•
晚期持续负波（LSN，700–1600 ms）：效价主效应显著，歧义嗓音比正性/负性嗓音诱发更大负波，控制声学/行为协变量后仍稳健，索引高阶认知评估。

聚类置换检验

数据驱动验证两个显著时空簇：早期（218–372 ms，对应P2）与晚期（692–1600 ms，对应LSN）。歧义嗓音比正性/负性嗓音诱发更大晚期负波，典型条件间无差异，支持ERP结果。

多元时间响应函数（mTRF）

拟合TRF显示两阶段模式：早期（0–0.2 s）无显著效价差异，晚期（0.6–1.0 s）歧义嗓音神经追踪强于负性，后期强于正性。声学-认知模型优于纯声学模型，表明大脑独立评估效价。

多变量解码（MVPA）

时间解码显示晚期（740–1600 ms）可区分效价，交叉时间解码揭示早–早、晚–晚及新颖早–晚功能耦合，表明早期声学编码与晚期社会推理的神经表征重叠。

讨论与结论

研究揭示歧义态度韵律加工的神经层级：早期声学编码（N1/P2，声学驱动）、中期社会预期失配（N4样负波）、晚期歧义解决（LSN，认知核心）。LSN反映工作记忆维持、语用推理及错误表征抑制，区别于典型态度的晚期持续正波（LSP）。早期–晚期间功能耦合挑战串行模型，支持声学与认知的交互动态。

与情绪韵律相比，态度韵律表现更早N1效价效应（不稳定）与稳健 positivity bias（正性加工更快），反映社会亲和动机的早期优先。理论层面，扩展情绪韵律三阶段模型至态度领域，强调歧义解决的独特晚期机制；方法上，嗓音融合结合多变量分析为副语言歧义研究提供范式。

结论：大脑将歧义态度韵律视为独特类别，通过增强早期声学辨别、分级效价评估及费力语用推理解决歧义，扩展多阶段模型并揭示交互神经动态，深化对社会情感交际复杂性的理解。

联系信箱：

粤ICP备09063491号