语音表达感知中的歧义性:来自嗓音融合及其电生理相关性的证据

《NeuroImage》:Ambiguity in vocal expression perception: Evidence from voice morphing and its electrophysiological correlates

【字体: 时间:2026年05月11日 来源:NeuroImage 4.5

编辑推荐:

  态度韵律(如自信、意愿)传递丰富的声学线索以传达说话者意图与信念,在自然言语交际中起关键作用。神经认知研究多集中于从无歧义的“典型嗓音”中推断态度,而对歧义嗓音的神经机制探索不足——尤其与情绪韵律相比,这在副语言社会认知加工的理解上留下关键空白。研究者采用嗓音

  
态度韵律(如自信、意愿)传递丰富的声学线索以传达说话者意图与信念,在自然言语交际中起关键作用。神经认知研究多集中于从无歧义的“典型嗓音”中推断态度,而对歧义嗓音的神经机制探索不足——尤其与情绪韵律相比,这在副语言社会认知加工的理解上留下关键空白。研究者采用嗓音融合(voice morphing)技术混合两种对立效价的态度典型嗓音,记录被试的效价评分与脑电图(EEG)反应。数据分析结合基于单试次数据的线性混合效应模型传统ERP分析,以及多元方法(多元时间响应函数[mTRF]、多变量模式分析[MVPA])。行为上,歧义嗓音引发更长反应时与中间效价评分。神经层面,歧义嗓音表现出类似正性嗓音的P2(274–324 ms)、类似负性嗓音的N400样负波(400–450 ms),以及区别于典型嗓音的稳健晚期持续负波(LSN;700–1600 ms)。控制声学参数后早期效应(N1/P2/N4)消失,证实其反映声学加工,而LSN持续存在——索引对态度歧义的神经响应。mTRF验证在控制声学因素后歧义嗓音更强的晚期神经追踪;MVPA揭示声学编码与语用推理间的跨时间早–晚功能耦合。这些发现表明大脑将歧义态度韵律视为独特类别,参与专门级联:增强的早期声学辨别、分级效价评估、精细语义加工及费力语用推理。该研究将多阶段模型从情绪扩展至态度韵律,通过强调歧义解决中的交互神经动态挑战严格串行解释。
研究人员针对态度韵律歧义加工的神经机制空白,开展了一项结合嗓音融合技术与多模态脑电图分析的研究,相关成果发表在《NeuroImage》。研究旨在阐明大脑如何处理自然言语中常见的歧义态度表达,区分其与典型(明确)态度的神经动态差异,并验证态度韵律与情绪韵律的加工分离。
关键技术方法包括:采用TANDEM-STRAIGHT融合技术生成典型正性/负性态度嗓音的连续体;招募32名中国大学生完成效价评分任务并记录EEG;结合传统ERP分析(线性混合效应模型控制声学协变量)、多元时间响应函数(mTRF)与多变量模式分析(MVPA)解析神经动态。样本队列包含通过情景指导录制的专业发声者材料,经预实验验证典型性后用于主实验。

研究结果

行为结果

效价评分显示歧义嗓音评分介于正性与负性之间,反应时(RT)呈正性<负性<歧义的顺序,表明歧义加工需更多认知努力。温暖(欲望/不情愿)与能力(自信/怀疑)维度的行为模式一致,支持后续分析合并维度。

事件相关电位(ERP)

  • N1(176–226 ms):无显著效价主效应,但效价×脑区交互显著,负性嗓音在前部/中央区比正性更负(边缘显著)。控制声学协变量后效应消失,反映早期声学驱动。
  • P2(274–324 ms):效价主效应显著,负性嗓音比歧义/正性嗓音波幅更低,歧义与正性无差异。控制协变量后效应消失,表明其反映声学处理。
  • N4样负波(400–450 ms):无主效应,但效价×脑区交互显著,正性嗓音比歧义/负性嗓音在前部区更不负。控制协变量后效应消失。
  • 晚期持续负波(LSN,700–1600 ms):效价主效应显著,歧义嗓音比正性/负性嗓音诱发更大负波,控制声学/行为协变量后仍稳健,索引高阶认知评估。

聚类置换检验

数据驱动验证两个显著时空簇:早期(218–372 ms,对应P2)与晚期(692–1600 ms,对应LSN)。歧义嗓音比正性/负性嗓音诱发更大晚期负波,典型条件间无差异,支持ERP结果。

多元时间响应函数(mTRF)

拟合TRF显示两阶段模式:早期(0–0.2 s)无显著效价差异,晚期(0.6–1.0 s)歧义嗓音神经追踪强于负性,后期强于正性。声学-认知模型优于纯声学模型,表明大脑独立评估效价。

多变量解码(MVPA)

时间解码显示晚期(740–1600 ms)可区分效价,交叉时间解码揭示早–早、晚–晚及新颖早–晚功能耦合,表明早期声学编码与晚期社会推理的神经表征重叠。

讨论与结论

研究揭示歧义态度韵律加工的神经层级:早期声学编码(N1/P2,声学驱动)、中期社会预期失配(N4样负波)、晚期歧义解决(LSN,认知核心)。LSN反映工作记忆维持、语用推理及错误表征抑制,区别于典型态度的晚期持续正波(LSP)。早期–晚期间功能耦合挑战串行模型,支持声学与认知的交互动态。
与情绪韵律相比,态度韵律表现更早N1效价效应(不稳定)与稳健 positivity bias(正性加工更快),反映社会亲和动机的早期优先。理论层面,扩展情绪韵律三阶段模型至态度领域,强调歧义解决的独特晚期机制;方法上,嗓音融合结合多变量分析为副语言歧义研究提供范式。
结论:大脑将歧义态度韵律视为独特类别,通过增强早期声学辨别、分级效价评估及费力语用推理解决歧义,扩展多阶段模型并揭示交互神经动态,深化对社会情感交际复杂性的理解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号