《Applied Acoustics》:Predicting the age effects on concurrent vowel scores using a temporal jitter computational model
编辑推荐:
本研究通过神经图相似性指数模型,预测正常听力(NH)与老年听力(AH)听众在元音频率差异(F0)条件下的同步语音识别得分。NH模型显示F0差异增大识别率上升,AH模型引入时间抖动后同步性下降,识别率显著降低,验证了神经同步性在老年听力损失中的作用。
哈沙瓦德汉·塞蒂布哈克蒂尼(Harshavardhan Settibhaktini)、里蒂克·拉蒂(Rithik Rathi)、阿南塔克里希纳·钦坦帕利(Ananthakrishna Chintanpalli)
印度安得拉邦维沙卡帕特南GITAM技术学院(GITAM School of Technology,被认定为大学),电气、电子与通信工程系,邮编530045
摘要
元音之间的基频(F0)差异是检测同时出现的元音的关键线索。正常听力(NH)的听众在F0差异增大时,对两个元音的识别得分百分比更高,这一趋势在F0约为3赫兹时趋于稳定。在复杂的听觉环境中,老年听力(AH)的听众在F0差异范围内的同时元音识别得分会降低,这可能与听觉系统中神经同步性的年龄相关损失有关。为了理解这些年龄效应,本研究通过建模预测了NH和AH受试者在不同F0差异下的同时元音识别得分。NH模型使用了基于神经图相似性指数(NSIM)的听觉神经(AN)模型来预测同时元音得分,而非传统的F0引导分离方法。先前的行为研究表明,声学领域的时间抖动会导致神经同步性的年龄相关下降,从而降低识别得分。因此,在AH模型中加入了时间抖动因素,以从AN模型中获取神经图数据,并应用NSIM指标来预测AH受试者的同时元音得分。两种模型都从先前的行为数据中定性地预测了F0差异下的同时元音得分模式。卡方检验分析表明,模型预测结果与实际同时元音数据吻合良好。时间抖动AH模型的预测结果显示神经同步性降低,导致AH听众的同时元音识别得分下降。这些模型预测表明,时间抖动AH模型中的神经同步性下降可能是导致F0差异下同时元音识别得分降低的原因。
引言
正常听力(NH)的听众在复杂的听觉环境中会利用多种线索来区分不同说话者的声音。这些线索包括声音强度和持续时间的变化、语音的频谱特征以及说话者之间的基频(F0)差异[1]、[2]、[3]。说话者之间的F0差异是语音识别研究中最重要的线索之一。同时元音识别实验通过向听众的一只耳朵呈现两个具有相同持续时间和强度的稳态合成元音,要求听众区分这两个元音。观察到的识别得分百分比随着F0差异的增加而提高,通常在3赫兹或更高时趋于稳定[4]、[5]、[6]、[7]。
老年听力(AH)或年龄较大的听众的整体听觉能力会下降,他们在理解声音方面需要比年轻听众更多的帮助。许多行为研究表明,随着年龄的增长,F0差异线索对识别能力的影响会减弱。Snyder和Alain[8]发现,两个元音的识别得分都随着年龄的增长而下降,且这种下降在不同的F0差异下是一致的。其他行为研究也发现了类似的识别得分下降现象[5]、[9]。然而,下降的程度因受试者群体而异。Chintanpalli等人[7]在同一研究中考察了年龄和听力损失对识别得分百分比的影响,涉及三个不同的受试者群体。因此,一个共同的观察结果是,随着年龄的增长,整体听觉能力会下降。这些发现表明,年龄导致的解剖学和生理学变化会影响利用F0差异线索进行同时元音识别的能力。
由于年龄引起的听觉处理过程中的解剖学和生理学功能变化已被广泛研究。老年听力问题的可能解释包括内耳电位下降[10]、毛细胞损伤[12]、耳蜗突触病变[14]、[15]。此外,生理学研究也表明,听觉系统在不同阶段的神经时间同步性会随年龄增长而下降[16]、[17]、[18]。Pichora-fuller等人[16]通过行为研究发现,在低频语音成分中引入基于模拟的时间抖动会降低年轻成年人的识别性能,且带有抖动的年轻成年人的识别得分与老年成年人相似。这表明时间抖动可能导致神经同步性的丧失,可能是解释老年成年人听觉理解能力下降的原因之一。因此,可以利用时间抖动来模拟衰老听觉系统中观察到的神经同步性下降。
已经有许多尝试创建计算模型,以准确表示NH受试者在不同F0差异下的元音识别模式[4]、[19]、[20]、[21]。Meddis和Hewitt[19]的模型利用基于F0的神经响应分离算法成功预测了识别得分。随后,同样的F0引导分离算法也被用于其他建模研究,包括使用更现代的AN模型来预测NH受试者的同时元音得分[4]、预测NH受试者随时间变化的同时元音得分[20],以及结合年龄和听力损失的影响来预测不同受试者群体的同时元音得分[21]。
根据行为研究结果,时间抖动可以用于计算建模框架中,以预测老年成年人的识别得分。然而,目前还没有模型将时间抖动纳入预测老年成年人得分的框架中。因此,本研究的目的是预测NH和带有时间抖动的AH模型在不同F0差异下的同时元音识别得分百分比。在NH模型中,同时元音通过一个生理上真实的AN模型进行处理[22]。模型的输出是不同特征频率(CF)下的刺激周围时间直方图(PSTH)神经响应。这些PSTH响应提供了关于AN纤维对声学刺激的相位锁定能力的宝贵信息。通过PSTH响应的短时傅里叶变换生成神经图。神经图以图形方式展示了听觉系统如何解释输入的声学刺激,它通过模拟AN纤维在广泛CF范围内的响应构建了一个二维表示。这种神经图数据集涵盖了六个F0差异条件下的20对元音。最后,使用神经图相似性指数(NSIM)来获取每个F0差异下的识别得分百分比。在AH模型中,每个同时元音通过时间抖动算法处理,以破坏神经同步性。该算法模拟了带有抖动的同时元音,随后再通过NH模型获取不同F0差异下的识别得分。主要假设是,带有时间抖动的AH模型的总体得分将低于NH模型,这与行为数据一致。由于本研究纯粹基于建模,因此使用Snyder和Alain[8]的行为数据对结果进行了验证。
方法
使用听觉神经模型[22]来模拟理想听觉条件下的神经响应(图1(a))。该模型使用同时元音对作为刺激,并通过引入原始刺激的延迟来破坏同步性和谐波结构,从而模拟听觉老化系统(图1(b))。最后,比较了两组输入(正常和带有抖动)的元音识别得分。
结果与讨论
图2显示了接近F2(2.25 kHz)的特征频率(CF)下元音/i/的同步率(SR)。SR是从PSTH的傅里叶变换幅度中获得的,以每秒的尖峰数表示。图2(a)展示了正常元音/i/的SR,其中AN纤维对第二共振峰(F2,频率约为2250 Hz)频率产生响应(显示神经同步)。图2(b)展示了另一个元音的SR
结论与未来工作
本研究预测了NH和AH受试者在不同F0差异下的同时元音识别得分。基于信号处理的AN模型[22]获取了不同F0差异下的同时元音的PSTH响应。从PSTH响应生成了神经图。这些神经图提供了不同CF下声学信息的听觉域表示。NH模型的识别得分百分比是通过NSIM指标计算得出的
作者贡献声明
哈沙瓦德汉·塞蒂布哈克蒂尼(Harshavardhan Settibhaktini):撰写 – 审稿与编辑、初稿撰写、监督、方法论设计、概念构建。
里蒂克·拉蒂(Rithik Rathi):初稿撰写、软件开发、资源准备、方法论设计。
阿南塔克里希纳·钦坦帕利(Ananthakrishna Chintanpalli):审稿与编辑、监督、软件开发、方法论设计。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究部分得到了哈沙瓦德汉·塞蒂布哈克蒂尼的SEED/TIDE/2023/1322项目(属于印度政府科学技术部的“残疾人及老年人技术干预”(TIDE)计划的支持,以及阿南塔克里希纳·钦坦帕利的CRG/2023/005678项目(由印度政府Anusandhan国家研究基金会资助)的支持。