《Computer Speech & Language》:Leveraging synthetic speech: TTS-driven data augmentation for effective dysarthric speech recognition
编辑推荐:
针对坦米尔语失语症(DASR)的自动语音识别系统研究,通过文本转语音(TTS)技术合成数据解决数据稀缺问题。实验对比隐马尔可夫模型(HTS)、FastSpeech2和Tacotron2三种TTS模型,发现FastSpeech2生成的合成语音在保留失语症特征方面最优,结合真实数据后系统误码率(WER)分别降至3.49%(轻度)和13.17%(中度)。进一步混合使用FastSpeech2和Tacotron2数据可降低至2.67%和8.32%。
P. Vijayalakshmi|Anushiya Rachel Gladston|B. Ramani|M.P. Actlin Jeeva|K. Anantha Krishnan|T. Lavanya|T. Nagarajan
印度金奈Sri Sivasubramaniya Nadar工程学院电子与通信工程系
摘要
构音障碍是一种神经运动性言语障碍,会损害一个人的沟通能力。这需要借助沟通辅助工具来与人和计算机进行交流,通常采用自动语音识别(ASR)系统的形式。然而,传统的ASR系统在处理构音障碍语音时存在较高的错误率(WER),因此需要开发专门的构音障碍ASR(DASR)系统。在本研究中,使用SSN TDSC(泰米尔语构音障碍语音语料库)数据集开发了DASR系统,针对轻度和中度构音障碍。最初,使用原始构音障碍语音数据开发了一个基线DASR系统,其错误率分别为轻度9.71%和中度19.54%。为了开发低错误率的DASR系统,需要大量的构音障碍语音数据。但由于患者的医疗状况,录制数小时的语音数据非常困难。为了解决数据稀缺问题,我们探索了利用文本转语音(TTS)合成技术生成额外的构音障碍语音数据。本研究使用了多种TTS模型,包括基于隐马尔可夫模型的TTS(HTS)、FastSpeech2和Tacotron2来合成构音障碍语音。本研究重点探讨了合成语音应具备的特性,以提升DASR系统的性能,并确定了所需的构音障碍语音数据量。通过对合成语音的主观和客观评估,发现FastSpeech2在保留构音障碍语音特征方面表现最佳。使用FastSpeech2生成的增强数据进行训练后,轻度构音障碍的WER降低了3.49%,中度构音障碍的WER降低了13.17%。进一步实验表明,当使用来自多个合成器的增强数据(FastSpeech2和Tacotron2)进行训练时,WER可进一步降低(轻度2.67%,中度8.32%)。这些结果证明了基于TTS的数据增强方法在提升DASR性能方面的有效性。
引言
语音是人类之间主要的交流方式,因此也是与计算机交互的首选方式。然而,患有言语障碍的人在与他人交流时面临挑战。与计算机交互时,有效的沟通更加困难,因为现有技术无法满足这类人群的需求。构音障碍是一种由于中枢或周围神经系统损伤导致发音器官肌肉控制能力受损的言语障碍(Duffy, 2013)。构音障碍患者的语音通常含糊不清(由于音素替换、插入或删除),因此难以理解。借助沟通辅助工具可以改善这类人群的交流效果,这类工具通常包括自动语音识别(ASR)系统和文本转语音(TTS)系统,前者将语音信号转换为文本,后者将文本转换为可理解的语音。然而,主要挑战在于开发能够准确解码构音障碍语音的ASR系统。这一挑战同样适用于与计算机的交互,因为计算机也需要通过ASR系统获取语音输入。
现有ASR系统无法处理构音障碍语音,De Russis和Corno(2019)的分析证明了这一点。他们比较了IBM Watson Speech-to-Text、Google Cloud Speech和Microsoft Azure Bing Speech等现代ASR云平台在Torgo构音障碍语音语料库上的性能,发现Google Cloud Speech的表现最好,WER为59.81%,其次是Microsoft Azure Bing Speech(62.94%),IBM为67.35%。即使是轻度构音障碍患者,WER也至少为15%,而正常人的WER约为5%。因此,需要开发专门的构音障碍ASR(DASR)系统。这类系统通常需要大量训练数据,但从构音障碍患者那里录制如此大量的数据很困难。尽管存在一些开源的构音障碍语音数据集(Rudzicz等人,2000年;Kim等人,2008年;Wan等人,2024年),但由于数据规模有限和变异性大,它们难以直接用于训练模型。解决数据稀缺问题的一种方法是采用数据增强技术。构音障碍语音的数据增强方法包括:(i)对现有语音样本进行微调,如相位移动(Mariya Celin等人,2020年)、速度扰动(Vachhani等人,2018年)、音高调整(Salamon和Bello,2017年)、时间拉伸(Geng等人,2020年)和添加噪声(Nawroly等人,2023年)以生成新的增强版本;(ii)转换健康人的语音记录,以再现构音障碍患者的声学特征(Xiong等人,2020年);(iii)利用TTS技术合成构音障碍语音,模拟患者的发音模式(Soleymanpour等人,2024年;Bhattacharya等人,2020年;Jiao等人,2021年;Leung等人,2024年;Hermann和Magimai Doss,2023年;Li等人,2025年;Soleymanpour等人,2022年)。
在早期的数据增强技术中,对构音障碍语音进行了简单的修改,如添加噪声、速度扰动、音高调整和时间拉伸(Mariya Celin等人,2020年;Vachhani等人,2018年;Geng等人,2020年;Bhat和Strik,2025年)。Geng等人(2020年)分析了声道长度、速度和节奏扰动的效果,发现速度扰动最适合数据增强(Wang等人,2024年;Hu等人,2024年)。T.A. Celin等人(2020年)还采用了虚拟麦克风阵列合成技术来增加数据量,并进行了多分辨率特征提取以进一步增加训练数据。还有尝试在特定信噪比(SNR)和频率范围内向构音障碍语音数据中添加噪声,以避免影响其特性(Nawroly等人,2023年),从而生成更多数据。
Xiong等人(2020年)尝试将健康人的语音转换为构音障碍语音,认为结合多个构音障碍患者和健康人的数据可以获得所需的数据量。但某些数据可能有益,而某些则可能有害,因此他们从多个说话者中筛选出与目标患者更接近的数据用于增强。另一种增强方法是人工合成构音障碍语音,通过修改健康语音的特征来实现。Vachhani等人(2018年)通过修改健康语音的音素时长来模拟构音障碍语音。然而,在这些方法中,修改并未针对特定构音障碍患者的特征,因此增强数据中并未捕捉到音素替换、插入或删除等发音错误。最近,开发了新的构音障碍语音TTS合成系统,以更准确地捕捉患者的发音特征(Soleymanpour等人,2024年)。
TTS技术的最新进展进一步提升了DASR中数据增强的潜力。Vachhani等人(2018年)研究了使用健康语音数据增强构音障碍语音识别系统的效果,发现加入健康语音有助于提升轻度构音障碍的识别性能,而合成构音障碍语音数据则能进一步提高系统整体性能。Bhattacharya等人(2020年)提出了一种使用合成数据训练特定类型构音障碍ASR系统的方法,强调了专用数据在应对该障碍挑战中的必要性。Soleymanpour等人(2024年)的研究表明,合成语音与真实构音障碍语音结合使用可显著提升识别准确性。这些TTS技术的进步为解决DASR系统的数据稀缺问题提供了可行方案,同时保留了构音障碍患者的特征。
文献综述表明,基于TTS的构音障碍语音数据增强是一种有前景的方法。尽管在准确合成涵盖所有语音障碍特征的构音障碍语音方面仍存在挑战,但将TTS系统的合成数据整合到DASR模型训练中已显著提升了性能,降低了WER并增强了系统对构音障碍语音变化的鲁棒性。现有方法主要集中在开发英语DASR系统,而本研究则专注于开发泰米尔语DASR系统。通过使用TTS系统合成额外构音障碍语音数据,解决了训练数据不足的问题。虽然现有研究通常使用FastSpeech2架构,但未探讨合成语音质量对DASR系统性能的影响。本研究探讨了三种TTS模型(基于隐马尔可夫模型的TTS、FastSpeech2和Tacotron2),以确定合成语音应具备的特性,从而显著提升DASR系统性能。此外,还分析了增强数据量对DASR性能的影响。
本文的其余部分安排如下:第2节描述了研究中使用的语音语料库;第3节详细介绍了开发的TTS系统;第4节分析了各TTS系统合成的语音质量;第5节介绍了开发的DASR系统及其性能;第6节总结了分析结果和结论。
节选内容
语音语料库
本研究使用了以下包含泰米尔语语音的数据语料库来训练TTS和DASR系统,相关细节详见表1。
基于TTS的数据增强
文本转语音(TTS)系统通常能将文本输入转换为清晰自然的语音。但在本研究中,目标是利用TTS系统生成具有构音障碍特征的语音。因此,TTS系统必须适应构音障碍的独特特征。由于构音障碍语音数据有限,直接用此类数据训练TTS系统不切实际。因此,采用了一种替代方法
合成语音分析
通过主观和客观评估指标,对每个合成器合成的语音在质量(自然度)、可理解性和说话者相似性方面进行了评估。详细分析和结果如下。
构音障碍自动语音识别(DASR)
为了开发独立的构音障碍ASR系统,使用了SSN TDSC数据集(一个词汇量有限的数据集)。选择混合深度神经网络-隐马尔可夫模型(DNN-HMM)架构,因为它在处理有限词汇数据时优于基于泰米尔语训练的自我监督模型(Celin等人,2023年)。在此设置中,DNN被训练用于预测HMM中每个状态的观测概率。DASR系统通过
结论
构音障碍语音识别对于提高构音障碍患者与周围人和机器的沟通能力至关重要。然而,市面上的ASR系统无法满足构音障碍患者的需求。因此,需要开发专门的构音障碍ASR系统,使其能够在存在发音错误的情况下生成准确的转录结果。训练此类系统需要大量数据
CRediT作者贡献声明
P. Vijayalakshmi:撰写——审稿与编辑、可视化、验证、监督、资源管理、方法论、研究、资金获取、概念化。Anushiya Rachel Gladston:撰写——初稿撰写、可视化、验证、软件开发、资源管理、方法论、研究、数据分析、数据整理、概念化。B. Ramani:撰写——审稿与编辑、验证、软件开发、数据分析。M.P. Actlin
利益冲突声明
作者声明以下可能构成利益冲突的财务利益/个人关系:P. Vijayalakshmi表示获得了电子与信息技术部的财政支持。如果还有其他作者,他们声明没有已知的可能影响本文研究的财务利益或个人关系。
致谢
本研究是“辅助语音技术”项目的一部分,属于NLTM BHASHINI项目的子项目“印度语言中的语音技术”,该项目由印度电子与信息技术部资助,项目编号为11(1)/2022-HCC(TDIL)。