《Computer Speech & Language》:Improvements in Spanish audio transcription workflows: Integrating preprocessing, LLM-based correction, and speaker diarization and identification
编辑推荐:
西班牙语音频转录通过整合HDemucs预处理、WhisperX转录与LLM校验及说话人嵌入匹配,显著降低字词错误率(如RTVE2022DB降至10.82%)并实现说话人身份标注。
Gonzalo Nieto Montero | Santiago Hernández | Juan Casal
Cires21 研发部,P.° de la Castellana, 81号,15层,28046,马德里,西班牙
摘要
即使在最先进的多语言自动语音识别(ASR)系统下,要在现实条件下对西班牙语广播音频进行鲁棒且注释丰富的转录仍然具有挑战性。本文通过一个框架来改进西班牙语语音转录,该框架结合了(i)针对性的音频预处理、(ii)大型语言模型(LLM)的后校正及确定性验证,以及(iii)语音分割和说话者身份识别,从而产生更准确、信息更丰富的转录结果。首先,我们展示了应用HDemucs声学分离技术后进行带限滤波能够提升WhisperX(Whisper large-v3)在现代RTVE广播测试集上的性能,在RTVE2022DB数据集上的词错误率(WER)降至10.82%(相比WhisperX降低了2.79%),在RTVE2020DB数据集上为10.36%。为了明确这种方法的适用范围,我们还评估了NVIDIA Canary-1B-v2模型,发现这些改进效果依赖于具体模型。其次,我们引入了一种基于LLM的校正算法,通过标准化文本等价性和有界的编辑距离接受度来限制模型的作用,既保持了流程的确定性,又保留了LLM的优势。在两个包含格式噪声的测试集(RTVE2017-week subtitles和嘈杂的VoxPopuli-es)中,该机制将案例敏感性和标点符号敏感性的错误率几乎减半,并确定了容错阈值的稳定运行范围。第三,我们通过结合WhisperX/pyannote的语音分割技术、音频嵌入匹配以及基于LLM的补充识别方法来丰富转录内容,在RTVE2022DB数据集上的词错误率降至29.92%,优于挑战赛的基准结果。这些模块共同作用,提供了更清晰、能识别说话者的转录结果,超越了单独使用WhisperX的最佳效果,展示了如何在不进行训练的情况下通过精心组合现成模型来提升西班牙语ASR的性能。
引言
对于伊比利亚语言(如西班牙语)来说,高质量的语音转录对于从广播媒体索引到语音助手等各种应用都至关重要。尽管自动语音识别(ASR)技术取得了近期进展,但在现实场景中(如有多个说话者、背景音乐和地区口音的情况下),准确转录西班牙语音频仍然具有挑战性(Lleida等人,2023年)。例如,RTVE 2022挑战赛数据集中的西班牙语电视节目存在语音重叠、背景噪音和非正式说话风格等问题,导致即使是最先进的系统其词错误率(WER)也处于中等水平。值得注意的是,一个在多语言数据上训练的零样本Whisper大型模型在2022年RTVE测试集上的WER仅为14.9%——尽管这是一个不错的结果,但考虑到音频的复杂性,仍有改进空间。这一性能差距激发了人们研究能够应对这些不利条件的增强型转录工作流程的兴趣。
在这项工作中,我们采用了一种集成工程的方法,通过结合三种互补技术来提升西班牙语ASR的输出:音频预处理、基于LLM的错误校正以及说话者语音分割和识别。这些组件分别针对转录流程中的不同错误来源。首先,前端音频预处理旨在通过去除或隔离背景内容来增强语音信号。先前的研究表明,有针对性的声音分离(例如去除音乐或其他说话者的声音)可以提高ASR和语音分割的性能(Rascon和Fuentes-Pineda,2023年)。我们采用了高质量的音频源分离模型(HDemucs)来分离语音信号,并应用高通滤波器来减少低频噪声。其次,我们利用现代大型语言模型的强大能力进行转录后的错误校正。像ChatGPT和LLLaMA这样的大型LLM最近被用作后处理器,利用其丰富的语言知识来完善ASR的识别结果(Ma等人,2023年)。通过向700亿参数的LLM提供初始转录文本,我们可以纠正标点符号、大写错误、重音符号以及ASR引擎可能遗漏的语言不一致性。第三,我们结合了基于神经说话者嵌入的说话者语音分割和识别模块。虽然WhisperX(Bain等人,2023年)使用Pyannote音频模型实现了自动语音分割(按说话者变化分段),但其输出的是匿名的说话者标签(“说话者1”、“说话者2”)。我们通过将说话者嵌入与已知声音的数据库进行匹配,尽可能为说话者分配真实身份,这一步骤对于媒体档案或会议记录等应用非常重要,因为在这些应用中,谁说了什么与说了什么同样重要。
我们的贡献包括:(i)将这些组件系统地整合到一个无需训练的工作流程中;(ii)在西班牙语数据上测试其性能(相比英语数据,西班牙语数据的相关研究较少);(iii)开发了一种基于LLM的校正算法,该算法在保留程序确定性的同时利用了LLM的能力。我们证明了这个集成系统在西班牙语评估数据集上显著提高了转录的准确性和输出的质量(包括说话者名称)。具体来说,在RTVE挑战赛数据集(2018-2022年)中,我们的预处理步骤一致性地降低了WER。在嘈杂的VoxPopuli西班牙语语料库和RTVE2018DB数据集上,基于LLM的校正显著减少了转录错误。此外,添加说话者识别后,标记出的转录结果具有更少的额外语音分割错误。通过展示定量改进和定性示例,我们强调了预处理、ASR、LLM校正和说话者识别之间的协同作用如何能够提升西班牙语语音转录的性能,超越了各个组件单独使用时的效果。
章节片段
ASR的预处理和语音增强
鲁棒的ASR通常依赖于前端处理来处理音频中的噪声、音乐或重叠说话者的问题。传统方法包括频谱滤波和波束成形技术来增强语音并抑制噪声(Rascon和Fuentes-Pineda,2023年)。深度学习方法下的数据驱动语音增强和源分离技术也展现出了巨大潜力。例如,Google的VoiceFilter(Wang等人,2019年)引入了一种基于说话者条件的模型来分离目标声音和其他声音。
方法论
我们的整体系统由三个主要模块依次执行组成:(1)音频预处理、(2)ASR转录、(3)基于LLM的校正以及(4)说话者语音分割和识别。我们使用OpenAI的Whisper模型作为核心ASR引擎(通过WhisperX工具包),并利用其他组件来增强其输入和输出。工作流程如下:音频输入 → 预处理 → WhisperX → LLM校正 → 说话者识别(见图1)。
在本节中,我们将描述每个组件的详细信息。
数据集
我们在两种类型的西班牙语数据集上评估了该集成系统的性能:RTVE 2018/2020/2022测试集以及添加了噪声的VoxPopuli西班牙语子集。选择这些数据集是为了模拟现实世界的西班牙语ASR挑战:前者包含多个说话者和噪声的开放领域电视音频,后者则模拟了受控环境下的嘈杂转录情况。
WhisperX实验
表2总结了五种ASR流程(包括WhisperX及其四种带有语音增强/滤波的变体)在三个RTVE西班牙语广播语料集(RTVE2022DB、RTVE2020DB和RTVE2018DB)上的词错误率(WER)。在最新的RTVE2022DB数据集上,c21-demucs-filter_200–8000 Hz流程的WER最低,为10.82%,相比WhisperX基线(11.13%)降低了2.79%,有效减少了约2088个单词错误。RTVE2020DB数据集也显示了类似的趋势。
结论
这项工作表明,一种无需训练的集成工程方法可以显著提升西班牙语语音转录在现实广播条件下的性能和实际应用价值。我们没有依赖特定任务的微调,而是将互补的现成组件(音频预处理、基于WhisperX的ASR、基于LLM的转录校正以及语音分割和识别)整合到一个连贯的工作流程中,其性能超过了单独使用WhisperX的效果。
CRediT作者贡献声明
Gonzalo Nieto Montero:撰写 – 审稿与编辑、初稿撰写、可视化、监督、软件开发、项目管理、方法论设计、数据分析、概念化。Santiago Hernández:初稿撰写、软件开发、形式化分析。Juan Casal:审稿、项目管理、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文研究的财务利益或个人关系。
致谢
本项工作得到了西班牙技术创新中心(CDTI)通过Subtaitles项目(IDI-20240449)的支持。