语言模型在自然语言处理(NLP)中起着至关重要的作用。语言模型计算单词序列的概率。在过去十年中,神经网络语言模型(NNLM)在语言建模任务中取得了最先进的性能。NNLM通过学习单词的分布式表示来克服维数灾难(Bengio等人,2003年)。循环神经网络语言模型(RNNLM)(Mikolov等人,2010年)在捕捉长距离依赖关系方面表现出色,并且性能超过了传统的-gram语言模型。带有门控机制(如长短期记忆(LSTM)单元的RNNLM(Hochreiter和Schmidhuber,1997年)能够有效编码比基本循环单元更长的上下文,从而在自动语音识别(Sundermeyer等人,2015年)的语言建模中显著提高性能。
注意力机制作为RNN的替代方案出现,并在序列建模中得到广泛应用(Irie等人,2019年)。最初为机器翻译提出的Transformer(Vaswani等人,2017年)架构在语言建模中迅速流行起来。基于Transformer的大型PLMs,如BERT(Devlin等人,2019年)和GPT系列(Radford等人,2018年,Radford等人,2019年,Brown等人,2020年),在大量文本上进行了训练,使它们能够掌握丰富的语言知识并在各种NLP任务中表现出色。最近的生成型大型语言模型(例如ChatGPT、Llama(Touvron等人,2023年)、Claude、Qwen(Qwen团队,2025年)在遵循提示和提供详细响应方面表现出显著的能力。当应用于下游NLP任务时,PLMs通常会在领域内数据上进行微调,以适应特定任务的语言知识。例如,大型PLMs已被微调用于重新评分最佳假设列表,用于ASR任务(Shin等人,2019年,Zheng等人,2021年),并显著降低了WER。尽管大型PLMs的性能令人印象深刻,但它们极高的计算成本对资源有限的现实世界应用构成了挑战,尤其是与较小的NNLM相比。
数据稀疏性是语言建模中的一个固有挑战。通常,用于训练ASR任务的语言模型的领域内数据量是有限的。这个问题通过对现有领域外文本或PLM生成的文本收集额外数据来解决。网络爬取(Gandhe等人,2013年,Mendels等人,2015年)和选择非领域特定训练数据的子集(Klakow,2000年,Moore和Lewis,2010年)是常见的做法。基于文本生成的数据增强(Suzuki等人,2019年,Wang等人,2019年,Tarján等人,2020年,Tarján等人,2022年)随着大型PLM的出现而变得流行,这些模型能够生成高质量的文本(Radford等人,2019年,Yang等人,2019年,Li等人,2024年)。
当在领域内数据上微调时,PLMs可以适应任务领域的语言模式,同时保留从大规模预训练中获得的一般知识。这使得微调后的PLMs能够生成领域内数据中不存在但风格相似的新句子。文献中显示,使用这些方法生成增强数据可以提高-gram语言模型的性能。
尽管-gram语言模型在计算和内存效率方面表现出色,但它们对短上下文信息的依赖限制了将语言知识从PLMs转移到-gram模型的效果,从而限制了ASR任务的改进程度。由于n-gram语言模型不如RNNLM,研究从PLMs到轻量级RNNLM的语言知识转移是值得的。此外,RNNLM用于长上下文建模的架构需要比n-gram语言模型更多的训练数据,因此它们可能从微调后的PLM生成的数据中吸收更多信息。
在这项工作中,我们提出了一种基于文本生成的数据增强方法,用于训练ASR任务中的NNLM。我们的方法包括在领域内数据上对PLM(GPT-2)模型进行微调,然后使用微调后的PLM生成与领域内数据相似的新句子。我们进一步提出了一种文本选择方法,通过使用正态采样策略来调整选定文本的困惑度分布,以平衡新颖性和与领域内数据的相似性。选定的文本与领域内数据一起用于训练LSTM语言模型,这些模型随后被用来重新评分ASR最佳假设列表。我们在两个ASR任务上评估了我们的方法:《华尔街日报》(WSJ)(Paul和Baker,1992年)和AMI(Carletta等人,2005年),并将我们的NNLM与数据增强的-gram语言模型、精简的PLM(DistilGPT2(HuggingFace,2019年)和微调后的PLM进行了比较。在这两个ASR任务上,我们的方法一致性地改善了WER和PPL,优于仅基于领域内数据训练的基线模型。
我们的贡献总结如下。首先,我们将基于文本生成的数据增强应用于NNLM,这是一个在以往主要关注增强-gram语言模型的研究中尚未充分探索的问题。因为NNLM(如LSTM和Transformer)可以捕捉序列中的长距离依赖关系,而不是n-gram的固定短窗口,所以增强小型NNLM可能会从生成的文本数据中受益更多。其次,虽然之前的研究从领域外语料库中选择了与领域内数据最相似的句子,但我们提出根据目标困惑度分布从生成的类似领域内的文本中选择新颖句子。这种策略鼓励在任务领域内包含未见但相关的模式,据我们所知,这一点尚未得到充分研究。第三,我们研究了增强数据大小和NNLM模型大小的影响,并探讨了在有效吸收大规模增强数据的同时保持NNLM紧凑性的方法。最后,我们在两个ASR任务上进行了广泛的实验,我们提出的方法实现的WER与微调后的Qwen3-0.6B-Base和GPT-2中型模型相当或更低,并且使用的参数仅为它们的一小部分。这种性能-成本效率支持在资源受限场景中部署高性能NNLM。
本手稿的其余部分组织如下。第2节我们简要回顾了GPT-2模型和相关工作。第3节描述了我们提出的方法。第4节展示了实验设置和结果。第5节给出了结论。