通过使用预训练的语言模型进行文本生成来改进神经网络自然语言模型（NNLMs）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：Improve NNLMs by text generation from pre-trained language models

【字体：大中小】 时间：2026年03月02日 来源：Computer Speech & Language 3.4

编辑推荐：

　　文本生成增强数据提升轻量级语音识别模型

宋明光|赵云鑫

密苏里大学哥伦比亚分校电子工程与计算机科学系，美国密苏里州哥伦比亚市，65211

摘要

大型预训练语言模型（PLMs）能够学习丰富的语言知识，并在自动语音识别（ASR）任务中展现出强大的能力。然而，大型PLMs的高计算成本限制了它们在计算资源有限的现实世界场景中的直接应用。在本文中，我们提出了一种有效的方法，利用PLMs进行基于文本生成的数据增强，以改进用于ASR的特定任务神经网络语言模型（NNLM），这是一个尚未得到充分解决的问题。我们的数据增强方法首先在领域内数据上对PLM进行微调，以生成类似领域内的文本，然后根据所需的句子困惑度分布选择新颖的句子。选定的文本与领域内数据共同构成一个增强数据集，用于训练轻量级的NNLM。由于微调后的PLM同时掌握了通用语言知识和领域内语言知识，因此在模型训练中充分使用这些生成的文本可以提高NNLM的泛化能力。我们在《华尔街日报》（WSJ）和增强型多方互动（AMI）会议的ASR任务上评估了我们的方法。实验结果表明，轻量级增强型NNLM在单词错误率和困惑度方面有显著降低，证明了高性能NNLM在资源受限环境中的应用潜力。

引言

语言模型在自然语言处理（NLP）中起着至关重要的作用。语言模型计算单词序列的概率。在过去十年中，神经网络语言模型（NNLM）在语言建模任务中取得了最先进的性能。NNLM通过学习单词的分布式表示来克服维数灾难（Bengio等人，2003年）。循环神经网络语言模型（RNNLM）（Mikolov等人，2010年）在捕捉长距离依赖关系方面表现出色，并且性能超过了传统的

n

-gram语言模型。带有门控机制（如长短期记忆（LSTM）单元的RNNLM（Hochreiter和Schmidhuber，1997年）能够有效编码比基本循环单元更长的上下文，从而在自动语音识别（Sundermeyer等人，2015年）的语言建模中显著提高性能。

注意力机制作为RNN的替代方案出现，并在序列建模中得到广泛应用（Irie等人，2019年）。最初为机器翻译提出的Transformer（Vaswani等人，2017年）架构在语言建模中迅速流行起来。基于Transformer的大型PLMs，如BERT（Devlin等人，2019年）和GPT系列（Radford等人，2018年，Radford等人，2019年，Brown等人，2020年），在大量文本上进行了训练，使它们能够掌握丰富的语言知识并在各种NLP任务中表现出色。最近的生成型大型语言模型（例如ChatGPT、Llama（Touvron等人，2023年）、Claude、Qwen（Qwen团队，2025年）在遵循提示和提供详细响应方面表现出显著的能力。当应用于下游NLP任务时，PLMs通常会在领域内数据上进行微调，以适应特定任务的语言知识。例如，大型PLMs已被微调用于重新评分

n

最佳假设列表，用于ASR任务（Shin等人，2019年，Zheng等人，2021年），并显著降低了WER。尽管大型PLMs的性能令人印象深刻，但它们极高的计算成本对资源有限的现实世界应用构成了挑战，尤其是与较小的NNLM相比。

数据稀疏性是语言建模中的一个固有挑战。通常，用于训练ASR任务的语言模型的领域内数据量是有限的。这个问题通过对现有领域外文本或PLM生成的文本收集额外数据来解决。网络爬取（Gandhe等人，2013年，Mendels等人，2015年）和选择非领域特定训练数据的子集（Klakow，2000年，Moore和Lewis，2010年）是常见的做法。基于文本生成的数据增强（Suzuki等人，2019年，Wang等人，2019年，Tarján等人，2020年，Tarján等人，2022年）随着大型PLM的出现而变得流行，这些模型能够生成高质量的文本（Radford等人，2019年，Yang等人，2019年，Li等人，2024年）。

当在领域内数据上微调时，PLMs可以适应任务领域的语言模式，同时保留从大规模预训练中获得的一般知识。这使得微调后的PLMs能够生成领域内数据中不存在但风格相似的新句子。文献中显示，使用这些方法生成增强数据可以提高

n

-gram语言模型的性能。

尽管

n

-gram语言模型在计算和内存效率方面表现出色，但它们对短上下文信息的依赖限制了将语言知识从PLMs转移到

n

-gram模型的效果，从而限制了ASR任务的改进程度。由于n-gram语言模型不如RNNLM，研究从PLMs到轻量级RNNLM的语言知识转移是值得的。此外，RNNLM用于长上下文建模的架构需要比n-gram语言模型更多的训练数据，因此它们可能从微调后的PLM生成的数据中吸收更多信息。

在这项工作中，我们提出了一种基于文本生成的数据增强方法，用于训练ASR任务中的NNLM。我们的方法包括在领域内数据上对PLM（GPT-2）模型进行微调，然后使用微调后的PLM生成与领域内数据相似的新句子。我们进一步提出了一种文本选择方法，通过使用正态采样策略来调整选定文本的困惑度分布，以平衡新颖性和与领域内数据的相似性。选定的文本与领域内数据一起用于训练LSTM语言模型，这些模型随后被用来重新评分ASR

n

最佳假设列表。我们在两个ASR任务上评估了我们的方法：《华尔街日报》（WSJ）（Paul和Baker，1992年）和AMI（Carletta等人，2005年），并将我们的NNLM与数据增强的

n

-gram语言模型、精简的PLM（DistilGPT2（HuggingFace，2019年）和微调后的PLM进行了比较。在这两个ASR任务上，我们的方法一致性地改善了WER和PPL，优于仅基于领域内数据训练的基线模型。

我们的贡献总结如下。首先，我们将基于文本生成的数据增强应用于NNLM，这是一个在以往主要关注增强-gram语言模型的研究中尚未充分探索的问题。因为NNLM（如LSTM和Transformer）可以捕捉序列中的长距离依赖关系，而不是n-gram的固定短窗口，所以增强小型NNLM可能会从生成的文本数据中受益更多。其次，虽然之前的研究从领域外语料库中选择了与领域内数据最相似的句子，但我们提出根据目标困惑度分布从生成的类似领域内的文本中选择新颖句子。这种策略鼓励在任务领域内包含未见但相关的模式，据我们所知，这一点尚未得到充分研究。第三，我们研究了增强数据大小和NNLM模型大小的影响，并探讨了在有效吸收大规模增强数据的同时保持NNLM紧凑性的方法。最后，我们在两个ASR任务上进行了广泛的实验，我们提出的方法实现的WER与微调后的Qwen3-0.6B-Base和GPT-2中型模型相当或更低，并且使用的参数仅为它们的一小部分。这种性能-成本效率支持在资源受限场景中部署高性能NNLM。

本手稿的其余部分组织如下。第2节我们简要回顾了GPT-2模型和相关工作。第3节描述了我们提出的方法。第4节展示了实验设置和结果。第5节给出了结论。

章节片段

GPT和GPT-2

GPT（Radford等人，2018年）仅使用Transformer的解码器结构，去除了其编码器、编码器-解码器多头注意力和层归一化（Ba等人，2016年）组件。GPT模型由12个Transformer解码器块组成，具有1.1亿（M）个参数。最大序列长度为512个标记。

GPT-2（Radford等人，2019年）作为GPT的继任者，基本上遵循GPT的结构，但对层归一化和最大值进行了一些修改

处理流程

我们的处理流程如图1所示。首先，从大型语料库从头开始训练PLM，或者从现有版本中获取PLM。接下来，我们在特定于ASR任务的领域内语料库上对PLM进行微调。然后使用微调后的PLM生成新的语料库，并从中选择句子。最后，将增强后的语料库与领域内语料库结合，以训练增强的NNLM。随后使用增强后的NNLM重新评分最佳

实验设置

我们在两个ASR任务上评估了我们提出的方法：WSJ语料库和AMI语料库。WSJ语料库包含在受控录音室环境中录制的清晰发音的朗读语音，演讲者清晰地朗读《华尔街日报》文章，背景噪音最小。相比之下，AMI语料库包含在自然办公室环境中捕获的自发多方会议对话，其特征是语音重叠、不连贯和大量的背景噪音

结论

我们提出并研究了一种基于文本生成和选择的数据增强方法，用于提高NNLM在语音识别中的泛化性能。首先，我们应用了基于文本生成的数据增强方法来改进NNLM训练，其中文本生成是通过为任务领域微调预训练的大型语言模型来完成的，这是一个之前尚未得到充分研究的领域。然后，我们研究了一种基于

CRediT作者贡献声明

宋明光：撰写——原始草稿，方法论。赵云鑫：撰写——审阅与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言