《ACM Transactions on Asian and Low-Resource Language Information Processing》:Orchestrating Prompt Expertise: Enhancing Knowledge Distillation via Expert-Guided Tuning
编辑推荐:
这篇论文提出了一种名为MoE-KD的创新框架,旨在解决传统多教师知识蒸馏(KD)中存在的参数效率低下、存储和训练成本高昂的问题。该方法利用单一的预训练语言模型(PLM),通过集成多个可训练的提示(prompt)构建一个混合专家(MoE)系统,作为多教师模型的轻量化替代。它引入了基于不确定性的调优机制和一个选择器模块,为每个输入实例动态分配合适的“专家”教师,从而生成更稳健、正确的监督信号来训练学生模型。实验表明,该框架在自然语言理解(NLU)和命名实体识别(NER)任务上显著提升了学生模型的准确性和训练效率,并能够有效缓解持续学习(lifelong learning)中的灾难性遗忘问题,为模型压缩和适应提供了高效、通用的解决方案。
在当今自然语言处理(NLP)领域,预训练语言模型(PLMs)的强大性能往往伴随着参数量巨大、推理延迟高的问题,难以在资源受限的边缘设备上部署。知识蒸馏(KD)作为一种有效的模型压缩技术,通过让一个轻量级的“学生”模型模仿大型“教师”模型的行为,实现了知识从教师到学生的迁移。传统的多教师KD方法虽然能集成多位“教师”的智慧,提供更丰富、更稳健的监督信号,但其训练和推理多个大型教师模型的过程极为耗时,且存储开销巨大。此外,在持续学习(也称为增量学习或终身学习)场景中,模型需要在不断到来的新任务上学习,同时避免对旧任务知识的“灾难性遗忘”,这也对现有KD方法提出了轻量化和泛化性的挑战。
针对上述问题,本研究提出了一个名为MoE-KD的简洁而高效的框架。其核心思想是,无需训练多个独立的大型教师模型,而是利用一个单一的预训练语言模型(PLM),通过集成多个可训练的提示(prompt),构建出一个混合专家(Mixture of Experts, MoE)系统,以此作为多教师模型的轻量化替代。这些提示可以被视为任务相关的“专家”,它们与冻结的PLM核心参数结合,各自能够从不同视角处理输入样本,从而提供多样化的监督信号。与需要更新所有教师模型参数的传统多教师KD不同,MoE-KD仅需微调数量极少的提示参数和选择器模块参数,大幅降低了训练成本和存储需求。
MoE-KD的架构主要由三部分组成:编码器(即大型PLM,如BERT或RoBERTa)、多个前缀提示(Prefix Prompts)模块以及一个选择器(Selector)模块。在微调阶段,模型在目标任务数据上优化提示参数,同时保持PLM参数冻结。为了确保生成的监督信号具有更高的鲁棒性和正确性,本研究引入了基于不确定性的调优机制。该机制通过计算每个“专家”教师对当前输入预测的熵(不确定性),动态调整其在总损失中的权重,促使模型做出更自信的预测。选择器模块则负责为每个输入实例“路由”,即根据输入特征决定将其分配给哪一个提示专家进行处理,这与传统多教师KD中简单平均或加权聚合所有教师输出的策略形成鲜明对比。
在知识蒸馏阶段,经过微调的MoE(即单个PLM与多个提示专家的组合)作为多教师模型,指导学生模型的训练。选择器会为每个输入样本选择最合适的专家教师,该教师的输出(logits)将作为监督信号,通过KL散度损失指导学生模型的学习。实验在SuperGLUE基准的自然语言理解(NLU)任务和CoNLL03命名实体识别(NER)任务上验证了MoE-KD的有效性。结果表明,在教师参数量大幅减少(仅需约1/3的总参数量)的情况下,MoE-KD在多项任务上的学生模型准确率超越了多种强基线多教师KD方法,最高提升了1.1%,同时训练效率提升了高达140%。研究还通过可视化分析了教师和学生模型的logits分布,发现MoE-KD能产生分布更分散、置信度更高的logits,这有助于学生模型学到更清晰、更具判别性的知识。
研究进一步将MoE-KD框架扩展至持续学习场景,为解决灾难性遗忘提供了一个轻量级方案。在此设定下,模型会为每个学习过的任务保存一个任务专用的提示专家。当学习新任务时,模型使用一组混合的提示专家进行学习,并通过基于不确定性的损失平衡各专家间的训练。旧任务的知识被固化在对应的任务专用专家中,不受后续新任务训练的影响。在四个NLP任务序列上的实验显示,MoE-KD在BERT-large和T5-small模型上,平均准确率分别超越了最佳基线2.8%和1.8%,显著缓解了灾难性遗忘。
深入的分析揭示了MoE-KD的优势来源。首先,选择器模块的引入使模型能避免传统集成方法因包含次优教师而可能导致的预测平庸化问题,也克服了“单最佳”方法可能过度依赖某个易过拟合教师的风险。其次,与完全微调整个教师模型相比,仅调优提示参数有助于保留PLM在预训练阶段获得的一般性知识,减轻灾难性遗忘,从而可能产生更通用的监督信号。此外,消融实验探究了专家数量、损失权重α和提示长度等超参数的影响,证实了MoE-KD在不同设置下均表现稳健。
综上所述,MoE-KD通过巧妙的“混合提示专家”设计,将多教师知识蒸馏的效能与提示调优的效率相结合,成功解决了传统方法的参数低效难题,并开辟了其在持续学习中的新应用。该框架不改变基础模型结构,保证了算法的泛化能力,为在资源受限环境下部署高性能、可持续进化的NLP模型提供了有力的新工具。