可持续的混合文本分类:利用NLI生成的伪样本增强仅编码器语言模型

《Array》:Sustainable hybrid text classification: Enhancing encoder-only language models with NLI-derived pseudo-examples

【字体: 时间:2026年02月26日 来源:Array 4.5

编辑推荐:

  本综述文章针对实际应用中获取高质量标注数据成本高昂的难题,提出了一种轻量级模块化框架,以构建准确且可持续的文本分类器。该方法巧妙整合了仅编码器语言模型的强大表示能力与自然语言推理模型的弱监督信号,通过引入基于弃权的筛选机制提升伪标签质量,并利用少量高质量伪标注数据进行高效微调。研究在假新闻和抑郁症检测数据集上的实验结果表明,该方案在显著降低计算负担的同时,取得了极具竞争力的分类性能。

  
在现实世界的自然语言处理应用,例如内容审核、临床决策支持和欺诈检测中,从有限的标注数据中构建准确的文本分类器,一直是一项关键且充满挑战的任务。组织不仅面临数据标注的高昂成本,还需要应对随着时间推移而出现的领域漂移问题。尽管当前基于自回归(Autoregressive)的大型语言模型(Large Language Models, LLMs)在语言理解和生成方面表现惊人,但由于其巨大的计算需求和不稳定的预测结果,它们通常并不适用于生产级的分类任务。这些生成式模型在严格的性能约束下,往往会产生不一致且不够精确的结果,同时其庞大的参数量和API调用成本也带来了经济和环境上的可持续性挑战。
相比之下,以BERT(Bidirectional Encoder Representations from Transformers)为代表的仅编码器(Encoder-only)架构因其卓越的成本-延迟权衡,仍然是生产级文本分类管道的核心支柱。然而,即使是这类模型,也需要针对特定领域进行精细微调才能达到足够的分类性能,而这仍然依赖于大量标注数据。
为了应对上述挑战,卡利亚里大学的研究团队在《Array》期刊上发表了一项研究,提出了一种新颖、可持续的混合文本分类框架。这项研究旨在解决在有限标注数据和高精度要求场景下的模型构建问题,其核心创新在于协同整合了两种预训练模型:一种是轻量的仅编码器模型,用于高效的文本表示和最终分类;另一种是基于自然语言推理(Natural Language Inference, NLI)的零样本(Zero-shot)模型,作为弱监督信号提供者。研究人员发现,通过引入一个结合标签一致性和风险有界拒绝阈值的、基于弃权(Abstention)的机制,可以有效地筛选掉不可靠的伪标注实例,从而在扩大训练集的同时控制噪声引入的风险。最终,系统仅使用经筛选的高质量伪标注数据和少量原始标注数据,对一个紧凑的仅编码器模型进行少量轮次的微调,即可实现高效的分类。
该方法的显著优势在于:其一,实现了互补预训练模型的协同整合;其二,提出了一种廉价的弃权机制来提升伪标签质量;其三,通过使用小型语言模型、极少的训练数据和较少的微调轮次,大幅降低了计算成本。在假新闻和抑郁症检测数据集上的测试结果表明,该方案仅需生成式大语言模型和当前最先进的半监督学习方法所需计算负担的一小部分,便能达到极具竞争力的性能水平。
本研究涉及的关键技术方法主要包括:1)基于自然语言推理的零样本标注:将待分类文本作为“前提”,类别标签描述作为“假设”,利用预训练的NLI模型进行零样本分类,生成初始伪标签。2)集成标注模型与弃权机制:构建一个由多个NLI模型组成的零样本标注器集成,并为每个标注器动态计算基于不确定性估计的弃权阈值,通过要求模型间预测一致且每个模型预测的不确定性低于其阈值,来筛选高置信度的伪标签。3)轻量级编码器模型微调:采用Small BERT、DistilBERT等小型仅编码器模型作为分类骨干,使用少量筛选后的伪标注数据和原始标注数据,进行有限轮次的微调,以获得最终的分类器。
1. 简介
研究的核心目标是应对小样本情境下的文本分类挑战。文章指出,尽管生成式大语言模型能力强大,但其庞大的计算开销和预测不一致性限制了其在生产环境中的应用。相反,BERT等编码器模型虽然在效率上有优势,但仍需足够的标注数据进行微调。为此,研究者提出了一种混合框架,旨在结合两者优点:利用NLI模型作为零样本标注器来生成伪数据,再通过一个精心设计的弃权机制过滤噪声,最后用于微调一个高效的小型编码器分类器。
2. 背景
本文系统梳理了相关技术背景。神经网络语言模型:架构与规模 部分区分了仅编码器模型和仅解码器模型,并对比了大型语言模型(LLMs)与小型语言模型(SLMs)在计算需求和适用任务上的差异。选择性分类与弃权机制 部分则详细阐述了选择性分类的概念,即模型在预测置信度低时可以选择“弃权”(即拒绝预测),并介绍了衡量其性能的“覆盖率”和“选择性风险”两个关键指标。
3. 相关工作
本节回顾了四个相关研究方向:1)对仅编码器Transformers进行领域特定文本分类的微调;2)将指令微调的仅解码器LLMs部署为零/少样本分类器,并分析了其在实际应用中的三大障碍:计算成本、领域准确性和可靠性;3)重用NLI调优的编码器模型进行零样本预测;4)将大模型的指导或蒸馏与轻量级编码器相结合的混合流水线,以实现经济高效的推理。
4. 问题陈述、方法概述与形式化框架
研究将文本分类任务形式化为一个在有限标注数据下学习分类器的问题。其提出的解决方案分为三个阶段:1)集成标注模型构建:将一组预训练的NLI模型转化为零样本标注器集成,每个标注器配备一个基于用户指定误差上限动态确定的弃权阈值。2)伪标签选择:根据预测不确定性分数,为每个类别选择置信度最高的k个伪标注实例。3)小型仅编码器分类器微调:利用扩展后的数据集(原始标注数据 + 选定的伪标注数据)对一个轻量级模型进行少量轮次的微调。
4.3. 形式化框架:集成标注模型
研究者提出了集成标注模型的形式化定义。该模型由多个基础分类器及其对应的不确定性估计函数和弃权阈值组成。对于一个输入实例,只有当所有基础分类器对其预测的类别一致,且每个分类器的不确定性估计值均低于其各自的阈值时,集成模型才会输出一个具体的类别标签;否则,模型将输出“弃权”符号,放弃对该实例的标注。
5. 提出的分类器学习方法:算法LM2FT
算法LM2FT是本研究提出的核心方法。该算法以少量的标注数据、一个预训练的仅编码器模型、多个预训练的NLI模型、用户期望的伪标签最大错误率ρ以及伪标签数量上限k等作为输入。其核心流程是:首先,利用标注数据为每个NLI模型计算其满足风险约束ρ的弃权阈值;然后,构建集成标注模型,对大量未标注数据进行伪标签预测,并根据集成不确定度筛选出最可靠的k个伪标注样本;最后,将筛选出的伪标注数据与原始标注数据合并,用于微调一个轻量级的仅编码器分类器。
6. 实验
实验部分在两个具有挑战性的公开数据集(ANTi-Vax假新闻检测和eRisk2018抑郁症检测)上对提出的方法进行了全面评估。研究首先分析了NLI模型作为零样本分类器或选择性伪标注器的效用;其次,评估了LM2FT算法在不同伪标注数量下的有效性;接着,探讨了不同规模的编码器模型对性能与效率权衡的影响;最后,将所提方法与基于提示的零/少样本大型语言模型及半监督学习基线进行了比较。结果表明,该框架通过结合零样本标注与后续的轻量级模型微调,在显著降低训练和推理成本的同时,实现了极具竞争力的性能水平。
结论
本研究提出的LM2FT框架为解决小样本文本分类问题提供了一条可持续且高效的路径。其核心贡献在于:1)创造性地将互补的预训练模型(仅编码器LM与NLI模型)协同整合到一个统一框架中;2)引入了一种新颖的、基于不确定性估计和弃权技术的筛选机制,以有效过滤不可靠的伪标签;3)整个方案使用小型语言模型、极少量的标注数据和有限的微调轮次,显著降低了计算、经济和环境成本,符合可持续与绿色机器学习原则。在两个真实场景数据集上的实验验证了该方法的有效性,证实了其能够在不牺牲性能的前提下,大幅减少对计算资源和标注数据的依赖。这项工作为在生产系统和关键应用中部署鲁棒、准确且可持续的文本分类解决方案提供了重要的技术思路和实践范例。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号