命名实体识别(NER)的任务是在非结构化文本中识别和分类实体,如人名、组织、地点、日期和数字表达式[18]。换句话说,它确定句子中的哪些词或短语指的是特定的现实世界对象或概念。
作为自然语言处理(NLP)中的基础任务,NER为信息检索、知识提取、对话系统和问答等多种应用提供了支持。传统的NER系统将任务定义为监督序列标注,其中句子中的每个标记都根据大规模标注的语料库进行标记。虽然在资源丰富的语言和领域内效果良好,但在资源匮乏或领域发生变化的环境中,这些模型的性能会显著下降[15],[35]。在这些情况下,获取足够的标注数据成本高昂、耗时且有时不切实际,尤其是在生物医学文本等专业领域或资源匮乏的语言中[7],[29]。为了解决这一瓶颈,少样本学习作为一种有前景的方法应运而生,它试图仅从少量标注样本中泛化[26]。然而,由于数据极度稀缺、类内语义变异大以及领域不匹配导致原型不稳定和分类错误,少样本NER仍然具有挑战性[23]。
最近的研究通过几个互补的方向试图解决这些限制。基于提示的学习方法利用任务特定的指令和标签生成器[28],将预训练目标与下游的实体识别对齐[43]。基于对比学习的方法通过建模支持原型和查询实例之间的相似性来提高类内紧凑性和类间区分度[20]。其他研究方向包括跨任务优化初始化的元学习框架、通过大型语言模型扩展覆盖范围的数据增强策略、用于解决嵌套实体的基于跨度的卷积方法,以及结合视觉或上下文信号的多模态技术[15],[35]。尽管这些进展提高了性能,但仍然存在一些持续存在的问题。在少样本采样下,原型表示往往不稳定;对比框架中的正负样本对可能噪声较大或定义不明确;基于提示的模型对模板设计敏感。同样,许多基于增强的方法存在语义漂移的风险,而元学习策略通常假设存在丰富的源领域,但在现实世界的资源匮乏场景中这可能并不成立。
尽管取得了进展,但这些方法仍存在显著的限制。当实体语义与标签生成器的空间偏离时,基于提示的模型可能表现不佳,限制了适应性。对比框架依赖于精心构建的样本对,在领域变化时往往表现不佳[23],此时类间边界变得模糊。数据增强流程在某些情况下有效,但可能会引入噪声并扭曲实体边界。元学习方法虽然优雅,但通常需要多样化的源任务和大规模的情节化训练,这两者在资源受限的领域中往往不可行。综上所述,这些问题的核心在于:很少有现有系统能够在统一的、计算效率高的架构中同时解决语义多样性、原型鲁棒性和跨领域适应性。
现有少样本NER算法的主要问题是它们无法在不同领域捕获完整且稳定的原型表示[41]。类内语义多样性导致簇分布分散,而特定领域的实体标签解释导致查询样本和支持样本之间的不匹配。现有方法仅部分解决了这些问题,要么通过引入额外的架构复杂性(如多模态信号和手工制作的提示),要么假设外部资源,但在资源匮乏的环境中这些资源并不现实[39]。因此,迫切需要一种方法,能够在不牺牲效率或可扩展性的情况下,稳健地对齐查询和支持实体的语义,减少原型偏移并改进决策校准。
为了解决这些挑战,提出了UniFuse框架(Unified Fusion的缩写),这是一个结合了原型优化、语义提示和自适应校准的混合少样本NER框架。UniFuse这个名字反映了其核心设计原则,即将多种互补策略统一到一个基于融合的架构中。与仅依赖编码器增强或手工制作模板的先前方法不同,该模型在编码后阶段进行操作,通过将标记级嵌入与语义标签生成器融合来细化原型,确保更强的上下文关联。它还引入了反事实原型混合策略,合成信息丰富的负样本以清晰类边界,并采用基于信任度的校准机制,通过安全可学习的温度来稳定跨领域的预测。这些组件共同构成了一个轻量级但强大的架构,同时提高了准确性、可靠性和领域泛化能力,使UniFuse区别于之前的少样本NER系统。最后,基于高斯的对比融合将查询表示[8]与校准后的原型对齐,而辅助的跨度一致性目标则确保了基于指针的解码过程中的边界一致性。这些组件共同产生了更紧凑、更具区分性和适应性的原型,从而在少样本情况下提高了准确性和鲁棒性。
该框架在两个基准数据集CoNLL 2003[27]和Few-NERD[9]上进行了验证,涵盖了1样本和5样本设置。评估指标不仅包括跨度级别的F1分数,还包括预期校准误差(ECE)、风险覆盖曲线下的面积(AURC)和推理延迟。这些指标强调了可靠性、效率和准确性。实验结果表明,UniFuse在指定设置中超越了现有的最先进方法,在准确性和校准方面都取得了持续的改进,同时保持了计算上的轻量性。
本研究的主要贡献总结如下:
- •
统一的原型细化:一个以原型为中心的少样本NER框架,利用反事实混合生成紧凑且具有区分性的语义表示。
- •
基于信任度的校准:一种考虑可靠性的校准机制,具有可学习的温度调节功能,用于减轻领域差异并提高预测置信度。
- •
高斯对比融合:一种结合跨度一致性的对比对齐策略,在保持实体边界准确性的同时对齐查询和原型分布。
上述贡献为少样本NER提供了一个可扩展、适应性强且高效的解决方案,推动了该领域在高资源和低资源环境中的实际应用。