UniFuse：统一的原型优化与校准方法，用于小样本命名实体识别任务

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　小样本命名实体识别（Few-shot NER）面临原型不稳定、监督不足和跨域分布偏移等问题，UniFuse提出后编码原型优化与校准框架，通过语义提示增强原型语义一致性，反事实原型混合提升类间可分性，信任加权校准调节预测置信度，结合高斯对比融合与跨度一致性正则化，在CoNLL 2003和Few-NERD数据集上F1达89.3%和81.2%，ECE仅0.12且推理速度低于26ms/次。

Ajmal Samadi | D Muhammad Noorul Mubarak

印度喀拉拉大学计算机科学系医学图像处理实验室

摘要

由于原型不稳定、监督数据有限以及不同领域之间的分布差异，少样本命名实体识别（NER）仍然具有挑战性，这往往导致预测不可靠和泛化能力差。现有方法主要关注加强编码器表示或引入对比学习目标，但很少解决类原型的显式稳定化和校准问题，而这些问题对少样本推理至关重要。为了解决这一难题，提出了UniFuse框架，它是一个统一且轻量级的框架，能够进行编码后的原型细化和校准。该模型引入了三项关键创新：语义感知的提示机制，用于将标签级知识注入原型构建；反事实原型混合技术，在数据稀缺的情况下提高类间可区分性；以及基于信任度的校准机制，用于调节预测置信度并减轻领域差异的影响。此外，还采用了高斯对比融合和跨度一致性正则化技术，在解码过程中保持实体边界的准确性。在CoNLL 2003和Few-NERD（领域内和领域间）基准测试中的实验表明，UniFuse的F1分数分别达到了89.3%和81.2%，比现有方法高出5-8个百分点。该模型还实现了较低的预期校准误差（ECE = 0.12），同时保持每段推理时间低于26毫秒，体现了在准确性、可靠性和效率之间的平衡。总体而言，所提出的模型提供了一个可复现、适应领域变化且可扩展的框架，增强了泛化能力，并支持在实际应用中的稳健少样本NER。

引言

命名实体识别（NER）的任务是在非结构化文本中识别和分类实体，如人名、组织、地点、日期和数字表达式[18]。换句话说，它确定句子中的哪些词或短语指的是特定的现实世界对象或概念。

作为自然语言处理（NLP）中的基础任务，NER为信息检索、知识提取、对话系统和问答等多种应用提供了支持。传统的NER系统将任务定义为监督序列标注，其中句子中的每个标记都根据大规模标注的语料库进行标记。虽然在资源丰富的语言和领域内效果良好，但在资源匮乏或领域发生变化的环境中，这些模型的性能会显著下降[15],[35]。在这些情况下，获取足够的标注数据成本高昂、耗时且有时不切实际，尤其是在生物医学文本等专业领域或资源匮乏的语言中[7],[29]。为了解决这一瓶颈，少样本学习作为一种有前景的方法应运而生，它试图仅从少量标注样本中泛化[26]。然而，由于数据极度稀缺、类内语义变异大以及领域不匹配导致原型不稳定和分类错误，少样本NER仍然具有挑战性[23]。

最近的研究通过几个互补的方向试图解决这些限制。基于提示的学习方法利用任务特定的指令和标签生成器[28]，将预训练目标与下游的实体识别对齐[43]。基于对比学习的方法通过建模支持原型和查询实例之间的相似性来提高类内紧凑性和类间区分度[20]。其他研究方向包括跨任务优化初始化的元学习框架、通过大型语言模型扩展覆盖范围的数据增强策略、用于解决嵌套实体的基于跨度的卷积方法，以及结合视觉或上下文信号的多模态技术[15],[35]。尽管这些进展提高了性能，但仍然存在一些持续存在的问题。在少样本采样下，原型表示往往不稳定；对比框架中的正负样本对可能噪声较大或定义不明确；基于提示的模型对模板设计敏感。同样，许多基于增强的方法存在语义漂移的风险，而元学习策略通常假设存在丰富的源领域，但在现实世界的资源匮乏场景中这可能并不成立。

尽管取得了进展，但这些方法仍存在显著的限制。当实体语义与标签生成器的空间偏离时，基于提示的模型可能表现不佳，限制了适应性。对比框架依赖于精心构建的样本对，在领域变化时往往表现不佳[23]，此时类间边界变得模糊。数据增强流程在某些情况下有效，但可能会引入噪声并扭曲实体边界。元学习方法虽然优雅，但通常需要多样化的源任务和大规模的情节化训练，这两者在资源受限的领域中往往不可行。综上所述，这些问题的核心在于：很少有现有系统能够在统一的、计算效率高的架构中同时解决语义多样性、原型鲁棒性和跨领域适应性。

现有少样本NER算法的主要问题是它们无法在不同领域捕获完整且稳定的原型表示[41]。类内语义多样性导致簇分布分散，而特定领域的实体标签解释导致查询样本和支持样本之间的不匹配。现有方法仅部分解决了这些问题，要么通过引入额外的架构复杂性（如多模态信号和手工制作的提示），要么假设外部资源，但在资源匮乏的环境中这些资源并不现实[39]。因此，迫切需要一种方法，能够在不牺牲效率或可扩展性的情况下，稳健地对齐查询和支持实体的语义，减少原型偏移并改进决策校准。

为了解决这些挑战，提出了UniFuse框架（Unified Fusion的缩写），这是一个结合了原型优化、语义提示和自适应校准的混合少样本NER框架。UniFuse这个名字反映了其核心设计原则，即将多种互补策略统一到一个基于融合的架构中。与仅依赖编码器增强或手工制作模板的先前方法不同，该模型在编码后阶段进行操作，通过将标记级嵌入与语义标签生成器融合来细化原型，确保更强的上下文关联。它还引入了反事实原型混合策略，合成信息丰富的负样本以清晰类边界，并采用基于信任度的校准机制，通过安全可学习的温度来稳定跨领域的预测。这些组件共同构成了一个轻量级但强大的架构，同时提高了准确性、可靠性和领域泛化能力，使UniFuse区别于之前的少样本NER系统。最后，基于高斯的对比融合将查询表示[8]与校准后的原型对齐，而辅助的跨度一致性目标则确保了基于指针的解码过程中的边界一致性。这些组件共同产生了更紧凑、更具区分性和适应性的原型，从而在少样本情况下提高了准确性和鲁棒性。

该框架在两个基准数据集CoNLL 2003[27]和Few-NERD[9]上进行了验证，涵盖了1样本和5样本设置。评估指标不仅包括跨度级别的F1分数，还包括预期校准误差（ECE）、风险覆盖曲线下的面积（AURC）和推理延迟。这些指标强调了可靠性、效率和准确性。实验结果表明，UniFuse在指定设置中超越了现有的最先进方法，在准确性和校准方面都取得了持续的改进，同时保持了计算上的轻量性。

本研究的主要贡献总结如下：

•
统一的原型细化：一个以原型为中心的少样本NER框架，利用反事实混合生成紧凑且具有区分性的语义表示。
•
基于信任度的校准：一种考虑可靠性的校准机制，具有可学习的温度调节功能，用于减轻领域差异并提高预测置信度。
•
高斯对比融合：一种结合跨度一致性的对比对齐策略，在保持实体边界准确性的同时对齐查询和原型分布。

上述贡献为少样本NER提供了一个可扩展、适应性强且高效的解决方案，推动了该领域在高资源和低资源环境中的实际应用。

命名实体识别（NER）一直是NLP中的一个长期挑战，它是信息检索、知识库构建和问答等许多下游应用的基石[18]。换句话说，它确定句子中的哪些词或短语指的是特定的现实世界对象或概念。

作为NLP中的基本任务，NER为广泛的应用提供了基础，如信息检索、知识提取、对话系统和问答。传统的NER系统将任务定义为监督序列标注，其中句子中的每个标记都基于大规模标注的语料库进行标记。虽然这些模型在资源丰富的语言和领域内效果良好，但在资源匮乏或领域发生变化的环境中性能会大幅下降[15],[35]。在这些情况下，获取足够的标注数据成本高昂、耗时且有时不切实际，特别是在生物医学文本等专业领域或资源匮乏的语言中[7],[29]。为了缓解这一瓶颈，少样本学习作为一种有前景的方法出现，它试图仅从每个实体类型的少数标注样本中进行泛化[26]。然而，由于数据极度稀缺、类内语义变异大以及领域不匹配加剧了原型不稳定性和分类错误，少样本NER仍然特别具有挑战性[23]。

最近的研究通过几个互补的方向试图解决这些限制。基于提示的学习方法利用任务特定的指令和标签生成器[28]，将预训练目标与下游的实体识别对齐[43]。基于对比学习的方法试图通过建模支持原型和查询实例之间的相似性来提高类内紧凑性和类间区分度[20]。其他研究方向包括优化跨任务初始化的元学习框架、通过大型语言模型扩展覆盖范围的数据增强策略、解决嵌套实体的基于跨度的卷积方法，以及结合视觉或上下文信号的多模态技术[15],[35]。尽管这些进展提高了性能，但仍然存在一些持续存在的问题。原型表示在少样本采样下往往不稳定；对比框架中的正负样本对可能噪声较大或定义不明确；基于提示的模型对模板设计敏感。同样，许多基于增强的方法存在语义漂移的风险，而元学习策略通常假设存在丰富的源领域，但在现实世界的资源匮乏场景中这可能并不成立。

尽管取得了进展，但这些方法仍存在一些显著的限制。当实体语义与标签生成器的空间偏离时，基于提示的模型可能表现不佳，限制了适应性。对比框架依赖于精心构建的样本对，在领域变化时往往表现不佳[23]，此时类间边界变得模糊。数据增强流程在某些情况下有效，但可能会引入噪声并扭曲实体边界。元学习方法虽然优雅，但通常需要多样化的源任务和大规模的情节化训练，这两者在资源受限的领域中往往不可行。总之，这些问题凸显了一个核心差距：很少有现有系统能够在统一的、计算效率高的架构中同时解决语义多样性、原型鲁棒性和跨领域适应性。

现有少样本NER算法的主要问题是它们无法在不同领域捕获完整且稳定的原型表示[41]。类内语义多样性导致簇分布分散，而特定领域的实体标签解释导致查询样本和支持样本之间的不匹配。现有方法仅部分解决了这些问题，要么通过引入额外的架构复杂性（如多模态信号和手工制作的提示），要么假设外部资源，但在资源匮乏的环境中这些资源并不现实[39]。因此，迫切需要一种方法，能够在不牺牲效率或可扩展性的情况下，稳健地对齐查询和支持实体的语义，减少原型偏移并改进决策校准。

为了克服这些挑战，提出了UniFuse框架，它是一个结合了原型优化、语义提示和自适应校准的混合少样本NER框架。UniFuse这个名字反映了其核心设计原则，即将多种互补策略统一到一个基于融合的架构中。与仅依赖编码器增强或手工制作模板的先前方法不同，该模型在编码后阶段进行操作，通过将标记级嵌入与语义标签生成器融合来细化原型，确保更强的上下文关联。它还引入了反事实原型混合策略，合成信息丰富的负样本以清晰类边界，并采用基于信任度的校准机制，通过安全可学习的温度来稳定跨领域的预测。这些组件共同构成了一个轻量级但强大的架构，同时提高了准确性、可靠性和领域泛化能力，使UniFuse区别于之前的少样本NER系统。最后，基于高斯的对比融合将查询[8]表示与校准后的原型对齐，而辅助的跨度一致性目标则确保了基于指针的解码过程中的边界一致性。这些组件共同产生了更紧凑、更具区分性和适应性的原型，提高了少样本情况下的准确性和鲁棒性。

该框架在两个基准数据集CoNLL 2003[27]和Few-NERD[9]上进行了验证，涵盖了1样本和5样本设置。评估指标不仅包括跨度级别的F1分数，还包括预期校准误差（ECE）、风险覆盖曲线下的面积（AURC）和推理延迟。这些指标强调了可靠性、效率和准确性。实验结果表明，UniFuse在指定设置中超越了现有的最先进方法，在准确性和校准方面都取得了持续的改进，同时保持了计算上的轻量性。

本研究的主要贡献总结如下：

•
统一的原型细化：一个以原型为中心的少样本NER框架，利用反事实混合生成紧凑且具有区分性的语义表示。
•
基于信任度的校准：一种考虑可靠性的校准机制，具有可学习的温度调节功能，用于减轻领域差异并提高预测置信度。
•
高斯对比融合：一种结合跨度一致性的对比对齐策略，在保持实体边界准确性的同时对齐查询和原型分布。

上述贡献为少样本NER提供了一个可扩展、适应性强且高效的解决方案，推动了该领域在高资源和低资源环境中的实际应用。

命名实体识别（NER）一直是NLP中的一个长期挑战，它是信息检索、知识库构建和问答等许多下游应用的基石[18]。早期的深度学习模型使用双向循环网络和条件随机场或卷积架构[5],[17],[24]来处理NER。虽然这些监督模型取得了有竞争力的性能，但它们需要大规模的标注语料库，这使得它们

方法论

UniFuse框架为少样本命名实体识别提供了一个统一的架构，优先考虑编码后的原型细化和校准。该系统不是仅依赖编码器优化，而是通过四个集成组件来提高类原型的语义稳定性和区分度：语义提示、反事实原型细化、基于信任度的校准和对比融合。这些模块共同作用，提供了

实验与分析

本节提供了UniFuse的实证验证，并回答了三个关键问题：(i) UniFuse是否在各个数据集和测试方法中始终优于强大的少样本NER基线？(ii) 哪些架构组件解释了观察到的大部分收益？(iii) 该程序是否足够可靠和高效，可以用于实际应用？首先描述了计算设置和软件堆栈以确保可复现性，然后解释了数据集的特点

结果

本节展示了所提出模型的实证结果，并在CoNLL 2003和Few-NERD数据集上与强大的基线进行了对比。报告了1样本和5样本设置下的主要结果，重点关注在相同情节化配置下的跨度级别Micro F1性能。为了明确区分报告和解释，本节仅关注观察到的结果，而更深入的因果洞察则留待后续讨论。

讨论

对所提出模型的评估突显了其在少样本命名实体识别方面的优势，同时也指出了需要进一步关注的领域。原型的质量和校准对于泛化至关重要，尤其是在数据领域发生变化时。通过整合语义提示、原型细化和基于信任度的校准，该模型在不增加推理成本的情况下提高了性能。在Few-NERD上的性能提升

结论与未来工作

本文研究了在有限监督和领域变化条件下，少样本命名实体识别中原型不稳定和预测置信度不可靠的问题。为了解决这些挑战，提出了UniFuse框架，它通过整合语义提示、反事实原型混合和基于信任度的校准，在编码后的决策空间中细化类原型。这种设计直接针对传统基于原型的少样本方法的局限性

CRediT作者贡献声明

Ajmal Samadi：撰写——原始草稿、可视化、方法论、研究、资金获取、概念化 D Muhammad Noorul Mubarak：撰写——审阅与编辑、验证、监督、资源管理、项目协调

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢喀拉拉大学计算机科学系医学图像处理实验室的研究人员和工作人员为这项研究提供的宝贵支持和必要资源。

Ajmal Samadi是印度喀拉拉大学计算机科学系的研究学者。他的研究兴趣包括使用机器学习和深度学习进行自然语言处理，特别关注资源匮乏的语言。他的工作重点是数据高效和稳健的学习范式，用于语言理解，包括命名实体识别、知识提取和关系提取，目标是开发可扩展和适应领域变化的NLP

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

命名实体识别（NER）一直是NLP中的一个长期挑战，它是信息检索、知识库构建和问答等许多下游应用的基石[18]。换句话说，它确定句子中的哪些词或短语指的是特定的现实世界对象或概念。

相关研究

方法论

实验与分析

结果

讨论

结论与未来工作

CRediT作者贡献声明

利益冲突声明

致谢

热点排行