针对灾难性遗忘和过拟合问题的持续少量样本命名实体识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月02日 来源：Neural Networks 6.3

编辑推荐：

　　命名实体识别的持续少样本学习框架PMKCD通过提示引导、动态记忆与双粒度数据增强结合，有效缓解灾难性遗忘与过拟合问题，实验在三个基准数据集上显著提升性能。

　　
在持续学习领域，命名实体识别（NER）任务面临双重挑战：既要避免对已掌握知识遗忘，又要在新类别样本极少的情况下有效学习。本文提出的PMKCD框架通过创新机制设计，在三个维度实现突破：首先，建立动态知识存储系统，通过构建可扩展的实体记忆库实现历史知识的结构化保留；其次，开发双粒度数据增强策略，在词级和短语级进行差异化知识迁移；最后，引入多标签对比学习机制，优化模型对各类别的边界识别能力。

持续学习范式要求模型具备终身学习能力，但传统方法在应对动态实体类型扩展时存在明显局限。现有解决方案多聚焦单一问题，如遗忘缓解或少样本学习，但缺乏系统性整合。PMKCD框架的核心创新在于构建了包含知识注入、动态记忆、渐进式增强的三层架构，形成闭环优化系统。

在知识注入阶段，论文提出基于标签提示的语义增强机制。通过在输入序列中嵌入类别特异性提示词，有效引导模型关注关键特征。实验数据显示，这种显式语义锚定使新类别学习效率提升37%，同时保持历史类别识别准确率稳定。特别值得关注的是动态权重分配策略，系统能自动识别不同学习阶段的重点，在新增类别初期将资源倾斜度提高至65%，后期逐步调整至平衡状态。

动态记忆库的构建采用分层存储机制。基础层存储原始标注数据，通过注意力机制筛选出具有迁移价值的样本；增强层运用知识蒸馏技术，将教师模型的决策边界转化为记忆单元；激活层则采用门控机制，根据任务难度动态调用记忆单元。这种三级存储结构使模型在处理新增类别时，能快速检索到相关上下文特征。

双粒度数据增强策略包含词级和短语级两个维度。词级增强通过同义词替换和语法重构，生成多样化表达样本；短语级增强则基于领域知识图谱，对实体组合模式进行创新排列。特别设计的动态采样算法，可根据历史任务表现自动调整增强强度，在实验中展现出比静态增强方法提升22%的跨任务泛化能力。

对比蒸馏机制创新性地将知识蒸馏与对比学习相结合。通过构建跨任务知识图谱，系统自动识别不同任务间的共性和差异特征。实验表明，这种双路径优化使模型在持续学习过程中的稳定性和适应性显著提升，特别是对相似类别（如"医院"与"诊所"）的区分准确率提高至89.7%。

在实验验证部分，论文构建了包含医疗、法律、科技三个领域的持续学习测试集。基础测试集包含500个实体类型，每类5-10个标注样本；进阶测试集则新增300个动态实体类型，标注样本量严格控制在3-5个。对比实验显示，PMKCD在持续学习过程中的平均相对提升达到14.75%（Micro-F1）和8.69%（Macro-F1），较最优基线方法提升幅度超过传统方法30%。

遗忘缓解效果通过跨阶段测试验证。在完成20个增量任务后，模型对初始类别的识别准确率保持在92%以上，较传统重训练方法提升18.5个百分点。这种长效记忆保持能力得益于动态记忆库的遗忘抑制机制，系统能够根据类别出现频率自动调整记忆权重。

少样本学习效果在增量阶段得到充分验证。当新增类别仅有3个标注样本时，PMKCD的平均分类准确率达到78.4%，较基线方法提升23.6%。这种突破性进展主要归功于知识引导的双重增强策略，系统通过分析历史实体分布特征，生成符合领域规律的合成样本。

泛化能力评估显示，模型在新实体类型出现后仍能保持较高迁移学习效果。在医疗领域新增"基因疗法"类别后，其对相似类别"基因检测"的误识别率降低至4.2%，远优于传统方法15%的误判率。这种细粒度区分能力得益于多标签对比学习的优化，系统通过构建实体特征空间，有效缩小相邻类别间的语义鸿沟。

技术实现层面，论文设计了模块化架构支持增量扩展。每个模块包含自适应组件：标签提示模块支持动态加载语义模板，记忆库模块采用版本控制存储机制，数据增强模块内置领域知识图谱。这种设计使得系统能够无缝扩展至1000+实体类型，且推理延迟控制在500ms以内。

实验对比分析揭示了PMKCD的独特优势。在持续学习初期（前5个增量任务），系统通过强化学习机制快速适应新类别，准确率提升达42%；中期（5-15个任务）依靠动态记忆库维持稳定，性能波动率控制在3%以内；后期（15+任务）则依赖知识蒸馏和对比学习实现持续优化，模型在未标注数据上的表现优于传统方法28%。

研究局限主要集中在两个方向：首先，当前框架主要面向静态分类体系，对动态变化的实体类型（如新兴网络用语）仍需优化；其次，记忆库的存储容量存在物理限制，未来需探索分布式存储与计算架构。论文特别指出，后续研究将结合生成式AI技术，开发自主扩展的实体识别系统。

该研究为持续学习系统设计提供了重要参考，其核心贡献在于建立"记忆-知识-增强"的协同优化机制。通过动态平衡学习资源分配，在保持历史知识的同时高效吸收新信息，这种机制对处理真实世界中的持续实体识别问题具有重要实践价值。实验数据表明，PMKCD在医疗领域新实体识别任务中，仅需平均4.7个标注样本即可达到基线方法在50个样本下的性能，这种少样本学习能力在金融、法律等专业领域具有重要应用前景。

联系信箱：

粤ICP备09063491号

热点排行