通过跨领域引导的伪目标实现少量样本增量式食物识别

《Pattern Recognition》:Few-Shot Incremental Food Recognition via Cross-Domain Guided Pseudo-Targets

【字体: 时间:2026年02月11日 来源:Pattern Recognition 7.6

编辑推荐:

  食品视觉识别中的增量学习面临细粒度混淆、知识遗忘和零样本幻觉等挑战,本文提出CFPE框架通过跨域对抗训练生成高质伪目标、贝塞尔球面分布优化特征空间、食品因子语义约束解决视觉混淆、深度解耦元学习平衡稳定性与可塑性,实验验证其在267类中文食品数据集上达到SOTA性能。

  
柴敏康|卢伟|郑倩|张冉|叶竹
北京航空航天大学仪器与光电工程学院,中国北京100191

摘要

全球食品文化的爆炸性增长扩大了视觉识别的应用范围;然而,这也带来了由类别内部高变异性和类别间相似性引起的复杂挑战。现有系统难以解决细微的混淆问题,以及在保留旧知识和适应新信息之间的权衡。传统方法严重依赖大规模数据集,而新兴的零样本技术则在遇到未见过的菜肴时容易产生语义幻觉,从而对精确识别构成了严重挑战。为了解决这些问题,我们提出了跨域引导的食物伪目标估计(CFPE)框架,该框架是一种以视觉为主导、语义增强的新范式。首先,为了解决增量数据的稀缺问题,我们利用跨域对抗训练和自适应掩码生成器来合成高质量的伪目标,从而在特征空间内建立稳定的几何锚点。其次,通过整合贝塞尔估计超球损失(BELH)和扰动边缘增强原型正则化(PMEPR),我们几何重构了特征的超球面流形分布,有效纠正了由少量样本引起的估计偏差。关键的是,我们引入了基于食物因素的视觉语义一致性(FVSC)约束,通过注入结构化语义来明确分离细微的视觉混淆。这通过一种深度感知的特征解耦策略得到补充,以动态平衡模型的可塑性和稳定性。实验结果表明,CFPE在多个基准数据集上实现了最先进的性能。它不仅显著提高了增量学习的准确性,而且在识别高熵食物图像时也表现出卓越的鲁棒性。

引言

随着对数字饮食管理需求的增长,现实世界中食品种类的指数级增加给食品计算系统带来了严峻挑战,这些系统必须在不断适应新类别的同时保持高精度[1]。传统的固定类别检测器无法满足这些动态需求。尽管少样本类别增量学习(FSCIL)试图在资源受限的边缘设备上平衡稳定性和可塑性,但它仍然受到数据稀缺导致的灾难性遗忘和过拟合的困扰[2]。为了规避这一瓶颈,最近的研究倾向于两种主要范式:利用预训练的先验和特征空间重构。例如,刘等人[3]和李等人[4]使用大型语言模型(LLM)中的语言锚点(如自适应提示)来促进视觉迁移。然而,由于食品数据的高度区域差异,这些方法在通用先验和特定特征之间的领域转换时经常会出现性能下降[2]。相反,艾哈迈德等人[5]从几何角度出发,利用特征正交性来最大化类别间的可分性并减轻特征空间压缩。尽管有这些进展,包括[5]和陈等人的多粒度正则化策略[6]在内的主流方法仍然主要局限于像素级别的几何约束。这些方法经常忽略了食品图像中固有的关键结构化语义,如成分和烹饪技术。这种“语义盲点”阻碍了模型为视觉上相似但在语义上不同的细粒度类别(如“肉饼”与“糖醋炖肉”)建立稳健的决策边界[7]。
更重要的是,食品识别超越了简单的图像分类,需要深入理解潜在的语义关系[8]。尽管LLM和零样本学习为通用对象识别开辟了新的途径[9,10],但仅依赖LLM生成的描述进行食品识别已被证明是有限的。一个主要限制是食品文化中固有的极端区域偏见,其中通用知识往往无法捕捉特定的视觉变化,例如食堂特定的食谱修改。在这种情况下,稀疏的真实图像作为定义类别的不可或缺的“视觉锚点”,提供了比通用文本描述更强的确定性。此外,当遇到现有知识库中不存在的新菜肴时,生成模型容易产生语义“幻觉”[11]。这种现象通过无效信息引入噪声,对模型输出的一致性和可靠性产生了怀疑。因此,有效地整合语义信息以增强细粒度区分能力,同时不削弱视觉特征的主导地位,仍然是当前研究的一个巨大挑战。
为了解决这些挑战,我们提出了跨域引导的食物伪目标估计(CFPE)框架。受到艾哈迈德等人[5]引入的正交性概念的启发,我们进一步在几何和语义维度上执行特征空间重构。CFPE不是盲目地用大型模型替换视觉表示,而是使用来自Transformer模型(BERT)[12]的轻量级双向编码器表示来处理结构化的食品属性。这作为一种属性增强机制,有助于更紧密的视觉聚类。该框架基于三个核心组件。首先,食物跨域伪目标生成(FCPG)模块利用跨域对抗训练来合成与真实分布一致但相互独立的伪目标,从根本上扩展了特征空间的多样性并优化了拓扑结构。然后,为了解决由于样本稀缺引起的数据分布不平衡问题,贝塞尔估计超球损失(BELH)使用von Mises–Fisher(vMF)分布[13]对高维特征进行建模。最后,为了提高细粒度类别的区分精度,基于食物因素的视觉语义一致性(FVSC)通过对比学习将视觉特征与语义嵌入对齐。
本研究的主要贡献总结如下:
  • 1)
    跨域伪目标生成方法:我们提出了一种结合博弈论的机制和注意力机制,利用跨域对抗训练网络和食物适应性掩码生成器来合成与真实食物特征高度一致的伪目标。这优化了特征空间的拓扑结构,并为增量学习提供了稳定的参考原型,显著提高了对新类别的适应性。
  • 2)
    超球贝塞尔估计和分布优化:为了解决少样本场景中的估计偏差,我们引入了一种基于vMF分布的超球贝塞尔估计方法。通过结合扰动边缘增强原型正则化(PMEPR)并将其与先验概率相结合,这种方法在增量学习期间有效地平滑了预测输出,并减轻了类别不平衡的负面影响。
  • 3)
    基于食物因素的语义嵌入约束:利用BERT编码器处理结构化的食品属性信息(例如,成分和烹饪方法),我们构建了一个联合的语义-视觉嵌入空间。这种机制通过显式的属性增强实现了更精细的视觉-语义对齐,有效解决了视觉上相似类别之间的混淆。
  • 4)
    深度感知解耦元学习策略:我们提出了一种深度正则化的加权策略,冻结主干网络,同时仅微调独立的特征映射层,从而差异性地控制深度和浅层网络层的更新速率。这种策略确保了旧知识的缓慢遗忘和对新知识的快速适应,从而防止了灾难性遗忘,同时减少了计算资源需求。
  • 相关工作

    相关工作

    我们的工作与两个研究领域密切相关:FSCIL和食品识别。

    框架概述

    为了有效应对FSCIL中数据稀缺和灾难性遗忘的双重挑战,我们提出了CFPE框架。如图1所示,该框架通过四个协同阶段系统地重构了特征空间的几何拓扑和语义分布。

    基础知识

    监督对比学习中的特征分布
    监督对比学习旨在构建一个高维嵌入空间

    实验设置

    数据集。为了全面评估我们框架的有效性,我们构建并使用了Vireo-Food-267数据集。在Vireo-Food-172 [34]的基础上,该数据集整合了从百度搜索引擎中爬取的150种流行中国菜肴的图像。经过严格的去重、清洗和过滤后,最终编译了267个不同的食品类别。除了高分辨率和标签准确性外,该数据集还包含了细粒度的信息

    局限性

    尽管CFPE框架在食品FSCIL方面提供了显著的优势,但我们必须客观地考察其在现实世界场景中的适用性边界。
    对结构化语义的依赖:FVSC模块的有效性严重依赖于高质量结构化元数据的可用性,例如成分列表。在缺乏此类注释的现实世界场景中,模型无法构建有效的视觉-语义

    结论

    本研究通过提出和验证CFPE框架,解决了FSCIL食品识别中保留先验知识和适应新知识之间的挑战性权衡。与仅依赖视觉特征或不加区分地结合通用LLM先验的方法不同,CFPE建立了一种“以视觉为主导、语义增强”的细粒度识别范式。从几何角度来看,通过跨域伪目标生成和超球面分布校准

    作者贡献

    柴敏康:概念化、方法论、撰写 - 原始草案;卢伟:概念化、验证;郑倩:监督;张冉:撰写 - 审稿与编辑;叶竹:软件;数据管理、分析。

    CRediT作者贡献声明

    柴敏康:撰写 – 原始草案、方法论、概念化。卢伟:验证、概念化。郑倩:监督。张冉:撰写 – 审稿与编辑。叶竹:软件、数据管理。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号