通过多任务和多年龄检测方法,在无约束图像中筛查未成年人

《Pattern Recognition》:Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery

【字体: 时间:2026年03月17日 来源:Pattern Recognition 7.6

编辑推荐:

  自动筛查未成年人需要模型具备对抗分布偏移和缓解数据不平衡的能力。本文提出多任务架构,在冻结的FaRL视觉语言模型基础上添加MLP层,实现年龄回归和四个关键年龄阈值(12/15/18/21岁)的二元分类。通过年龄平衡的小批量采样和α加权焦点损失缓解类别不平衡,并设计年龄间隙排除模糊样本。构建了包含30.3万训练图像和11万测试图像的新基准ASORES,以及测试分布偏移的ASWIFT-20k数据集。实验表明模型MAE降低0.107岁,F2分数提升0.056,在复杂场景下仍保持0.99召回率。

  
克里斯托弗·高尔(Christopher Gaul)|爱德华多·菲达尔戈(Eduardo Fidalgo)|恩里克·阿莱格雷(Enrique Alegre)|罗西奥·阿莱兹·罗德里格斯(Rocío Alaiz Rodríguez)|埃里·佩雷斯·科拉尔(Eri Pérez Corral)
莱昂大学(Universidad de León)工程研究与创新研究所I4的视觉与智能系统研究小组(Group for Vision and Intelligent Systems),莱昂,24071,西班牙

摘要

在无约束图像中准确自动识别未成年人需要模型能够抵抗分布偏移,并且对公共数据集中儿童样本的不足表示具有鲁棒性。为了解决这些问题,我们提出了一种多任务架构,该架构包含专门用于判断年龄是否不足/过大的任务。该架构基于一个固定的FaRL视觉-语言框架(FaRL vision-language backbone),并结合了一个紧凑的两层MLP(多层感知器),该MLP在一个年龄回归头和四个二进制未成年头(12岁、15岁、18岁和21岁)之间共享特征,即重点关注法律上最关键的年龄范围。通过年龄平衡的小批量采样来主要缓解类别不平衡问题,并探索使用α-加权焦点损失(α-reweighted focal loss)作为补充策略;同时,年龄差距有助于排除接近年龄阈值的模糊样本。
评估是在我们的新整体未成年基准数据集上进行的(30.3万张清洗过的训练图像,11万张测试图像),包括限制性的“ASORES-39k”测试(排除了最嘈杂的领域)和年龄估计的“ASWIFT-20k”测试(2万张图像),后者强调了极端姿势(>45°)、表情和低图像质量,以模拟现实世界中的变化情况。
在我们的多年龄模型F上,经过重新采样和年龄差距处理后,ASORES-39k上的平均绝对误差从4.175岁(仅年龄信息的基线)降低到4.068岁,18岁以下未成年人的检测准确率从F2分数0.801提高到0.857,误报率为1%。在ASWIFT-20k测试中,相同的配置几乎保持了0.99的召回率,同时F2分数从0.742提高到0.833,显示出对领域变化的鲁棒性。

引言

面部年龄估计旨在从面部图像中预测一个人的年龄[1]。尽管它是一项回归任务,但通常被表述为分类任务,通过四舍五入年龄或定义年龄组来处理[2]。二元情况,即区分低于或高于某个阈值的主体,被称为年龄验证,或者相反,称为未成年人检测。
年龄估计和未成年人检测在许多应用中变得越来越重要,包括年龄限制服务、定向广告、社交媒体管理,以及最关键的是,保护未成年人。这些应用涉及为设备(如赌博机或香烟自动售货机)或年龄限制的智能手机应用程序配备自动面部年龄验证系统。未成年人检测对于在数字环境中执行与年龄相关的法规和打击儿童性剥削材料(CSEM)的传播至关重要。隐藏在大量数据中的CSEM通过两步过程进行检测:首先检测性活动[3],然后检测未成年人。CSEM分类错误的成本是不对称的:误判为成年人意味着儿童虐待未被发现,而误判为未成年人仅意味着工作人员会检查图像并认为是一个误报。因此,这类系统通常以高召回率(例如0.99)运行,以避免遗漏未成年人,而精度则较低(接受一些误报)。
尽管在面部年龄估计方面取得了显著进展,但大多数现有解决方案都是为受控环境设计的,在图像条件理想的情况下表现良好。然而,现实世界场景(“野外”)带来了重大挑战,包括头部姿势的变化、面部表情、照明条件、图像分辨率以及频繁的遮挡[4]。这些因素严重影响了模型的可靠性,通常会降低其性能。在区分儿童、青少年和成人时,这些挑战变得更加明显。这正是准确检测在法律和安全考虑方面变得更加关键的地方。此外,像MORPH[5]、AFAD[6]或AgeDB[7]这样的公开面部数据集具有偏斜的分布,其中儿童和青少年的样本严重不足。这种不平衡导致年轻年龄组的性能下降。因此,在关键应用(如CSEM调查)中,未成年人检测系统的有效性受到影响。在这项工作中,我们针对这三个目标解决了鲁棒的面部年龄估计和未成年人检测的挑战:
  • 一个用于无约束条件下的年龄估计模型的基准
  • 改进年龄估计模型,重点关注这种无约束场景。
  • 增强对未成年人的年龄估计以及未成年人与成人的区分能力。
  • 为了实现这些目标,我们提出了一个适用于无约束环境的综合框架。本研究的主要贡献如下:
  • 整体未成年基准数据集及其受限子集ASORES-39k,旨在准确评估年龄估计和未成年人检测模型,同时排除标签嘈杂或不可靠的样本。
  • ASWIFT-20k,一个新的无约束测试基准,用于在多样化和具有挑战性的成像条件下评估模型的鲁棒性,包括姿势、面部表情、照明和图像质量的变化。
  • 一种多任务学习架构,将年龄回归与专门用于判断年龄是否不足/过大的二进制分类器相结合,在最关键的地方增强区分能力。
  • 训练期间采用年龄平衡的采样策略来缓解类别不平衡。这确保了未成年人得到平等的表示,提高了模型在代表性不足的年龄组中的泛化能力。
  • 我们还探索了α-加权焦点损失(α-reweighted focal loss)来减轻类别不平衡的影响,并优先处理困难和少数类样本,但这种技术最终将被更高效的重新采样策略取代。
  • 所提出的方法旨在改进面部年龄估计,特别是区分青春期前、青春期和成年个体。根据我们与执法机构(LEAs)在先前项目中的经验,并考虑到男性和女性的相同年龄,我们将相关年龄确定为12岁(青春期前)、15岁(青春期)和18岁或21岁(成年)[8]。重点在于开发在各种现实世界条件下表现良好的鲁棒未成年人检测系统,包括不同的姿势、面部表情和低图像质量。此外,它还解决了关键的机器学习挑战,如类别不平衡和领域变化。
    本文的其余部分组织如下。第2节回顾了相关工作。第3节和第4节描述了所提出的方法(数据集、模型架构和训练)。第5节展示了实验结果并讨论了不同基准下的性能。最后,第6节总结了主要结论。

    相关工作

    相关工作

    面部年龄估计
    面部老化涉及面部比例、特征形状和皮肤纹理的逐渐变化。早期工作明确地对这些因素进行了建模。Lanitis等人[9]使用面部标志的主成分分析(principal component analysis)和PCA空间中的老化轴分离构建了一个统计模型,而Han等人[10]引入了基于决策树和支持向量回归器(decision tree and support-vector regressors)的生物启发式特征。
    后来的方法使用了深度学习和卷积神经网络

    整体未成年基准数据集和ASWIFT-20k无约束测试

    本节介绍了所提出的数据集和基准:整体未成年基准数据集(Section 3.1),以及ASORES-39k测试和ASWIFT-20k测试,用于评估模型对分布变化的鲁棒性(Section 3.2)。

    使用MultiAge网络的未成年人检测架构

    在这项工作中,我们扩展了Paplhám和Franc[15]提出的“FaRL + MLP”模型,并将其适应于现实世界条件下的未成年人检测下游任务。FaRL的图像编码器[16]具有8700万个参数,是一个12层的视觉变换器[33],与早期的CNN和像SSR-Net[13]这样的“紧凑”模型相比规模较大,但仍小于Rothe等人[12]的VGG-16。

    实验与讨论

    本节进行了实证评估。首先,我们复现了一个基线年龄估计器(Section 5.1),然后探讨了在统一数据集上的训练(Section 5.2)。Section 5.3研究了在不同训练设置下的18岁以下未成年人检测,而Section 5.4将结果扩展到其他阈值并探讨了架构变体。

    结论

    在这项工作中,我们提出了一种多任务架构,用于在无约束图像中进行面部年龄估计和未成年人检测,该模型在四个关键法律阈值(12岁、15岁、18岁和21岁)上同时进行年龄回归和二进制未成年人分类。该模型利用了FaRL框架的面部表示,并在多源数据集上进行了训练,该数据集通过排除嘈杂的CACD2000数据集和去除标签噪声进行了优化。为了应对不平衡问题

    CRediT作者贡献声明

    克里斯托弗·高尔(Christopher Gaul):撰写——原始草稿、方法论、调查、概念化。 爱德华多·菲达尔戈(Eduardo Fidalgo):撰写——审阅与编辑、监督。 恩里克·阿莱格雷(Enrique Alegre):撰写——审阅与编辑、监督。 罗西奥·阿莱兹·罗德里格斯(Rocío Alaiz Rodríguez):撰写——审阅与编辑。 埃里·佩雷斯·科拉尔(Eri Pérez Corral):撰写——审阅与编辑、数据整理。

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
    克里斯托弗·高尔、爱德华多·菲达尔戈、恩里克·阿莱格雷、罗西奥·阿莱兹·罗德里格斯和埃里·佩雷斯·科拉尔报告称获得了Cybersecurity National Institute的财务支持。克里斯托弗·高尔报告与德国德雷登的Cognitec Systems GmbH有合作关系,包括咨询或顾问服务。如果还有其他作者,他们声明没有已知的相关关系

    致谢

    本项工作得到了欧盟(下一代)的“恢复、转型和韧性计划”(Recovery, Transformation, and Resilience Plan)通过LUCIA项目(利用人工智能打击网络犯罪)的资助,该项目由INCIBE授予莱昂大学。
    克里斯托弗·高尔(Christopher Gaul)是一位量子物理学家和机器学习专家,拥有拜罗伊特大学(德国)的理论物理学博士学位。在2024年加入莱昂大学的GVIS之前,他曾在马德里康普顿斯大学(Complutense University of Madrid)、德累斯顿的马克斯-普朗克复杂系统物理研究所(Max-Planck Institute for the Physics of Complex Systems)和ICAMCYL(莱昂)工作。他的专业知识和研究兴趣位于物理学、化学和人工智能(AI)的交叉领域
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号