CILF-CIAE：基于CLIP的图像-语言融合技术，用于纠正逆向年龄估计的错误

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：CILF-CIAE: CLIP-driven Image–Language Fusion for Correcting Inverse Age Estimation

【字体：大中小】 时间：2026年01月01日 来源：Neural Networks 6.3

编辑推荐：

　　提出基于CLIP的FourierTransformer架构CILF-CIAE，通过对比学习实现图像与文本语义对齐，设计可逆错误反馈机制优化年龄估计，在六个数据集上验证其MAE低于现有方法并显著提升多模态融合效果。

作者：周云涛、孟涛、艾伟、尹楠、李克勤

中国湖南省长沙中南林业科技大学计算机与数学学院，邮编410004

摘要

年龄估计任务旨在通过分析图像中的面部特征来预测个体的年龄。年龄估计技术的发展可以提高各种应用的效率和准确性（例如，年龄验证和安全访问控制等）。近年来，对比语言-图像预训练（CLIP）已在多种多模态任务中得到广泛应用，并在计算机视觉领域取得了一些进展。然而，CLIP在年龄估计中的推广及其误差反馈机制尚未得到充分研究，现有的基于Transformer的方法在全局建模图像时需要较高的内存消耗（二次复杂度）。为了解决这些问题，我们提出了一种新颖的CLIP驱动的图像-语言融合方法，用于纠正反向年龄估计（CILF-CIAE）。具体而言，我们首先引入CLIP模型分别提取图像特征和文本语义信息，并将它们映射到高度语义对齐的高维特征空间中。接下来，我们设计了一种新的Transformer架构（即FourierFormer），以实现图像的通道演化和空间交互，并融合图像和文本的语义信息。与注意力机制的二次复杂度相比，所提出的FourierFormer具有线性对数复杂度。为了进一步缩小图像和文本特征之间的语义差距，我们利用了一个高效的对比多模态学习模块，通过对比损失监督FourierFormer的多模态融合过程，从而改善不同模态之间的交互效果。最后，我们引入了可逆年龄估计方法，利用端到端的误差反馈来降低年龄预测的误差率。在六个基准数据集上的广泛实验表明，CILF-CIAE的表现优于LRA-GNN和MCGRL等先进方法。例如，在MORPH-S2数据集上，我们的方法获得了1.68的MAE，显著低于LRA-GNN的2.21和MCGRL的1.77，显示出其在实际年龄估计场景中的优越准确性和鲁棒性。

引言

年龄估计任务的目标是根据图像中的面部特征来确定年龄。近年来，由于图像数据集的快速增长和深度学习（DL）的广泛应用，年龄估计方法也取得了重要成果，并引起了广泛的研究关注（Shen等人，2019年；Liu等人，2020年；Yin等人，2023b年）。此外，年龄估计在许多场景中也得到了广泛应用。例如，在金融和保险领域，年龄估计有助于检测欺诈行为，其中年龄被虚假申报以获取不当利益（Rothe等人，2018年；Bao等人，2023年；Yin等人，无日期）。

当前主流的年龄估计方法分为三类：基于CNN的方法（Niu等人，2016年；Duan等人，2017年）、注意力网络（Wang等人，2022年；Zhang等人，2019年）和GCN（Shou等人，2023年）。为了提取图像的全局信息和多尺度信息，通常使用基于CNN的年龄估计算法。例如，Rothe等人（2018年）基于CNN方法从单张面部图像中估计了个体的真实年龄和表观年龄。与许多传统的机器学习方法不同（Cao等人，2012年），这种方法不需要使用面部特征点标记，只需输入面部图像即可进行年龄估计。然而，基于CNN的方法无法捕捉与年龄特征最相关的图像语义特征。为了给与年龄特征最相关的图像语义特征更高的权重，开始应用注意力网络。例如，Shen等人（2022年）引入了注意力机制，使模型能够自动关注与年龄估计相关的图像区域，从而提高模型对与年龄相关的重要特征的感知能力。除了用于年龄估计任务的注意力结构外，还提出了许多特定任务的Transformer变体，以应对特定领域的挑战。例如，Top-k Token Selective Transformer（Xiao等人，2024b年）引入了一种令牌选择策略，仅保留对遥感图像超分辨率最有信息量的补丁，有效减少了计算开销，同时保持了全局上下文。同样，Medical Transformer（Valanarasu等人，2021年）采用门控轴向注意力来增强医学图像分割中的空间依赖性建模，展示了基于Transformer的设计在复杂结构领域中的适应性。然而，基于注意力网络的方法无法灵活地处理不规则对象。为了解决上述问题，Shou等人（2023年）提出了一种用于年龄估计的对比多视图GCN（CMGCN）。CMGCN通过将图像表示扩展到拓扑语义空间，提高了图像的特征表示能力。然而，上述方法都是监督学习方法，忽略了基于CLIP的多模态学习范式。以图1(a)和(b)为例，现有的年龄估计算法主要关注监督学习或自监督算法设计（Bao等人，2022年；Deng等人，2021年），忽略了对比图像-语言预训练（CLIP）范式。CLIP可以从大量文本-图像对中学习面部的先验信息，为下游任务提供更好的泛化能力。具体来说，CLIP通过对比学习从大量图像-文本对中学习图像和文本之间的相关性。此外，现有算法直接预测年龄，缺乏误差信息反馈机制，这可能导致模型预测的年龄与真实标签之间存在较大误差。因此，有必要以CLIP多模态学习和误差可控生成作为模型设计的起点。

为了解决上述问题，我们提出了一种新颖的CLIP驱动的图像-语言融合方法，用于纠正反向年龄估计（CILF-CIAE）来进行年龄估计。CILF-CIAE主要包括四个模块：基于CLIP的视觉和语言特征编码器、基于FourierFormer的特征融合模块、年龄预测模块和误差可控生成模块。首先，我们使用CLIP中的图像编码器和文本编码器分别编码图像和文本特征，并获得相应的特征表示。在获得图像和文本特征表示后，我们将它们共同输入到N维特征空间中进行对比学习，以获得对齐的文本和图像语义向量，并利用获得的图像语义向量进行年龄估计。其次，如图2(a)和(b)所示，与之前的基于CNN和基于注意力的Transformer架构不同，基于CNN的方法只能提取图像的局部信息，使用上下文提示模块来增强年龄估计较为困难，而基于注意力的方法需要较高的内存消耗（二次复杂度）。我们引入了基于傅里叶变换的Transformer架构，以实现图像特征的空间交互和通道演化，从而融合文本和图像特征信息，提高年龄估计性能。具体来说，我们用傅里叶变换替换了Transformer中的注意力模块，并将图像特征输入到FourierFormer中以实现空间交互和通道演化。为了进一步缩小图像和文本特征之间的语义差距，我们利用了一个高效的对比多模态学习模块，通过对比损失监督FourierFormer的多模态融合过程，从而改善不同模态之间的交互效果。最后，我们构建了年龄估计预测损失和文本-图像匹配损失，以完成模型的参数优化。最后，我们构建了一个可逆的误差校正年龄估计模块，以确保预测年龄位于高置信区间内，实现端到端的学习方式。

因此，CLIP多模态学习、图像的空间交互和通道演化应该是年龄估计算法设计的核心。受上述分析的启发，我们提出了一种新颖的CLIP驱动的图像-语言融合方法，用于纠正反向年龄估计（CILF-CIAE）来进行年龄估计。本文的主要贡献如下：

1.

我们提出了一种针对年龄估计的新颖CLIP驱动的图像-语言融合框架（CILF-CIAE），通过集成视觉引导的语义对齐流程和专门的校正机制，超越了简单的CLIP微调。

2.

我们设计了一种名为FourierFormer的轻量级Transformer变体，它用可学习的基于频率的空间和通道交互模块替换了自注意力机制。与FNet或频率辅助的Mamba不同，我们的设计针对图像-语言融合进行了优化，并结合了非线性滤波和残差路径来增强表示能力。

3.

我们引入了一个具有上下文感知提示增强的对比多模态学习模块，通过傅里叶增强的视觉上下文加强了图像-文本对齐。这与之前的基于CLIP的工作（例如CoOp、CoCoOp）不同，因为它利用了动态的、视觉驱动的文本引导。

4.

我们开发了一种端到端的可逆误差反馈机制，结合了显式和隐式的误差建模，使用轻量级回归器的集成。与标准的后处理方法不同，我们的机制集成到了训练循环中，并迭代地优化预测，直到估计误差降至学习阈值以下。

节选内容

年龄估计

传统的年龄估计方法通常依赖于手工设计的特征提取和机器学习算法，这些方法受到特征选择和年龄估计性能的限制（Cao等人，2012年；Yin等人，2023a年；Yin等人，2022年）。随着互联网和社交媒体的普及（例如Meta、Twitter和YouTube等），大规模的面部图像数据集也得到了广泛增长。数据集的快速增长为深度学习（DL）提供了丰富的训练数据，使得DL

CILF-CIAE结构的设计

本文提出的CILF-CIAE架构如图3所示，包括年龄预测阶段和年龄误差优化。具体来说，我们首先使用基于CLIP的年龄估计模型和傅里叶先验模块来预测图像的年龄。为了进一步缩小图像和文本特征之间的语义差距，我们利用了一个高效的对比多模态学习模块，通过对比损失监督FourierFormer的多模态融合过程

使用的基准数据集

在本文中，我们使用了六个基准数据集MORPH-II¹、FG-Net²、CACD³、Adience⁴、FACES⁵和SC-FACE⁶来进行年龄估计实验，并验证我们CILF-CIAE方法的有效性。

MORPH-II。MORPH-II数据集在面部图像研究中被广泛使用

结果与讨论

在本节中，我们讨论了我们的方法CILF-CIAE和其他比较方法在六个数据集上的实验结果。

偏差分析和人口统计差异评估

为了调查我们模型中的潜在偏差，我们对MORPH-II数据集进行了额外分析，该数据集包含年龄组、性别和种族的元数据注释。我们将数据集划分为不同的人口统计子组，并评估了每个组的平均绝对误差（MAE）。结果表明，模型在大多数年龄段的性能都很好，但在较老年组（60岁以上）中观察到略微较高的MAE，这可能是由于训练样本减少和

结论与未来工作

本文提出了一种新颖的CLIP驱动的图像-语言融合方法，用于纠正反向年龄估计（CILF-CIAE）来进行年龄估计。首先，我们使用CLIP中的图像编码器和文本编码器获得相应的特征表示并实现年龄估计。其次，我们引入了基于傅里叶变换的Transformer架构，以实现图像特征的空间交互和通道演化。具体来说，我们用傅里叶变换替换了Transformer中的注意力模块

数据可用性和访问

数据可应要求提供。

CRediT作者贡献声明

周云涛：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化。孟涛：撰写——审阅与编辑、验证、资源管理、方法论、调查、资金获取。艾伟：撰写——审阅与编辑、监督、资源管理。尹楠：撰写——审阅与编辑、监督、项目管理。李克勤：撰写——审阅与编辑、项目管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（项目编号62372478、62472165）、湖南省自然科学基金一般项目（项目编号2025JJ50380）和湖南省自然科学基金青年项目（项目编号2025JJ60420）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号