基于ForensicNet多任务深度学习模型的巴西青少年全景片性别与年龄自动估计研究

《International Dental Journal》：Multi-Task Deep Learning for Sex and Age Estimation from Panoramic Radiographs in a Brazilian Young Population

【字体：大中小】 时间：2026年01月28日 来源：International Dental Journal 3.7

编辑推荐：

　　本研究针对传统法医和临床中年龄性别估计方法主观耗时的问题，开发并验证了一种基于ForensicNet的多任务深度学习框架，该框架利用EfficientNet-B3骨干网络结合卷积块注意力模块，能够同时从巴西5-15岁青少年人群的全景片中高精度估计时序年龄和分类性别。结果显示，该模型在年龄估计（MAE=0.57，R2=0.92）和性别分类（ACC=0.90，AUC=0.973）上均优于基准模型，Grad-CAM可视化证实其关注解剖相关区域，为法医和儿科临床提供了快速、客观、可重复的自动化解决方案。

在法医科学和个体识别领域，准确估计时序年龄和进行性别分类至关重要，尤其是在刑事调查中帮助缩小潜在嫌疑人范围。传统方法如法医DNA检测和耐磨损组织的形态学评估虽然广泛应用，但通常劳动密集、耗时且易受人为误差和观察者间差异的影响。其中，牙齿结构评估因其准确、高效和可靠的特点而受到越来越多的关注。全景放射片作为儿童和青少年牙齿年龄估计的常用影像学手段，能提供牙齿和骨骼成熟度的重要信息，然而传统方法效率低下，亟需自动化可靠方案的诞生。

近年来，深度学习作为人工智能的一个分支，已被探索用于从全景片估计时序年龄和分类性别的研究中，并显示出 promising 的结果。然而，现有研究大多聚焦于年龄或性别的独立预测，而非同时解决两个任务，且常受限于数据集不平衡的问题。近期研究提出的ForensicNet是一个专门为同时从全景片估计时序年龄和分类性别而开发的多任务深度学习框架，其特点包括提高效率、无需单独模型、结合卷积块注意力模块（CBAM）以增强捕捉长距离解剖关系的能力，以及使用加权多任务损失确保平衡优化。但由于该模型最初仅在韩国人群中进行测试，评估其在具有不同种族背景和不同年龄范围人群中的性能以确保其更广泛的适用性和泛化能力至关重要。

为此，本研究旨在基于ForensicNet，提出并评估一个多任务深度学习框架，用于同时从巴西5-15岁儿童和青少年人群的全景片中估计时序年龄和分类性别。该回顾性研究经当地研究伦理委员会批准，共收集2200张高分辨率全景片，按年龄和性别平衡分布。图像被随机分为训练集（1320张）、验证集（440张）和测试集（440张）。研究采用的ForensicNet框架整合了EfficientNet-B3骨干网络进行特征提取，并设有两个任务特定分支（年龄注意力分支和性别注意力分支），每个分支均包含CBAM模块。模型采用加权多任务损失函数（年龄损失权重α=0.3，性别损失权重β=0.7）进行端到端训练，并与VGG16、MobileNet v2、ResNet101、InceptionResNet v2和DenseNet121五种基准架构进行比较。使用梯度加权类激活映射（Grad-CAM）进行模型可解释性分析。

关键技术方法

本研究关键技术方法包括：1) 数据收集与整理：回顾性收集巴西5-15岁患者2019至2024年间使用OP300 Maxio系统采集的2200张高分辨率全景片，确保年龄和性别平衡分布。2) 多任务深度学习架构：基于ForensicNet，采用EfficientNet-B3作为骨干网络，并设置包含CBAM的年龄和性别两个任务特定分支进行同步预测。3) 模型训练与评估：使用加权多任务损失函数进行端到端训练，并与五种基准模型对比，评估指标包括平均绝对误差（MAE）、决定系数（R²）、准确率（ACC）、曲线下面积（AUC）等，并利用Grad-CAM进行可视化分析以增强模型可解释性。

研究结果

模型整体性能比较

ForensicNet在时序年龄估计和性别分类任务上均表现出最优性能。在年龄估计方面，其平均绝对误差（MAE）最低（0.57 ± 0.71），决定系数（R²）最高（0.92）。在性别分类方面，其准确率（ACC）最高（0.90），敏感性（SEN）也最高（0.89）。相比之下，其他基准模型在不同指标上各有优劣，但整体不及ForensicNet。

年龄估计成功率分析

在不同误差阈值（1年、2年、3年、4年、5年）下，ForensicNet的成功估计率均高于其他网络。例如，在1年误差范围内，其成功估计率达到93.63%，显著优于其他模型，表明其在狭窄误差范围内的预测可靠性更高。

各年龄组误差分析

补充表格显示，ForensicNet在7岁、10岁、11岁和14岁四个年龄组中取得了最低的平均绝对误差，而其他模型在不同年龄组各有优势，但ForensicNet整体表现更为均衡和优秀。

混淆矩阵分析

混淆矩阵显示，ForensicNet在时序年龄估计中，假阳性案例相对于真阳性案例的分布更为均衡，表明其在不同年龄类别上性能一致。在性别分类中，ForensicNet对女性的真阳性分类数最高（n=196），假阳性数最低（n=24）。

模型判别与校准能力

ForensicNet在性别分类中取得了最高的曲线下面积（AUC=0.973）和最低的Brier分数，表明其具有最优的判别能力和预测校准精度。

消融实验与超参数分析

消融研究表明，移除CBAM模块或改变任务权重均会导致模型性能下降，证实了CBAM和所选用加权方案（α=0.3, β=0.7）的有效性。

模型可解释性分析

Grad-CAM热图显示，在成功的年龄估计和性别分类案例中，ForensicNet的注意力主要集中在牙列区域，包括乳牙、混合牙列和恒牙列。而在估计错误的案例中，注意力则更分散于鼻窦、下颌骨、颈椎等非牙列区域，或呈现弥散激活，提示模型在遇到非典型解剖模式时决策依据可能不够明确。

研究结论与讨论

本研究提出的基于ForensicNet的多任务深度学习模型在从巴西青少年全景片中同时估计时序年龄和分类性别方面表现出强大的有效性。模型性能的优越性得益于平衡的数据集、CBAM的引入以及加权多任务损失函数的优化。可解释性分析证实模型能够关注解剖和临床相关区域，增强了其在法医和诊断背景下的潜在应用价值。

研究也指出了若干局限性。数据集年龄范围（5-15岁）限制了模型对其他年龄组的适用性。数据来源于单一机构的巴西人群，可能影响模型对其他种族、地理区域或涉及逝者法医场景的泛化能力。尽管使用了Grad-CAM，模型仍存在一定的"黑箱"特性，部分错误估计案例的注意力集中在信息较少的区域，表明需要进一步发展可解释性人工智能方法。

与先前研究相比，ForensicNet通过多任务学习架构和针对法医牙科影像的专门设计，在儿科人群中实现了与大型数据集单任务模型相当甚至更优的性能，特别是在处理混合牙列等复杂发育阶段时显示出潜力。其在不同种族人群（巴西 vs. 原开发韩国人群）中的良好表现，初步支持了其跨人群应用的稳健性。

未来研究应致力于通过纳入多中心、多族裔的大规模数据集来提升模型的泛化能力，并探索结合卷积神经网络、Transformer和扩散模型等混合架构以进一步提升性能。总之，ForensicNet为法医和儿科临床提供了一种可靠、稳健且临床可解释的自动化年龄性别估计工具，但其应用仍需专家监督和持续验证，作为辅助工具而非替代品。

热点排行

新闻专题