《Egyptian Journal of Forensic Sciences》:Adult age estimation from first molar pulp chamber volume in a Han Chinese population using a machine learning approach
编辑推荐:
背景:准确的年龄估计在法医学身份识别中至关重要。尽管传统骨骼方法常受保存状况和个体变异限制,但牙齿具有更高的埋藏后稳定性。第一磨牙因继发性牙本质(secondary dentin)持续沉积而发生与年龄相关的髓室缩小,使其成为成人年龄估计的有价值目标。本研究旨在
背景:准确的年龄估计在法医学身份识别中至关重要。尽管传统骨骼方法常受保存状况和个体变异限制,但牙齿具有更高的埋藏后稳定性。第一磨牙因继发性牙本质(secondary dentin)持续沉积而发生与年龄相关的髓室缩小,使其成为成人年龄估计的有价值目标。本研究旨在基于汉族成人人群第一磨牙三维髓室体积(pulp chamber volume, PCV)建立并比较曲线回归模型与机器学习模型,用于年龄估计。
结果:研究人员在单中心环境下,利用锥形束计算机体层成像(cone-beam computed tomography, CBCT)对1,857颗汉族18–65岁成人右侧第一磨牙〔上颌16牙与下颌46牙,FDI记牙法(FDI notation)〕进行了回顾性分析。PCV在性别之间以及上、下颌位置之间均显示出显著差异。PCV与年龄之间观察到强负相关(r = –0.88 至 –0.81),其中女性上颌第一磨牙的相关性最强(r = –0.88)。最佳三次回归模型(女性、上颌)达到平均绝对误差(mean absolute error, MAE)4.95岁。机器学习模型表现出更优性能。针对女性上颌磨牙的性别和牙位特异性XGBoost模型达到MAE = 3.14岁(95% 置信区间(confidence interval, CI):2.92–3.37),且R2 = 0.87(95% CI:0.84–0.89),与最佳回归模型相比,误差降低36.5%。
结论:将第一磨牙髓室体积与机器学习相结合,尤其是性别和牙位特异性XGBoost模型,可为法医学实践中的成人年龄估计提供一种精确且可重复的方法。与传统回归模型相比,该方法显示出显著改进;当具备性别及牙位特异性数据时,该方法有望成为法医学实践中用于成人年龄估计的高精度工具。
本文发表于《Egyptian Journal of Forensic Sciences》,聚焦法医个体识别中的成人年龄估计问题。年龄估计是灾难遇难者识别、刑事司法调查及移民年龄核验中的基础环节,但传统骨骼学方法依赖骨缝闭合、骨骺愈合等发育标志,容易受到遗体保存状态、埋藏后变化及个体生物学差异影响,导致误差较大。相比之下,牙齿因抗腐败、抗环境破坏能力强,且死后改变较少,被认为是法医学年龄推断中更稳定的材料。论文指出,第一恒磨牙萌出最早、功能持续时间最长,其髓室随年龄增长因继发性牙本质沉积而持续缩小,因此具有作为成人年龄估计指标的生物学基础。既往研究虽已从一维、二维影像参数发展至三维体积测量,但二维方法容易受投影失真与解剖重叠限制,而基于牙体或髓腔总体积的研究又可能受到咬合磨耗、牙根因素等干扰。因此,研究人员选择第一磨牙髓室体积(PCV)作为更具针对性的三维指标,并尝试结合机器学习,以提升汉族成人年龄估计的准确性与可重复性。
围绕这一目标,研究人员基于四川北川医学院附属医院的回顾性CBCT资料,纳入18–65岁汉族成人1,857例右侧第一磨牙影像数据,其中包括上颌16牙和下颌46牙。研究在严格排除了龋坏、修复、根管治疗及明显咬合磨耗累及牙本质等可能改变正常髓室形态的牙齿后,建立了相对生理状态下的研究样本。论文的核心任务包括两部分:其一,验证PCV与实际年龄之间的关系及其在不同性别、不同牙位中的差异;其二,比较传统曲线回归模型与多种机器学习算法在成人年龄估计中的性能差异,并据此筛选最佳模型。最终,研究表明PCV与年龄之间存在稳定而显著的负相关关系,且机器学习模型,尤其是按性别与牙位分层构建的XGBoost模型,显著优于传统回归模型。这一结论说明,将CBCT三维定量与机器学习结合,能够在法医学成人年龄估计中提供更高精度的技术路径。
本研究的主要技术方法可概括如下:研究样本来源于单中心医院放射数据库,为2020年12月至2023年6月期间符合纳入标准的汉族成人CBCT影像。研究使用Mimics软件对右侧上颌第一磨牙(16)与右侧下颌第一磨牙(46)的髓室进行半自动分割,并辅以人工精修和双操作者质量控制,获得PCV(mm
3)数据;采用组内相关系数(intraclass correlation coefficient, ICC)评价测量一致性;在统计建模中,以年龄为因变量、PCV为自变量,建立11种曲线回归模型,并利用Python实现线性回归、Lasso回归、神经网络(neural network, NN)、随机森林(random forest, RF)、梯度提升(gradient boosting, GB)和极端梯度提升(eXtreme Gradient Boosting, XGBoost)6类机器学习模型;通过训练集/测试集划分、5折交叉验证、网格搜索及bootstrap重采样对模型进行优化与评估。
以下为论文结果部分的分节解读。
Reliability assessment
研究首先评估了PCV测量的重复性与一致性。结果显示,观察者间ICC为0.84,观察者内ICC为0.89,且均显著大于0,提示基于CBCT与半自动分割流程获得的髓室体积数据具有良好的重复测量可靠性。这一结果为后续相关性分析与预测建模提供了方法学基础,说明PCV作为定量指标具备较好的操作稳定性。
Differences in PCV by sex and tooth position (Maxillary vs. Mandibular)
研究人员比较了不同性别及不同牙位的PCV差异,发现男性PCV显著大于女性,上颌第一磨牙PCV显著大于下颌第一磨牙,差异均具有统计学意义。这提示髓室体积不仅受年龄影响,还受到性别二态性和牙弓位置的系统性影响。论文同时指出,高年龄组尤其是58–65岁组样本量较少,且老年男性更少,因此该年龄段模型表现需谨慎解释。该部分结果直接支持后续按性别、按牙位分层建模的必要性。
Correlation between PCV and age
Pearson相关分析表明,PCV与实际年龄在所有分组中均呈强负相关,相关系数范围为r = –0.81至–0.88,且均达到统计学显著。其中,女性上颌右侧第一磨牙(16牙)的相关性最强,r = –0.88。该结果说明,随着年龄增长,髓室体积持续缩小,且这一变化规律可被三维体积指标较好捕捉。女性及上颌磨牙表现出更强相关性,也提示年龄相关牙本质沉积过程在不同生物学亚群中具有不同的可预测性。
Regression model development and performance
在传统建模部分,研究人员基于训练集建立了11种曲线回归模型,涵盖线性、对数、反比、二次、三次、复合、幂函数、S曲线、生长、指数与Logistic等形式。比较各模型决定系数R
2后,三次回归模型在各亚组中均表现最佳,说明PCV与年龄之间更符合非线性关系。在所有三次回归模型中,以女性上颌16牙PCV建立的模型误差最小,MAE为4.95岁;而总体样本中使用合并PCV建立的模型误差较高,MAE为7.43岁。这表明,即便采用最佳传统回归形式,统一模型仍难以充分适配不同性别和不同牙位的生物学差异,传统固定函数形式对复杂年龄变化模式的拟合能力有限。
Machine learning model development and performance
在机器学习部分,研究共比较了6种算法,并在独立测试集中评价模型性能。结果显示,区分上颌/下颌牙位的特异性模型,整体上优于不区分牙位的模型;同样,区分性别的模型也优于未分性别的模型。这说明牙位和性别是影响年龄估计精度的关键特征变量。就总体样本而言,最佳非牙位特异模型为GB,R
2 = 0.74,MAE = 4.70岁;而牙位特异性XGBoost模型提升至R
2 = 0.84,MAE = 3.46岁。男性样本中,最佳非牙位特异模型MAE为4.81岁,牙位特异性XGBoost模型降至3.27岁。女性样本中,最佳非牙位特异模型MAE为4.60岁,而女性牙位特异性XGBoost模型达到全研究最佳表现,MAE = 3.14岁,R
2 = 0.87。与最佳三次回归模型相比,该模型误差降低36.5%,且差异经Bonferroni校正后的配对t检验验证具有统计学意义。研究据此得出,XGBoost在处理PCV与年龄间复杂非线性关系方面最具优势,能够更有效整合性别和牙位信息。
Discussion
讨论部分围绕研究结果的法医学意义、与既往工作的关系及局限性展开。论文认为,本研究通过CBCT实现第一磨牙髓室的三维定量,克服了二维影像方法中投影失真与解剖重叠的局限,从而更准确地表征年龄相关的髓室形态变化。PCV与年龄之间稳定的强负相关验证了其作为成人年龄估计生物标志的有效性。研究还从解剖与生物学角度解释了上颌磨牙PCV较大及性别差异明显的现象,并指出这些差异与既往跨人群观察相一致,因此法医学实践中有必要构建性别特异性和牙位特异性模型。与既往使用二次回归、对数回归等方法且MAE多在6.25–9.22岁之间的研究相比,本研究的三次回归已取得较好效果,但机器学习尤其是XGBoost进一步显著降低误差,说明固定形式方程难以充分建模牙髓退变过程中的复杂生物学变异,而集成学习方法在此类问题中具有明显优势。
论文也强调了模型应用时的边界条件。首先,样本仅来自四川地区汉族人群,跨人群外推能力尚需进一步验证。其次,虽然已排除明显病理与修复干扰,但磨牙症、异常功能习惯和咬合负荷等因素未进行临床量化评估,可能影响继发性牙本质沉积及PCV。再次,高龄组样本不足,尤其是老年男性,使该年龄段预测稳定性受到限制。此外,现有PCV获取流程依赖半自动分割与人工修正,效率较低,仍存在操作者依赖性。论文据此指出,未来应在不同族群中进行外部验证,并推动基于深度学习的自动分割方法及多模态牙齿特征整合,以进一步提升模型的泛化能力与应用效率。
结论:本研究在汉族成人人群中证实,第一磨牙髓室体积(PCV)与实际年龄之间存在强负相关(r = –0.88 至 –0.81),其中女性上颌磨牙的相关性最强。通过构建性别和牙位特异性的XGBoost模型,研究实现了MAE为3.14岁的年龄估计精度,R
2为0.87,较最佳传统三次回归模型提升36.5%。上述结果表明,第一磨牙PCV具有明确的法医学应用价值,而机器学习,尤其是性别和牙位特异性XGBoost模型,在成人年龄估计中具有显著优势。未来研究应重点推进跨人群验证、基于深度学习的自动分割以及多模态牙科特征整合,以进一步提高模型的泛化性与准确性。