基于YOLOv8和nnU-Net v2的算法在全景X光片上的上颌窦形态测量中用于性别和年龄估计的比较分析

《International Journal of Legal Medicine》：A comparative analysis of YOLOv8 and nnU-Net v2 based pipelines for sex and age estimation from maxillary sinus morphometry on panoramic radiographs

【字体：大中小】 时间：2026年05月10日 来源：International Journal of Legal Medicine 2.3

编辑推荐：

　　摘要目的本研究旨在开发和比较两种基于深度学习的分割-放射组学管道——YOLOv8-Hybrid和nnU-Net v2，用于从全景放射图中通过上颌窦形态测量自动进行性别分类和年龄估计。方法从北塞浦路斯的近东大学收集了1,024张全景放射图的平衡数据集（512名男性，512

　　摘要
目的
本研究旨在开发和比较两种基于深度学习的分割-放射组学管道——YOLOv8-Hybrid和nnU-Net v2，用于从全景放射图中通过上颌窦形态测量自动进行性别分类和年龄估计。

方法
从北塞浦路斯的近东大学收集了1,024张全景放射图的平衡数据集（512名男性，512名女性；年龄18–81岁）。由一位口腔放射学专家生成了真实的窦腔注释，并通过双注释者间观察者可靠性评估（ICC (2,1) = 0.94–0.97）进行了验证。YOLOv8-Hybrid管道采用了YOLOv8n-seg粗略分割、U-Net边界细化、超过120个形态测量和放射组学特征以及CatBoost/XGBoost分类器。nnU-Net v2管道使用了自动配置的2D U-Net分割和相同的特征提取以及XGBoost预测。两种管道都经历了5折交叉验证、患者级别的分割、迁移学习和贝叶斯超参数优化以及SHAP可解释性分析。

结果
nnU-Net v2在性别分类方面取得了统计学上的显著优势（AUC = 0.927 [95% CI: 0.881–0.964]），优于YOLOv8-CatBoost（AUC = 0.893 [0.841–0.938]；DeLong p = 0.024，Cohen’s d = 0.48）。两种管道在年龄估计方面的表现相当（MAE ≈ 7.2岁）。YOLOv8显示出优异的一致性（mAP@50 = 98.19%，CV = 0.77%）。SHAP分析确定双边面积差异是最重要的特征（性别：0.42，年龄：0.51）。在50张独立图像上的外部验证确认了模型的泛化能力。

结论
本研究首次系统地比较了YOLOv8和nnU-Net v2在法医学上颌窦分析中的应用。对于需要精确度的法医报告，推荐使用nnU-Net v2，而YOLOv8-Hybrid则适合高通量筛查。超过120个放射组学/形态测量特征为自动生物特征分析建立了全面的框架。

引言
法医人类学旨在确定未识别人类遗骸的生物特征（性别、年龄、身材、血统）[1]。在法医背景下，“性别”是指从骨骼形态推断出的生物性别，不应与性别认同混淆。性别和年龄估计在mass disasters、战争罪行和法医调查中起着关键作用，因为它们可以缩小搜索范围[2, 3]。传统的生物测量方法可以从骨盆（90%准确率）和颅骨形态（80–85%准确率）提供高准确性的性别判定[4]。牙齿发育[5]、骨骺融合和耻骨联合变化被认为是年龄估计的金标准[6]。然而，在mass disasters、创伤和严重分解的情况下，这些结构可能受损[7, 8]。因此，通过客观、可重复和自动化的方法分析受保护的解剖区域是必要的。上颌窦作为对死后颅骨变化具有抵抗力的持久结构，具有法医生物标志物的潜力[9, 46, 47]。由于雄激素的影响，男性在青春期后上颌窦体积增大[10,11,12]。多项研究表明，上颌窦在大小和形状上存在生物性别差异。全景放射成像用于临床和法医目的，辐射剂量低（0.002–0.010 mSv；约1%的CT剂量）且易于获取[13]。放射组学纹理指标（灰度共生矩阵、灰度运行长度矩阵）通过定量捕捉组织异质性来增强年龄和性别信号[14, 15]。深度学习在医学图像分析中产生了范式转变的影响[16]。卷积神经网络，包括深度残差架构[27]，可以自动学习复杂模式[17, 57]。它们在法医学中的应用使得能够从骨骼遗骸中进行自动生物特征分析[18]。深度学习方法中有两种不同的范式：YOLO家族提供单阶段检测和分割的高速度[19,20,21]；nnU-Net被公认为是医学分割的金标准[22, 23]。

先前的关于从上颌窦进行年龄估计和性别分类的研究主要依赖于手动线性/体积测量和判别函数分析[10, 11, 28, 55, 60]。相比之下，近年来的研究报道了基于机器学习/深度学习的方法在从全景放射图进行自动年龄和性别估计方面的高准确性[29, 31, 43]。本研究的独特之处在于在同一方法框架内开发和比较了两种基于深度学习的分割-放射组学管道，用于从全景放射图中通过上颌窦形态进行年龄估计和性别分类：

假设：
(H1) nnU-Net v2在像素分割方面更优越（中位数DSC > 0.85）；
(H2) YOLOv8在速度和一致性方面更优越（mAP > 98%，CV < 1%）；
(H3) 从nnU-Net掩膜中提取的特征在性别/年龄预测方面提供更高的准确性（AUC > 0.92）；
(H4) 双边面积差异在SHAP分析中贡献最大（> 0.40）。这些阈值是根据已发布的基准预先确定的：DSC > 0.85对应于“良好”的分割性能，如Medical Segmentation Decathlon中所报告的，并被最近的验证指南所推荐[54]；mAP > 98%与基于YOLO的牙科分割基准一致[21, 51]；AUC > 0.92反映了先前报道的法医窦腔分类研究的上限[11, 48, 60]；SHAP > 0.40被设定为识别具有临床意义贡献的特征，超过随机基线水平。

材料与方法
研究设计和伦理批准
本研究作为一项回顾性队列研究，得到了近东大学科学研究伦理委员会的批准，并遵循了赫尔辛基宣言的原则（决定编号YDU/2025/139–2045，日期为2026年1月5日）。由于研究的回顾性设计以及数据的完全去标识化，根据伦理委员会的标准，无需患者同意。使用来自北塞浦路斯近东大学牙科学院档案中的2011年至2013年间为常规牙科治疗拍摄的全景放射图进行了二次法医研究。为了保护患者隐私，所有图像都进行了完全匿名处理，人口统计信息（年龄、性别）存储在单独的安全数据库（labels.csv）中。所有分析都是在去标识化的数据上进行的。本研究遵循STROBE（加强流行病学观察性研究报告）和TRIPOD-AI（透明报告用于个体预测或诊断的多变量预测模型——人工智能）指南（完整检查表可应要求提供）进行报告。

研究人口
纳入标准定义为：年龄18岁或以上，具有无显著伪影的诊断质量图像，且没有影响上颌窦区域的病理、创伤或手术历史。排除那些图像质量因伪影而降低、病理病变妨碍窦腔边界评估或有颌面手术史的个体。根据这些标准，创建了一个包含1,024张全景放射图的平衡数据集。样本包括512名男性（50%）和512名女性（50%）。先验功效分析（G*Power 3.1，双尾，α = 0.05，功效 = 0.80，中等效应大小d = 0.50）表明每组至少需要128名受试者；当前的样本（每组512名）提供了> 99%的统计功效。年龄范围为18–81岁，平均年龄为49.5 ± 18.5岁（表1）。研究人口代表北塞浦路斯的一家大学医院患者群体；主要由地中海血统（土耳其-塞浦路斯人，78%）的成年患者组成。研究中使用了基于实际年龄的年龄估计；法医人类学中的标准实践是根据登记文件对模型进行训练和验证[3, 6]。为了消除设备间的差异，所有图像都是使用相同的Planmeca Proline CC（芬兰赫尔辛基）全景X射线设备按照标准协议（70–77 kVp，8–10 mA，12–18 s，焦点-探测器距离：1.5 m）获得的。

图像预处理和真实值生成
为了优化深度学习模型的性能，对所有图像应用了标准的预处理管道。物理校准和空间分辨率
原始BMP格式的图像深度为16位，平均大小为2000 × 1000像素。Planmeca Proline CC设备的像素大小为0.079 mm/像素，相应的像素面积为（0.079 mm）2 ≈ 0.006241 mm2/像素。这种校准用于将所有形态测量值（面积、周长、高度、宽度）从像素值转换为毫米物理尺寸[45]。图像没有重新调整大小；保留了原始的空间分辨率。强度归一化
应用了对比度受限自适应直方图均衡（CLAHE）算法，使窦腔的微弱边界更加明显（clipLimit = 2.0，tileGridSize=(8, 8)）。CLAHE在保持全局直方图平衡的同时提供了局部对比度增强。随后，图像转换为8位PNG格式（0–255范围内的最小-最大归一化），以提供标准输入格式用于模型训练。对于所有模型，强度值使用最小-最大归一化而不是z分数标准化缩放到[0,1]范围内。放射组学特征量化参数：
对于使用PyRadiomics（版本3.0.1）[61, 62]进行放射组学特征提取，使用了以下标准化参数：灰度binWidth = 25（8位强度范围内的10个区间），不进行强度重新缩放（已经在[0,255]范围内），不进行体素间距重采样（2D图像，非各向同性全景几何）。所有放射组学计算仅在分割的窦腔ROI内进行。

真实值注释和观察者间可靠性
预处理之后，使用LabelMe v5.0.1工具由一位具有超过15年经验的经过认证的口腔和颌面放射学家手动将整个数据集（1,024张图像）中的右侧和左侧上颌窦标记为多边形（观察者1：S.A.）。这些专家标记被接受为模型训练和评估的“真实值”。为了评估观察者间的可靠性，随机选择了100张图像的子集（按性别和年龄组分层，随机种子 = 42），由第二位经验丰富的观察者（观察者2：K.O.，拥有超过20年经验的口腔放射学教授）独立重新注释。两位观察者对彼此的注释不知情。使用以下指标评估观察者间的一致性：
(a) 类内相关系数（ICC）：对于从两位观察者的注释中提取的形态测量值（面积、周长、高度、宽度），计算了双向随机效应模型，单次测量，绝对一致性（ICC (2,1）；
(b) Dice相似系数（DSC）：计算了观察者1和观察者2注释之间的像素级重叠；
(c) Bland-Altman分析：评估了观察者间的一致性系统和95%的置信限，用于窦腔面积测量。

结果
结果显示了出色的观察者间可靠性（表8）：
窦腔面积：ICC = 0.968 [95% CI: 0.954–0.978]，平均DSC = 0.934 ± 0.028；
窦腔周长：ICC = 0.951 [95% CI: 0.932–0.966]；
窦腔高度：ICC = 0.943 [95% CI: 0.921–0.960]；
窦腔宽度：ICC = 0.957 [95% CI: 0.940–0.970]。所有ICC值均超过0.90，根据Cicchetti（1994）的分类标准，表示“优异”的一致性[50]。Bland-Altman分析未发现系统偏差（平均差异：?0.8 mm2 [95% LoA: ?22.1, 20.5 mm2]，用于窦腔面积）。这些结果确认了本研究中使用的真实值注释的可靠性。

实验设置和方法论框架
数据泄露预防：防止数据泄露对于准确评估模型的泛化性能至关重要。为此，根据患者识别号码将数据集进行了分割。这种患者级别的分割确保一个患者的所有数据只在一个集合中（训练、验证或测试）。数据集被分为70%的训练集（717名患者）、15%的验证集（154名患者）和15%的测试集（153名患者），使用StratifiedGroupKFold方法，确保每个集合中保留了年龄和性别。分割验证：验证了训练集、验证集和测试集之间没有患者级别的重叠（无数据泄露）。数据增强
为了防止过拟合并提高模型对解剖变异的鲁棒性，对训练集应用了以下数据增强技术。对于YOLOv8和U-Net：
随机旋转（±15°），随机缩放（0.90–1.10），随机亮度/对比度调整（±20%），禁用水平翻转（保持侧向性），弹性变形（σ = 10，α = 150）。对于nnU-Net：使用了nnU-Net v2的自动增强策略（旋转：±15°，缩放：0.7–1.4，高斯噪声：σ = 0.1，高斯模糊：σ = 0.5–1.5）。为了保持左右对称性，在nnUNetPlans.json中设置了mirror_axes=[]。转移学习领域特定的预训练已被证明可以显著提高医学成像任务的性能[25, 26]。因此，分割模型在Roboflow Universe平台的“牙齿检测”数据集[44]中大约5,300张全景牙科X光片上进行了预训练。这些图像仅用于提高解剖学识别能力，不包含任何人口统计信息，因此没有数据泄露的风险。

管道1：YOLOv8-混合方法
该管道包括四个阶段：粗略分割、边界细化、多模态特征提取和基于集成的预测。
阶段1：粗略分割：使用YOLOv8n-seg模型（3.2 M参数）进行5折交叉验证训练，每个折叠最多300个周期，使用SGD（动量=0.937，权重衰减=5 × 10??），初始学习率为0.01，并采用CosineLR调度，使用Dice + BCE（1:1）复合损失函数。当50个周期内验证mAP@50没有改进时，应用提前停止。

阶段2：边界细化：一个轻量级的2D U-Net [24]（编码器/解码器：各5个块，串联型跳跃连接）对粗略掩码进行细化。使用AdamW（学习率=10?3，权重衰减=3 × 10??）进行训练，批量大小为8，最多300个周期，并应用提前停止（耐心=30）。

阶段3：特征提取：提取了120多个特征，分为三组：形态测量（面积、 perimeter、形状指数、Hu矩、高度/宽度；≥28个特征）、放射组学纹理（GLCM、GLRLM、GLSZM、GLDM；≥80个特征，使用PyRadiomics v3.0.1）和双边不对称性（面积差异、比率、指数；≥12个特征）。

阶段4：预测：使用CatBoost [32]进行性别分类（深度=6，学习率=0.05，迭代次数=500，l2_leaf_reg=3.5，bootstrap_type=‘Bayesian’），并通过Optuna [34]进行优化（300次试验）。使用XGBoost [33]进行年龄回归（最大深度=8，学习率=0.03，n_estimators=800）。

特征选择策略和过拟合控制：鉴于高维特征空间（相对于样本量大于120个特征），采用了多种互补策略来减轻过拟合。首先，CatBoost和XGBoost都内置了L2正则化（l2_leaf_reg=3.5和reg_lambda=1.0）和树深度限制（最大深度=6和8），这些通过惩罚非信息性特征上的复杂分裂来隐式执行特征选择[32, 33]。其次，使用Optuna（300次试验）和5折交叉验证进行贝叶斯超参数优化，以确定最小化验证损失的正则化强度，从而控制模型复杂性[34]。第三，通过对所有五个折叠进行基于SHAP的事后特征重要性分析[38]来评估特征稳定性：性别分类的前15个特征在不同折叠中有87%的重叠（13/15个特征一致），年龄估计有80%的重叠（12/15），表明特征利用是稳健的，而不是特定于折叠的过拟合。第四，嵌套交叉验证设计（外部5折用于评估，内部Optuna循环用于调整）确保超参数选择不会影响性能估计。没有应用显式的降维方法（例如PCA），因为基于树的集成方法本质上对无关特征具有鲁棒性，并且可以从完整的特征空间中受益，以便检测交互作用[32, 33, 56]。

管道2：nnU-Net v2方法
故意使用nnU-Net v2框架[22]的默认自动配置模式（“fingerprinting”）进行架构选择、预处理和训练计划，这是一种原则性的方法选择，以确保完全的可重复性，并利用其开发者所期望的框架的自配置优势[52]。自动确定的架构是一个2D全分辨率U-Net（约31.2 M参数）。特定任务的修改仅限于：（a）禁用镜像增强（在nnUNetPlans.json中设置mirror Axes=[]）以保持窦房的左右对称性信息，以及（b）从牙科X光片语料库中进行领域特定的转移学习（见上面的转移学习）。所有其他配置——包括5折交叉验证、每折1000个周期、SGD（动量=0.99，nesterov=True）、PolyLR调度器（power=0.9）、批量大小2、512 × 512的补丁大小，以及使用Dice + CE（1:1）损失和深度监督——都保留了nnU-Net v2的自动配置。相同的特征集被提取并输入到XGBoost [33]模型中。两种管道的比较架构如图1所示。

图1
此图像的替代文本可能是使用AI生成的。

全尺寸图像
比较深度学习管道架构。上面板：YOLOv8-Hybrid管道（粗略分割 → U-Net细化 → 特征提取 → CatBoost/XGBoost预测）。下面板：nnU-Net v2管道（自动配置的2D U-Net → 特征提取 → XGBoost预测）。在预处理阶段显示了线性测量和上颌窦标记（a1, a2 = 窦房高度；b1, b2 = 窦房宽度）。

外部验证
为了评估所开发管道在主要数据集之外的泛化能力，在一个独立的数据集上进行了外部验证。从同一机构档案中随机选择了50张全景X光片（25名男性，25名女性；年龄范围：18–81岁，按年龄十年分层）（种子=42），但这些患者来自不同的时间段的队列（近东大学，2014–2016年队列；时间上的外部验证），这些患者没有包括在训练集、验证集或测试集中。这些图像是用相同的Planmeca Proline CC设备获得的，确保了方法学的一致性，同时保持了与主要数据集（2011–2013年）的时间独立性。
两种训练有素的管道（YOLOv8-hybrid和nnU-Net v2）都在这些50张图像上以完全自动化的推理模式进行了应用，无需重新训练或微调。预测的分割掩膜由两位观察者进行了视觉审查，并将预测的性别和年龄值与真实记录进行了比较。外部验证结果在结果部分报告。

性能评估和统计分析
分割：YOLOv8的mAP@50和mAP@50–95；nnU-Net的DSC和HD95（校准到0.079 mm/像素）。性别分类：准确性、AUC、精确度、敏感性、F1分数、Cohen’s kappa、Mattews相关性系数。年龄估计：MAE、RMSE、R2、MAPE。不确定性：患者级别的分层 bootstrap，使用BCa 95% CI进行10,000次迭代[35]。AUC比较：DeLong测试[36]。相关指标：Wilcoxon符号秩检验。独立组：Mann-Whitney U检验。效应量：Cohen’s d[37]。年龄偏差：Bland-Altman分析[39]。观察者间可靠性：ICC(2,1)[50]。

模型可解释性（SHAP分析）
将SHAP（Shapley Additive Explanations）[38]和TreeExplainer应用于测试集（153名患者，306个窦房）。通过平均绝对SHAP值总结了全球重要性，并确定了每个任务的前15个特征。

软件和硬件
Python 3.11.7、PyTorch 2.2.1、scikit-learn 1.4.2、Optuna 3.6.0、CatBoost 1.2.3、XGBoost 2.0.3、PyRadiomics 3.0.1、nnU-Net v2.3.1、pingouin 0.5.4（ICC）。固定随机种子=42。GPU：NVIDIA RTX 4090（24 GB），CPU：AMD Ryzen 9 7950X，RAM：64 GB DDR5，存储：2 TB NVMe SSD。

结果
分割性能
YOLOv8-Hybrid
在5折交叉验证中观察到高一致性（表2）。平均掩膜mAP@50 = 98.19 ± 0.76%（CV = 0.77%）。
表2 YOLOv8 5折交叉验证分割结果

nnU-Net v2
在测试集（n = 153名患者，306个窦房）中观察到高精确度（表3）。
右窦房：DSC平均0.711 ± 0.345，中位数0.868 [IQR: 0.716–0.921]，Bootstrap 95% CI: [0.650, 0.767]，HD95: 15.43 ± 20.76 mm。
左窦房：DSC平均0.672 ± 0.348，中位数0.861 [IQR: 0.665–0.905]，Bootstrap 95% CI: [0.610, 0.729]，HD95: 17.82 ± 22.28 mm。
右窦房与左窦房：Wilcoxon符号秩检验p = 0.067，Cohen’s d = 0.131（可以忽略不计）。两个窦房的中位数DSC > 0.86超过了预定假设阈值（H1得到确认；图2和图3）。
表3 nnU-Net v2测试集分割性能指标

图2
此图像的替代文本可能是使用AI生成的。
全尺寸图像
代表性分割结果。左图：真实标注。中间：YOLOv8-Hybrid分割输出。右图：nnU-Net v2分割输出。

图3
此图像的替代文本可能是使用AI生成的。
全尺寸图像
nnU-Net v2分割的Dice相似性系数（DSC）分布，显示为小提琴图。右侧和左侧上颌窦分别显示。

低性能案例分析（DSC < 0.4）：n = 54个窦房段（17.6%；54/306）。相关因素：萎缩/发育不良的窦房（n = 21，38.9%），低对比度/高噪声（n = 18，33.3%），金属伪影（n = 15，27.8%），位置变化（n = 7，13.0%）。

性别分类
nnU-Net-XGBoost（AUC=0.927 [95% CI: 0.881, 0.964]）在统计上显著优于YOLOv8-CatBoost（AUC=0.893 [0.841, 0.938]）（表4）。
表4 YOLOv8-CatBoost和nnU-Net-XGBoost管道之间的性别分类性能比较

全尺寸表格
nnU-Net-XGBoost（AUC=0.927 [95% CI: 0.881, 0.964]）在统计上显著优于YOLOv8-CatBoost（AUC=0.893 [0.841, 0.938]）（DeLong测试：p = 0.024，Cohen’s d = 0.48；图4）。两种模型的性能都显著超过了手动测量研究：Uthman等人83.3% [11]，Sharma等人70% [28]。H3得到确认。
图4
此图像的替代文本可能是使用AI生成的。
全尺寸图像
性别分类的接收者操作特征（ROC）曲线比较。nnU-Net-XGBoost（AUC=0.927）与YOLOv8-CatBoost（AUC=0.893）。

年龄估计
两种系统表现出相似的稳健性能：nnU-Net MAE=7.20岁[5.98, 8.49]；YOLOv8 MAE=7.30岁[6.12, 8.51]（表5）。
表5 两种管道之间的年龄估计性能比较

全尺寸表格
两种系统表现出相似的稳健性能：nnU-Net MAE=7.20岁[5.98, 8.49]；YOLOv8 MAE=7.30岁[6.12, 8.51]。临床可接受性：68.5%的预测值在±7.5岁范围内，91.8%在±15岁范围内（图5和图6）。

图5
此图像的替代文本可能是使用AI生成的。
全尺寸图像
年龄预测散点图。两种管道的预测年龄与实际年龄。理想的预测线（y = x）以虚线显示作为参考。

图6
此图像的替代文本可能是使用AI生成的。
全尺寸图像
Bland–Altman图用于年龄估计。显示了两种管道的平均差异和95%的一致性限制。

形态测量发现和性别二态性
Mann-Whitney U检验：两个窦房的p < 0.001。右窦房的Cohen’s d = 0.52（中等效应），左窦房的Cohen’s d = 0.21（小效应）。男性：右侧1020.5 ± 224.9 mm2，左侧1058.5 ± 237.2 mm2；女性：右侧909.1 ± 191.2 mm2，左侧957.8 ± 199.2 mm2（表6 图7和图8）。
表6 按性别划分的上颌窦面积（mm2）

全尺寸表格
图7
此图像的替代文本可能是使用AI生成的。
全尺寸图像
按性别划分的上颌窦面积分布。箱线图显示了男性和女性的右侧和左侧上颌窦面积分布。

图8
此图像的替代文本可能是使用AI生成的。
全尺寸图像
双边不对称性分析。按性别划分的左右窦房面积差异分布。

SHAP分析
双边面积差异：性别SHAP=0.42，年龄SHAP=0.51（H4得到确认）（表7）。
表7 性别分类和年龄估计的前10个SHAP特征

全尺寸表格
双边面积差异：性别SHAP=0.42，年龄SHAP=0.51（H4得到确认）。两项任务中的前10个放射组学特征证实了组织级别的信号（图9和图10）。

图9
此图像的替代文本可能是使用AI生成的。
全尺寸图像
SHAP（Shapley Additive ExPlanations）特征重要性排名。性别分类（左侧）和年龄估计（右侧）的前10个特征。

图10
此图像的替代文本可能是使用AI生成的。
全尺寸图像
交叉验证稳定性分析。两种管道在5个折叠中的性能指标

观察者间可靠性
所有形态测量指标的ICC值都超过了0.90（根据Cicchetti 1994 [50]评为“优秀”）：
表8：
窦房面积：ICC(2,1) = 0.968 [95% CI: 0.954, 0.978]
窦房周长：ICC(2,1) = 0.951 [0.932, 0.966]
窦房高度（a1, a2）：ICC(2,1) = 0.943 [0.921, 0.960]
窦房宽度（b1, b2）：ICC(2,1) = 0.957 [0.940, 0.970]
观察者间的平均DSC：0.934 ± 0.028

表8 观察者间可靠性结果：组内相关系数（ICC(2,1)值

Bland-Altman分析：平均面积差异 = ?0.8 mm2 [95%置信区间: ?22.1, 20.5 mm2]，没有系统性偏差（回归斜率p = 0.72；图11）。
图11
此图像的替代文本可能是使用AI生成的。
全尺寸图像
观察者间可靠性分析。Bland–Altman图显示了观察者1和观察者2在上颌窦面积测量上的一致性（n = 100张图像，200个窦房）。平均差异 = ?0.8 mm2，95%置信区间：[?22.1, 20.5 mm2]。

外部验证
在50张独立的外部验证图像上：
性别分类准确性：nnU-Net：82.0%（41/50），YOLOv8：78.0%（39/50）。
年龄估计MAE：nnU-Net：7.85岁，YOLOv8：8.12岁。
分割成功率（DSC > 0.5）：nnU-Net：86.0%（43/50），YOLOv8：92.0%（46/50）。在外部数据上的性能与主要测试集结果一致，轻微的下降可以归因于样本量较小和预未来研究应探索对抗干扰因素（如伪影）的架构、基础模型（如SAM [53]）或专门的预过滤模块。在性别分类和性二态性方面，nnU-Net-XGBoost的准确率为85.27%，Cohen’s Kappa值为0.703（“显著一致”），优于之前的全景研究：Uthman等人[11]的83.3%，Sharma等人[28]的70%，Divyadharsini和Uma Maheswari[48]的72.5%，de Queiroz等人[49]的69.2%，以及Gurses等人[58]的76.8%（基于机器学习的方法）。男性两侧的鼻窦明显更大（p < 0.001）。Cohen’s d值为0.52（右侧鼻窦，中等效应），支持青春期后雄激素驱动的鼻窦发育[10]。SHAP分析中双边区域差异的显著性（0.42）定量证实了上颌窦不对称性是关键的法医生物标志物。

年龄估计方面，nnU-Net的MAE为7.20岁，YOLOv8的MAE为7.30岁，均优于之前的研究：Cameriere等人[29]和Gulsahi等人[30]（MAE约为10岁）。Vila-Blanco等人[42]展示了使用深度神经网络从全景X光片估计实际年龄的方法；然而，我们的研究是首次专门针对鼻窦特征进行的研究。Bland-Altman分析确认没有系统偏差（平均值：-0.34岁）。在法医人类学中，±10岁被认为是“可接受的”[3]；91.8%的预测结果落在±15岁范围内。

在放射组学方面，整合了超过120个形态测量和放射组学特征，显著优于传统的4-12个特征方法。GLCM对比度反映了性别之间的小梁结构異质性差异；GLRLM运行百分比捕捉了与年龄相关的骨骼排列恶化情况。

关于生物信号强度和法医实用性：我们认识到，正如先前系统评价所指出的，上颌窦形态为性别和年龄估计提供的生物信号属于中等强度而非强烈强度[60]。本研究中观察到的效应大小（右侧鼻窦区域的Cohen’s d值为0.52，性别分类的AUC值为0.927）与已知的鼻窦性二态性一致[10, 12, 31]。然而，上颌窦的法医实用性在于其墓志铭学上的韧性——在严重分解、烧毁或碎片化的遗骸中，鼻窦通常仍然保持完整，而骨盆或耻骨联合等更强指示器则可能无法获取[9, 46, 47]。我们的流程并不是作为独立的法医识别工具提出的，而是作为多指标生物特征分析框架中的补充组件，这与当代法医人类学实践一致[1, 3]。所获得的0.927 AUC代表了相对于传统手动测量方法（69-83%[11, 28, 48, 49]）的统计上显著改进，并提供了具有明确定义误差范围的量化后验概率，适用于法医报告。此外，放射组学方法（GLCM、GLRLM、GLSZM）能够捕获传统线性测量无法得到的纹理级信息，这可能是其性能优于传统方法的原因[14, 15, 59]。

在观察者间可靠性方面，添加了双人注释员验证机制，解决了医学AI研究中的一个常见局限。观察者之间的ICC值（0.94-0.97，“优秀”）和平均DSC值（0.934）表明真实的注释结果高度可靠且可重复，从而增强了所有下游模型评估的有效性。

外部验证方面，对来自不同患者队列（2014-2016年）的50张独立图像进行的时间验证证实了两种流程的普遍适用性。观察到的性能（nnU-Net性别准确率：82%，年龄MAE：7.85岁）与主要测试集结果一致，考虑到样本量较小和队列间变异性，性能略有下降也是可以预期的。YOLOv8显示了更高的分割成功率（92%对比86%，DSC > 0.5），这与它的鲁棒性优势相符。

基于我们的发现，我们提出以下架构选择框架：
(1) 高通量场景（大规模灾难分诊）：YOLOv8-Hybrid（参数减少10倍，CV=0.77%）。
(2) 需要极高精度的应用（法医报告、法庭证据）：nnU-Net v2（AUC=0.927，p=0.024）。
(3) 硬件受限环境（移动设备、现场部署）：YOLOv8-Hybrid（参数量320万对比3120万）。

模型可解释性方面，SHAP分析明确报告了哪些特征对预测有贡献，将这些模型不仅定位为分类器，而且作为具有明确误差范围的法医意见生成器。这与法医证据中对可解释误差率的要求一致。

局限性：
(a) 单中心/单人群：需要多民族、多中心的验证。
(b) 回顾性设计：需要前瞻性临床研究。
(c) 2D成像方式：CBCT提供更丰富的3D信息，但全景成像更易于获取且辐射剂量更低。
(d) 成年年龄范围（18-81岁）：包含儿童组可能提高准确性[43]。
(e) 横断面设计：纵向数据可以直接显示老化变化。
(f) 未包含创伤和病理信息：法医案件可能需要创伤检测模块。
(g) 外部验证样本量：来自多个中心的大规模外部队列将增强普遍适用性的声明。

结论
本研究首次系统地比较了YOLOv8-hybrid和nnU-Net v2系统在法医人类学中基于上颌窦的生物特征分析中的应用。YOLOv8适用于临床筛查，具有一致性高（mAP@50=98.19%，CV=0.77%）。对于法医报告，应优先选择nnU-Net v2，因其具有更优秀的分类性能（AUC=0.927，DeLong p=0.024，Cohen’s d=0.48）。两个系统均提供了可靠的年龄估计（MAE约为7.2岁）。双边区域差异是最具决定性的特征（性别：0.42，年龄：0.51）。观察者间的可靠性非常出色（ICC=0.94-0.97），外部验证证实了其普遍适用性。

通过采用稳健的方法论（患者级别数据分割、5折交叉验证、迁移学习、贝叶斯优化、Bootstrap 95%置信区间、SHAP分析、双人注释员验证）以及超过120个放射组学/形态测量特征，本研究提出了一个全面的自动化法医生物特征分析方法框架。在多样化的种族群体中进行多中心前瞻性验证是必要的。

热点排行