一种简化评估青少年骨龄的方法
《Clinical Endocrinology》:A Simplified Method for Assessing Bone Age in Adolescents
【字体:
大
中
小
】
时间:2026年05月17日
来源:Clinical Endocrinology 2.4
编辑推荐:
**摘要**
**目的**
开发并评估一种简化的青少年骨骼年龄评估方法,作为Greulich–Pyle(GP)方法的快速替代方案。
**设计**
采用回顾性方法学研究,将简化方法与GP图谱进行比较,由有经验和无经验的评估者进行重复测量。研究对象为117张青少年手部和腕
**摘要**
**目的**
开发并评估一种简化的青少年骨骼年龄评估方法,作为Greulich–Pyle(GP)方法的快速替代方案。
**设计**
采用回顾性方法学研究,将简化方法与GP图谱进行比较,由有经验和无经验的评估者进行重复测量。研究对象为117张青少年手部和腕部X光片(67名男孩,50名女孩),这些青少年因身材矮小而被转诊,但其他方面健康。纳入研究的X光片中,女孩的骨骼年龄通过GP方法评估为≥9岁,男孩为≥11岁。
**测量方法**
两名儿科内分泌学家使用GP方法和简化方法分别对骨骼年龄进行了两轮独立评估;对于简化方法,还有一名住院医师参与评估。评估内容包括方法间的一致性、测量结果与GP方法相差在±1年范围内的比例,以及评估者间的和评估者内的可靠性。
**结果**
在有经验的评估者中,简化方法与GP方法相比偏差较小,约91%的测量结果相差在±1年范围内。两种方法的可靠性系数均超过0.9。简化方法的重复性略低于GP方法,但仍处于临床可接受范围内,并接近无经验评估者的预设可接受阈值。
**结论**
简化方法提供了一种透明、标准化且可重复的青少年骨骼年龄评估方法。虽然它并非旨在取代GP方法,但特别适用于涉及大量数据集或资源有限的环境中的研究,以及群体水平的骨骼分析。在繁忙的诊所中,它还可以作为放射科医生基于GP方法进行的评估的快速核查工具,允许在不重复完整图谱评估的情况下审查报告的骨骼年龄。
---
**1 引言**
骨骼成熟度的评估,通常称为“骨骼年龄”,对于评估儿童生长和性发育至关重要。这通常是通过将手部和腕部X光片与标准参考图像进行比较来完成的,常用的方法是Greulich–Pyle(GP)或Tanner–Whitehouse(TW)方法,这两种方法被广泛认为是评估骨骼年龄的传统参考方法。这些传统方法需要详细比较手部每块骨骼与图谱标准,因此过程耗时较长[1, 2]。手动评估骨骼年龄需要相当长的解释时间。King等人报告称,Tanner–Whitehouse 2(TW2)方法的平均评估时间为7.9分钟,而Greulich–Pyle(GP)方法为1.4分钟[3]。尽管GP方法对于单张X光片来说相对较快,但当需要审查数百张X光片时,尤其是需要进行重复测量或二次检查时,累积工作量会变得相当大。这一实际限制促使我们开发了简化方法。我们决定不使用常用的快速改进型GP方法,该方法通过比较X光片的整体外观与参考X光片并选择最接近的匹配项,尽管它比原始GP方法更快,但对于我们快速审查和解释大量X光片的目的来说仍然太慢。此外,由于该方法依赖于整体视觉匹配而非对特定骨骼的系统性评估,因此标准化程度较低,可能导致观察者间差异较大[1, 2, 4]。先前的研究提出了针对青春期儿童的简化方法,这些方法侧重于个别指骨骺端的细微变化[5, 6],但由于这些骨骼体积小且变化细微,难以可靠地评估。这些限制促使我们开发了当前的简化方法,该方法使用每个年龄组中一个清晰可识别的骨骼或骺端来提高速度、一致性和学习难度。非计算机化方法依赖于骨骼年龄图谱,在高容量环境中效率较低。基于少数关键骨骼的易于记忆的描述的方法可以消除对图谱的需求,从而加快解释速度,特别是在大型研究数据集或繁忙诊所中审查放射科医生的报告时。
---
**2 材料与方法**
**2.1 简化骨骼年龄方法的开发**
简化方法是根据GP图谱中11-19岁男孩的图像开发的。根据明显的成熟变化和临床经验,为每个年龄选择了一块骨骼。这些选择在表1中进行了总结,使用了原始GP图谱的术语。表中的注释反映了临床使用中的实际见解。此外,还创建了一个辅助图表(图1)来说明手部和腕部的骨骼。表1和图1在研究过程中被评估者使用,并在此提供给临床医生和研究人员参考。表1列出了基于Greulich和Pyle图谱(Greulich and Pyle 1959)中确定的骨骼成熟阶段及其对应的骨骼年龄。
| 骨骼成熟阶段 | 男性骨骼年龄 | 女性骨骼年龄 |
|------------|-----------|-----------|
| I | 椎骨更加明显,其阴影透过钩骨和三角骨可见 | 11 | 9 |
| II | 第一掌骨的骺端与梯形骨之间的空间进一步缩小,尤其是在尺侧 | 11.5 | 9.5 |
| III | 钩骨的轮廓可见 | a | 舟骨和月骨之间的远端空间非常狭窄 | 12.5 | 10.5 |
| IV | 芝麻骨的骨化中心可见 | c | 13 | 11 |
| V | 所有近端骺端开始形成骨帽 | a | 拇指骨骺端的掌侧比背侧更明显;手指骨骺端的桡侧比尺侧更明显 | 13.5 | 11.5 |
| VI | 桡骨的骺端开始形成骨帽 | 14 | 12 |
| VII | 拇指和第三指远端指骨的骺端融合 | 15 | 13 |
| VIII | 所有远端指骨的骺端融合 | 15.5 | 13.5 |
| IX | 所有近端指骨的骺端融合 | 16 | 14 |
| X | 所有中间指骨的骺端融合 | 17 | 15 |
| X | 除桡骨外所有骺端与其骨干融合 | 18 | 16 |
| X | 所有骺端与其骨干融合 | 19 | 17 |
**a** 当只有这一变化明显,且钩骨的轮廓如I阶段所述不可见时,应给男孩分配12岁的骨骼年龄,女孩为10岁。
**c** 在此阶段,芝麻骨应清晰可见。
**2.2 研究样本与设计**
研究包括67张青少年男孩和50张青少年女孩的X光片,这些样本随机选自Soroka医疗中心的儿科内分泌诊所(2005–2015年)。这些儿童因身材矮小而被转诊,至少随访了2年,结果发现他们的生长正常且没有骨骼疾病。在所有检查的X光片中,我们仅纳入了女孩骨骼年龄至少为9岁、男孩至少为11岁的样本,因为这是新方法适用的最低年龄限制。骨骼年龄的判断依据是由有经验的儿科内分泌学家在评估时记录的常规GP评估结果。两名具有骨骼年龄评估经验的儿科内分泌学家和两名没有经验的儿科住院医师参与了研究。在第一轮中,有经验的评估者使用GP方法对所有X光片进行了两次评估,两次评估之间间隔超过1个月。在第二轮中,所有四名评估者仅使用表1对图像进行了两次评估,他们之前没有使用简化方法的经验。两次评估之间的间隔同样超过1个月。
**2.3 伦理**
Soroka大学医疗中心的当地伦理委员会审查并批准了该研究提案,并免除了知情同意的要求。批准编号为SOR-0018-15。
**2.4 统计方法**
**2.4.1 正态性检验**
使用Shapiro–Wilk检验评估数据分布的正态性。
**2.4.2 Bland–Altman分析**
Bland–Altman图是一种用于分析两种测量方法之间一致性的可视化方法。x轴显示每张X光片两种方法的平均值,y轴显示它们之间的差异。如果方法之间的一致性良好,大多数点将聚集在零附近,没有明显趋势。中央实线表示平均差异(或偏差),虚线表示一致性范围,定义为平均差异±1.96倍的标准差[7]。
**2.4.3 重复性**
使用配对差异的标准差除以√2来计算受试者内的标准差(重复性),这代表了同一评估者重复测量之间的预期变异性。
**2.4.4 ICC模型的选择与理由**
为了与之前研究中的观察者间和观察者内一致性进行比较,我们选择使用类内相关系数(ICC)来分析可靠性。我们同时进行了ICC和Bland–Altman分析,因为它们提供了互补的信息。ICC提供了一个单一的可靠性数值估计,便于跨研究比较。相比之下,Bland–Altman分析可视化了方法之间的差异,并有助于检测系统偏差或不一致趋势。然而,由于Bland–Altman不产生单一的可靠性系数,因此不太适合直接比较不同研究。我们根据测量结构和一致性评估的目的选择了类内相关系数(ICC)模型。对于观察者内的可靠性,我们使用了ICC [1, 4],这是一种用于同一评估者重复测量的双向混合效应模型。对于观察者间的可靠性,我们使用了ICC [1, 2],这是一种用于评估者之间绝对一致性的双向随机效应模型。这两种模型都基于双向方差分析(two-way ANOVA),其中方差被分解为可归因于受试者、评分者和测量误差的组成部分。ICC(组内相关系数)值是使用这些方差组成部分计算得出的,反映了一致性(不包括评分者偏差)或绝对一致性(包括偏差)。这些定义与方法学综述中推荐的定义一致,包括Koo和Li [8]的研究。
2.5 样本量和功效分析
由于这是一项基于现有X光片的回顾性研究,因此可用病例的数量是固定的,并非通过前瞻性样本量规划确定的。因此,进行了事后功效分析,以评估最终样本是否足以检测到具有临床意义的观察者间和观察者内可靠性水平。数据集包含117张X光片(50张女性和67张男性),每张X光片由四位评分者进行评估。使用双向方差分析模型,并假设显著性水平α=0.05,该设计能够以超过99.9%的功效检测到0.80的组内相关系数(ICC),置信区间宽度为±0.10。这些结果证实,可用的样本量足以支持本研究中的可靠性分析。
2.6 一致性阈值和可接受性标准
正如Bland和Altman [9]所指出的,两种测量方法之间的一致性本质上受到它们各自重复性的限制。如果参考方法(这里是GP方法)在同一评估者重复测量时显示出较大的变异性,那么即使是一种更准确的新方法也可能因为参考方法本身的不精确而显得不一致。因此,作为第一步,我们通过经验丰富的评分者的重复评估量化了GP方法的重复性。基于这些结果和临床判断,我们设定了一个先验基准:如果简化方法的读数至少有90%在GP估计值的±1.0年内,则认为该方法是可接受的。选择这个阈值是合理的,因为简化方法并不是为了替代完整的基于GP的评估,而是作为一种快速的二次审查或筛查工具,特别是在高容量临床或研究环境中识别潜在不准确解释时特别有用。
3 结果
3.1 正态性检验
我们使用Shapiro-Wilk检验评估了简化方法和GP方法之间差异的正态性,没有发现显著偏差(W=0.981,p=0.069)。
3.2 评分者内骨龄评估的变异性(重复性)
重复性定义为评分者内(同一名评分者)配对读数的标准差除以√2,以匹配骨龄估计的单位。在经验丰富的评估者中,GP方法的总体重复性为0.33年,简化方法为0.41年(女性),GP方法为0.31年,简化方法为0.35年(男性)。对于使用简化方法的经验不足的评估者,女性的重复性为0.26年,男性为0.44年。在经验丰富的评分者中,90%的重复GP评估在女性中的差异不超过0.75年,在男性中不超过1.0年,有些评分者完全一致,差异在±1年内。这些结果表明,两种方法在每位评分者内部都能产生一致的读数。简化方法的变异性略高,尤其是在经验丰富的评分者对女性的评估中以及经验不足的评分者对男性的评估中。然而,观察到的重复性差异小于3个月,在快速审查或大规模应用的方法中是可接受的范围内。
3.3 方法间一致性(Bland–Altman)
Bland–Altman图显示简化方法和GP方法之间有总体一致性。对于男孩,平均差异可以忽略不计(+0.02年),表明没有系统偏差,一致性范围从-1.29年到+1.33年。对于女孩,简化方法平均产生的骨龄估计略低(平均差异-0.14年),一致性范围从-1.63年到+1.35年。重要的是,这些范围与GP方法已知的重复性一致,表明观察到的变异性可能反映了标准方法本身的测量不精确性。应用预定义的临床可接受性阈值(≥90%的差异在±1年内),91.5%的男孩差异和91.0%的女孩差异符合这一标准,支持简化方法的有效性。通过Bland–Altman图(图2和图3)的视觉检查确认,超过91%的观察结果在GP估计值的±1年内,如绿色虚线参考线所示。
在经验不足的评估者中,Bland–Altman分析比较简化方法和GP方法显示女性平均差异为+0.03年,一致性范围从-1.83年到+1.89年。在男性中,平均差异为+0.04年,一致性范围从-2.03年到+2.11年。当结合经验不足的评估者的第一次和第二次评估时,76.7%的女性简化读数和85.4%的男性简化读数在GP估计值的±1年内。虽然这些结果没有达到我们预定义的临床可接受性阈值,但它们接近该阈值,并且通过进一步培训可能会提高。
3.4 观察者内和观察者间可靠性
观察者内可靠性使用ICC [1, 4]模型进行评估。在经验丰富的评分者中,GP方法和简化方法都表现出极好的可靠性,GP方法的值略高。在使用简化方法的经验不足的评分者中,观察者内可靠性仍然很高,甚至在女性中比经验丰富的评分者评估的女性还要高,达到统计显著性(z=-3.01,p=0.003),而在男性中没有发现显著差异(z=-0.64,p=0.521)。观察者间可靠性使用ICC [1, 2]模型进行评估,两种方法也都很高,尽管在女性中简化方法的值略低。总体而言,这些结果表明,即使在经验有限的评分者中,简化方法也提供了与GP方法相当的可重复性。表2提供了带有95%置信区间的完整ICC值。
表2. 组内相关系数(ICCs)和95%置信区间。
评估组
方法
评分者经验
ICC
95%置信区间下限
95%置信区间上限
女性 – 观察者内
GP
经验丰富
0.970
0.956
0.980
男性 – 观察者内
GP
经验丰富
0.978
0.956
0.988
女性 – 观察者内
简化
经验丰富
0.915
0.858
0.953
男性 – 观察者内
简化
经验丰富
0.966
0.900
0.981
女性 – 观察者内
简化
经验不足
0.969
0.936
0.989
男性 – 观察者间
GP
—
0.877
0.807
0.923
女性 – 观察者间
简化
—
0.780
0.679
0.862
男性 – 观察者间
GP
—
0.936
0.874
0.964
男性 – 观察者间
简化
—
0.902
0.814
0.945
4 讨论
与以往研究的比较表明,我们的评估者使用Greulich–Pyle方法时观察到的变异性与文献中报告的一致。例如,Groell R [10]报告了观察者内的广泛差异,平均值范围从-1.3年到0.3年,标准差在0.36年到0.75年之间。他的研究中的观察者间变异性在平均差异上从0.1年到2.3年,标准差在0.04年到0.94年之间。Johnson G.F [11]发现观察者内的平均差异在0.15年到0.41年之间,标准差在0.22年到0.48年之间。Celis-Moreno等人[12]的研究中,观察者内的标准差分别为0.39年(经验不足的评估者)和0.28年(经验丰富的评估者),观察者间的标准差为0.39年。在我们的研究中,使用GP方法的经验丰富的评估者产生的观察者内标准差为0.30–0.33年,观察者间标准差为0.45–0.53年——这些结果都在之前报告的范围内。这种对应关系表明,我们评估者的表现与其他领域的研究人员相当,支持了我们研究中基于GP的评估的可靠性。为了评估简化方法的临床可接受性,我们评估了GP方法本身的重复性。这些发现证实,即使是参考方法在重复评估中也表现出固有的变异性。因此,简化方法的表现在91.0%(女性)和91.5%(男性)的读数在GP估计值的±1年内,完全在标准方法的预期变异范围内。这支持使用±1年的阈值作为一致性的基准。尽管Bland–Altman图显示在两性中的一致性范围超过了±1年,但这反映了少数异常值的影响。超过91%的案例在±1年内——这个阈值是根据GP方法本身的重复性得出的。图表直观地证实了这一水平的一致性,并表明尽管偶尔存在差异,简化方法在典型的骨龄范围内与GP方法非常吻合。这支持了其在临床筛查和大规模应用中的可靠性。通过Shapiro–Wilk检验确认了数据的正态性(见结果),支持使用Bland–Altman和ICC分析。手骨的骨化程度不同,当某个骨骼的成熟速度与其他骨骼略有不同时,可能会出现轻微的成熟差异。如果这种变异性很常见,它可能已经反映在简化方法和GP方法之间的观察差异中。如果这种变异性较少,其对我们的发现的整体影响相应较小。无论哪种情况,依赖单一骨骼的潜在影响都不会超出我们分析中已经捕捉到的误差范围。此外,Celis-Moreno等人[12]报告了青春期个别手骨之间的统计上显著但通常较小的骨龄差异,进一步支持了我们方法的有效性,同时承认骨骼之间存在一些变异。尽管骨龄估计传统上由放射科医生进行,但人为错误仍然是一个因素[13]。虽然自动化的骨龄解释工具越来越普遍,但它们并非没有局限性。大多数工具都是针对特定临床人群进行训练的,并依赖于缺乏透明度的专有算法。这引发了关于它们是否适用于不同背景或历史时期的研究样本的普遍性的担忧。此外,这些工具在野外研究环境中或处理模拟或存档的X光片时往往不可用。Chang等人明确指出了AI辅助骨龄评估中的自动化偏差风险。在他们的随机交叉研究中,AI支持显著提高了放射科医生的准确性,但作者警告说,“当用户过度依赖AI支持时,会降低信息搜索和处理的警惕性”,并指出初级放射科医生特别容易接受AI的估计。他们进一步警告说,试图节省时间可能会鼓励放射科医生在不充分审查的情况下接受AI的年龄预测,从而可能引入新的解释错误[14]。因此,像本研究中提出的简化审查方法这样的结构化控制程序可能提供一种防止自动化偏差的实际保障,确保AI衍生的骨龄估计始终受到专家的持续监督。相比之下,这里提出的简化方法提供了一种透明且可重复的方法,非常适合大规模研究。因为它依赖于定性的形态特征而不是特定人群的参考分布,所以在概念上独立于任何特定人群;然而,其实际表现仍需要在其他环境中进行验证。这在需要观察者和时间跨度的解释一致性至关重要的情况下特别有价值,而在这些情况下,基于图谱或AI的工具可能不可用或不合适。Khadilkar等人[15]的最新工作也强调了通过基于手和手腕的三块代表性骨骼来简化骨龄评估的必要性。虽然他们的方法旨在平衡传统方法的准确性和更高的效率,但仍然需要通过多块骨头来识别发育阶段,并且可能需要熟悉基于图谱的解释方法。相比之下,本研究提供了一种直观的、基于单块骨头的参考方法。无论是经验丰富的评估者还是缺乏经验的评估者,使用简化方法后得到的结果在评估者内部和评估者之间的可靠性都是一致的。
4.1 研究的优势与局限性
本研究的一个主要优势是它包括了经验丰富的评估者和缺乏经验的评估者,这表明简化方法在不同专业水平上都能保持高可靠性。该方法的低成本、高效率以及不依赖于专业设备的特点,进一步增强了其在临床和研究中的应用性。一个局限性是样本仅由因身材矮小而接受评估的青少年组成。尽管这反映了儿科内分泌学的常见做法,但这可能限制了该方法对身材正常或较高的儿童的普遍适用性。需要在更广泛的儿科人群中进行额外的验证。另一个重要的局限性是,缺乏经验的评估者仅使用简化方法来评估X光片,而没有使用Greulich–Pyle方法进行平行评估。因此,他们使用简化方法的表现无法与使用标准方法时的表现直接比较,关于简化方法在不同经验水平上的稳健性的结论应谨慎解读。最后,为了简化决策工具,将8岁10个月的女性的年龄四舍五入为9岁。这种微小的调整预计不会对临床解读产生实质性影响。
5 结论
尽管简化方法依赖于每个年龄组仅使用一块骨头来评估青少年的骨龄,但它显示出高可靠性和与Greulich–Pyle(GP)方法的高度一致性。即使是在缺乏经验的评估者中,评估者内部和评估者之间的变异也在临床可接受的范围内,而且超过90%的测量结果与GP方法的估计值相差在±1年内。这些发现支持了该方法作为一种快速、低成本的选择,适用于大规模研究,特别是在青少年生长、成熟时间以及骨骼发育的人群水平变异研究中。虽然简化方法并不旨在取代详细的GP评估,但它为提高骨骼年龄研究的一致性和效率提供了一个实用的工具。建议在更多样化的儿科人群中进行进一步验证。
作者没有需要报告的内容。利益冲突
作者声明没有利益冲突。数据可用性声明
支持本研究结果的数据可以在合理请求下从通讯作者处获得。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号