急性跟腱断裂后的超声间隙测量方法总体来说是可靠的，但在5毫米的判断阈值附近存在不确定性

《Skeletal Radiology》：Ultrasound gap measurement after acute Achilles rupture is reliable overall but uncertain near a 5—mm decision threshold

【字体：大中小】 时间：2026年05月10日 来源：Skeletal Radiology 2.2

编辑推荐：

　　摘要目的：在急性跟腱断裂后，超声间隙距离已被提出作为基于协议的诊疗流程中的辅助分诊依据。我们评估了间隙测量的内在/外在可靠性以及围绕5毫米阈值的分类不确定性程度。方法：进行了一项无明确参考标准的回顾性观察者一致性研究，使用来自前瞻性收集的队列中30例临床诊断为完全性急性断

　　摘要

目的：在急性跟腱断裂后，超声间隙距离已被提出作为基于协议的诊疗流程中的辅助分诊依据。我们评估了间隙测量的内在/外在可靠性以及围绕5毫米阈值的分类不确定性程度。

方法：进行了一项无明确参考标准的回顾性观察者一致性研究，使用来自前瞻性收集的队列中30例临床诊断为完全性急性断裂的超声影像回放数据。两位不知情的肌肉骨骼放射科医生分别在不同时间（至少间隔4周）重新审查了存储的超声影像，并测量了肌腱间隙距离。我们计算了组内相关系数（ICC）、Bland-Altman平均差异和95%一致性限值（LoA）以及测量标准误差（SEM）。使用Cohen’s κ和Gwet’s AC1评估了在5毫米协议临界点上的一致性。通过SEM，我们确定了表示明确分类的90%置信区间和可能需要重复测量或二次读取的灰色区域。

结果：内在ICC（2,1）分别为0.88（95% CI 0.83–0.91）和0.94（0.82–0.97）；SEM分别为1.57毫米和1.19毫米。外在偏差为+1.12毫米，一致性限值为-3.85至6.10毫米。在5毫米临界点上，对于手术与非手术治疗的分类一致性为中等（κ=0.60；AC1=0.61），有6例检查结果不同。基于SEM的90%置信区间分别为≤2.42毫米和≥7.58毫米（评分者1）以及≤3.04毫米和≥6.96毫米（评分者2）；一个保守的跨评分者规则建议为≤2.05毫米或≥7.95毫米。

结论：间隙测量显示出良好的相对可靠性，但在5毫米附近的不确定性可能会改变分类结果。报告LoA/SEM以及标记灰色区域可能减少临界病例的误分类。

引言：急性跟腱断裂主要是一个临床诊断，影像学检查根据需要使用[1, 2]。早期分类指导手术与非手术治疗决策，超声波可以辅助临床评估，并在某些流程中支持分诊[3, 4]。超声间隙距离被提出作为应用固定临界点时的一个辅助输入；在这种方法下，测量不确定性对于接近阈值的临界值变得具有临床意义[5,6,7]。最常报告的两个临界点是10毫米和5毫米，它们被用来支持基于协议的手术与非手术管理分类[5,6,7,8,9,10,11,12]。然而，尤其是在常用的5毫米临界点附近，间隙测量的重复性尚未得到充分验证。

现有关于跟腱断裂的超声研究主要集中在诊断性能或与临床结果的关联上，这些研究并未直接解决间隙测量作为定量参数的可靠性问题。此外，关于可靠性的有限文献通常强调使用组内相关系数（ICC）来表示相对一致性。虽然ICC有助于总结等级顺序一致性，但它不能说明当连续测量在固定临界点被二分化时，接近阈值的情况有多少可能会被重新分类[13]。对于使用5毫米阈值的临床流程，绝对测量误差和决策水平的一致性更有信息量：Bland-Altman一致性限值（LoA）量化了重复测量之间的预期差异，而测量标准误差（SEM）描述了单次测量的精度。然而，SEM和LoA很少被报告，而且几乎没有证据表明在区分基于协议的手术与非手术分类的狭窄范围内，评分者间的变异性是否可接受。

方法：伦理考虑：从所有参与研究的个人那里获得了知情同意。该研究获得了国家伦理审查机构（2019-05457）的批准。所有程序符合机构和国家级研究委员会的伦理标准以及1964年赫尔辛基宣言及其后续修正案。

研究设计：这是一项嵌入在前瞻性“急性跟腱断裂治疗选择诊断超声”（DUSTAR）队列中的回顾性、盲法重新阅读可靠性研究。目前的分析量化了在存储的超声影像回放重新审查过程中引入的变异性（帧选择和卡尺放置），并未捕捉到新图像采集的变异性。由于没有真实的肌腱间隙的明确参考标准，该研究评估的是可靠性和一致性而非准确性。DUSTAR项目研究了超声波在跟腱损伤治疗决策中的作用，包括2020年8月1日至2022年2月12日期间到我们机构急诊科就诊的急性跟腱断裂患者。急性跟腱断裂主要是由急诊科骨科医生进行的临床诊断。在DUSTAR项目中，超声波被用作分诊工具，以支持早期管理计划（手术与非手术），而非作为完全性跟腱断裂的主要诊断测试。本子研究中的所有测量均来自常规临床护理中保存的超声影像回放；因此，重新审查的可靠性估计反映了图像选择和重新审查期间卡尺放置的变异性，而不是新图像采集的变异性。该研究遵循了《报告可靠性和一致性研究指南》（GRRAS）[14]。

设置和参与者：这个更大的DUSTAR研究的子研究在一个三级学术肌肉骨骼成像中心进行。该可靠性子研究包括了前30名符合条件的DUSTAR患者，他们具有通过协议获取的超声影像回放。患者符合纳入标准的前提是年龄在16至65岁之间，诊断为闭合性中段跟腱断裂，并在受伤后48小时内接受了初步治疗。排除标准包括既往跟腱断裂史（无论哪一侧）、影响足部或小腿功能的并发损伤、糖尿病、神经血管疾病、免疫抑制治疗或无法理解瑞典语。

伦理考虑：所有符合条件的患者都在入院后的48小时内接受了标准化的超声评估。在诊断过程中，患者暂时用膝下石膏固定，脚部置于大约30度的跖屈位置。超声检查在我们的中心放射科进行。

超声采集和图像存储：在临床诊断为完全性断裂后，初始治疗从使用膝下石膏固定开始。超声检查在48小时内进行，此时石膏已经到位，这与临床工作流程一致。患者以俯卧位接受检查，膝盖弯曲约10度，脚部由楔形垫支撑以达到大约30度的跖屈。因此，本研究中的所有间隙测量都反映了在跖屈位置下的肌腱位置。所有检查均由当班放射科医生按照书面的标准化DUSTAR采集协议进行。在研究开始前，当班放射科医生接受了该协议的培训，并被指示使用探头对准肌腱纤维并居中在断裂间隙上，以确保在同一视野内可视化近端和远端肌腱边缘。每次检查前，当班放射科医生都会复习书面的DUSTAR采集协议。超声检查使用的是LOGIQ E9系统（GE Healthcare），配备6-15 MHz线性探头。从肌腱-肌肉连接处到跟骨附着处对跟腱进行了评估，并存储了2-4个跨越断裂区域的标准化影像回放以供后续重新审查。由于固定措施限制了踝关节活动，因此没有进行动态操作。

肌腱间隙测量和重新审查程序：存储的超声影像回放由两位肌肉骨骼放射科医生独立重新审查。对于每次检查，阅读者选择了显示近端和远端肌腱边缘最大可见分离的帧，并使用电子卡尺测量了边缘之间的最短距离（毫米）。肌腱边缘定义为长轴影像上可见的回声肌腱末端；当末端在选定的帧上相对或重叠时，间隙记录为0毫米。因此，测量结果反映了在踝关节固定约为30度跖屈状态下的影像；测量不在中立或背屈状态下进行。每位评分者进行了至少间隔4周的两次重新审查，并对另一位评分者的测量结果和自己的先前测量结果不知情。为了进行这项子研究，没有进行新的超声扫描。在DUSTAR流程中，应用了5毫米的临界点进行基于协议的分类；本次分析使用这个临界点来评估阈值一致性。

评分者：两位具有十年超声经验的肌肉骨骼放射科医生独立重新审查了所有检查。两位评分者都对彼此的测量结果、原始放射报告、临床数据以及任何先前选定的图像帧不知情。每次评分时，病例顺序都是独立随机化的；评分者对自己的先前测量结果也不知情。每位评分者对每位患者进行了两次独立的间隙测量，每次测量之间至少间隔四周。每位评分者都选择了他们认为显示最大可见分离的帧，并使用电子卡尺测量肌腱末端之间的最短距离（以毫米为单位）。

结果：主要结果是肌腱间隙（毫米）。我们量化了内在和外在可靠性以及一致性。次要结果包括：（1）使用5毫米手术临界点进行的DUSTAR协议分类（手术与非手术）的决策水平一致性；（2）单次读取决策最容易出错的“灰色区域”频率；（3）评分者之间和不同时间段的系统偏差。使用Cohen’s κ和Gwet’s AC1总结了5毫米处的决策水平一致性。我们报告了≥5毫米分类的频率，并提供了带有95%置信区的统计数据。为了将测量误差与阈值分类联系起来，我们使用SEM定义了5毫米附近的不确定性范围，在此范围内单次测量最有可能在重新读取时改变类别。我们使用对数尺度（比率）分析验证了灰色区域的结论，并将分析限制在0到10毫米之间；结论没有改变。我们使用5毫米作为决策阈值，因为这是DUSTAR流程中预先指定的手术临界点。

统计分析：使用两组内相关系数（ICC）和双向随机效应、绝对一致性、单次测量模型（ICC(2,1)）来评估重新审查的可靠性。使用每位参与者的两次评分的平均值来计算外在可靠性和一致性（分析单位：参与者）。内在指标基于每位评分者的特定于会议的测量结果。敏感性分析通过使用（1）配对的目标测量数据和（2）混合效应模型中的所有阅读数据来重复评分者间指标，得出了基本相似的结果。评分者间一致性（ICC）的解释参考了Koo和Li（2016）的标准：差<0.50表示较差，0.50–0.74表示中等，0.75–0.89表示良好，≥0.90表示优秀[15]。样本量的确定基于精确度要求。这项嵌入式可靠性研究旨在估计具有可接受精确度的可靠性，而不是为了检验假设。当样本量n=30且预期ICC约为0.85时，95%置信区间（CI）宽度约为0.20，我们认为这足以满足可行性和解释决策阈值的需求。对于5毫米的切割点，n=30时κ/AC1的CI会更宽；因此，我们同时报告CI和绝对计数结果。绝对一致性通过Bland-Alman分析进行评估。我们报告了偏差（平均差异）和95%的协议一致性界限（LoA=偏差±1.96×差异的SD）。测量标准误差（SEM）代表了单次观察的预期绝对误差，它是根据每个评分者的两次测量计算得出的[16]：$$SEM=SD\left(A-B\right)/\sqrt{2},$$其中A和B是同一参与者的重复测量结果。95%置信度下的最小可检测变化被计算为MDC_95=1.96×√2×SEM[17]。为了将测量精度与基于阈值的决策联系起来，我们定义了5毫米切割点周围的置信区间为5±z·SEM（z=1.28、1.64和1.96分别对应80%、90%和95%的确定性）。这些区间之间的值被认为是灰色区域，在该区域内可能需要重复测量或共识审查。我们还估计了在正态误差模型下，给定观察值x时真实间隙≥5毫米的概率：$$Pr\left(\left.true\ge 5\right|x\right)=1-\Phi \left(\left(5-x\right)/SEM\right),$$其中Φ是标准正态累积分布函数。所有分析都是在R版本4.4.3中进行的（奥地利维也纳的R基金会统计计算）。ICC和Bland-Alman分析使用了irr、psych和blandr包。图表是基于研究数据集使用ggplot2在R中创建的。没有使用任何第三方照片、图标、模板、库存图片或在线图形元素。这些图表之前未发表过。大型语言模型（ChatGPT）仅用于语法、句法和语言编辑。所有作者都审查并验证了最终的手稿，并对其内容负全责。

**研究队列**
共有30名患者纳入了这项研究。其中，24名为男性（80%），队列的平均（标准差SD）年龄为45岁（10.5岁）（表1）。从母研究DUSTAR队列到可靠性子研究的参与者流动情况如图1所示。表1列出了患者的详细信息。

**评分者内重新审查的可靠性**
根据评分者1的测量结果，肌腱间隙的测量范围从0毫米到18毫米（补充材料图S1）。0毫米的值表示肌腱末端完全断裂且对齐或重叠（在选定的帧上没有可测量的分离）。评分者内重新审查的可靠性很好，其类内相关系数ICC(2,1)=0.88（95% CI：0.83–0.91）。重复测量之间的平均差异为0.01毫米，95%的协议一致性界限（LoA）为-4.34至4.37毫米（图2）。SEM为1.57毫米。MDC95为4.34毫米，表明小于约4.3毫米的变化在单个评分者的预期测量噪声范围内。

**Bland-Alman图用于评分者内重复性，轴匹配**
左图：评分者1（两次测量）的偏差为0.01毫米[95%置信区间（CI）-0.78至0.81]；95%的协议一致性界限（LoA）为-4.34至4.37毫米（界限的95% CI：-5.71至-2.97；2.99至5.74）。右图：评分者2（两次测量）的偏差为0.22毫米[95% CI -0.39至0.82]；95%的LoA为-3.08至3.52毫米（界限的95% CI：-4.13至-2.04；2.48至4.56）。虚线=偏差；点线=95%的LoA；线性拟合用于评估比例偏差。

**在七个案例中，基于阈值的分类（<5 vs ≥5毫米）在两次阅读会话之间存在差异**（图3和图4；补充图S2）。评分者内的决策一致性中等（Cohen’s κ=0.525，95% CI 0.200–0.800；Gwet’s AC1=0.546，95% CI 0.214–0.824；图4）。

**评分者1和评分者2在两次阅读会话中进行的配对测量（毫米）**
*图4：评分者1和评分者2在两次阅读会话中进行的配对测量。*

**评分者内决策面板**
每个评分者显示：左图：第一次会话与第二次会话的结果散点图，带有5毫米的虚线切割线；绿色点=一致的分类（<5或≥5毫米），橙色点=评分者内的分歧。右图：2×2的热力图（行=会话A——第一次会话，列=会话B——第二次会话），包括计数和行百分比。

**评分者2的测量结果**
肌腱间隙的测量范围从0毫米到19.6毫米（补充材料图S1）。评分者2的评分者内重新审查可靠性高于评分者1，ICC(2,1)=0.94（95% CI：0.82–0.97）。重复测量之间的平均差异为0.22毫米，95%的LoA为-3.08至3.52毫米（图2）。SEM为1.19毫米。MDC95为3.30毫米，表明小于约3.3毫米的变化可能反映了测量噪声。

**评分者间重新审查的可靠性**
测量之间的评分者一致性很好，ICC(2,1)=0.82（95% CI 0.63–0.91）[15]。评分者之间的平均差异为1.12毫米，Bland–Altman的LoA范围为-3.85至6.10毫米（图5）。评分者间的MDC95为4.95毫米，即评分者间的差异需要达到约5毫米才能超出95%的置信度下的测量噪声。六名患者的基于评分者1和评分者2的平均肌腱间隙测量结果存在不一致（图6）。

**决策面板**
左图：每个患者的平均测量结果（评分者1 vs 评分者2）的散点图，带有识别线和虚线5毫米的指引；点根据决策一致性着色（绿色=两者都<5毫米，蓝色=两者都>5毫米，红色=不一致）。右图：2×2的混淆热力图（评分者1的行，评分者2的列），包括计数和行百分比。

**在30个案例中，14个（46.7%）的肌腱间隙平均值≥5毫米，两个评分者的分类一致；在5毫米阈值上的评分者间决策一致性中等（Cohen’s kappa=0.595（95% CI 0.267–0.864）或显著（Gwet’s AC1=0.607（95% CI 0.333–0.872）），其中6个（20.0%）的分类不一致（图6）。不一致的分类集中在5毫米的切割点附近（图7a）。评分者间的散点是对称的，Bland–Altman回归显示没有比例偏差；存在固定的偏差（评分者1约为+1.1毫米；图5）。图8和图9展示了具有注释的卡尺放置的一致和不一致的肌腱间隙测量的代表性超声示例。

**比例偏差**
Bland–Altman回归显示没有比例偏差（斜率=-0.134，p=0.225；图5）。绝对差异随着幅度的增加而增加（Spearman ρ=0.428），因此我们还报告了对数尺度的LoA：比例偏差+19.4%至+129.6%。

**决策确定性和灰色区域**
评分者1的评分者内SEM为1.57毫米，评分者2的SEM为1.19毫米。使用90%的标准（z≈1.64），得到的置信区间为：评分者1：≤2.42毫米（明确非手术）和≥7.58毫米（明确手术）；灰色区域为2.42–7.58毫米（图7b）。评分者2的评分者间SEM为1.79毫米，得出的置信区间为≤2.05毫米和≥7.95毫米（灰色区域为2.05–7.95毫米）。使用评分者间单次测量的SEM（1.79毫米）的保守交叉评分者规则得出≤2.05毫米和≥7.95毫米（灰色区域为2.05–7.95毫米）。概率图显示了确定性随着与5毫米的距离增加而平滑增加，并说明了SEM较大的评分者的灰色区域更宽。

**讨论**
这项最重要的发现是，在重新审查存储的超声影像时，超声间隙测量的相对可靠性（ICC）很好，但在5毫米阈值处二分时一致性仅为中等。这种明显的不匹配是因为预期的测量变异性（SEM/LoA）足以将边缘案例移动到固定的切割点上，即使排名顺序的一致性很高。不一致的分类集中在阈值附近，而且小的固定评分者间偏差进一步导致了接近阈值案例的重新分类。精确度分析解释了这一观察结果，评分者内的SEM（1.57毫米和1.19毫米）和Bland–Altman界限（约±4毫米）表明1至3毫米的差异在重复测量中是完全可能的。在评分者平均值的平面上绘制不一致概率确认了不一致性集中在5毫米附近，对称的模式表明不一致性反映了阈值的接近程度，而不是系统性的过度或低估。尽管如此，我们检测到了轻微的评分者间偏差（+1.12毫米；评分者1更高），这可能会进一步推动接近阈值的案例越过决策边缘。我们的结果表明，当使用固定切割点时，接近阈值的值可能更适合用概率方法来解释，而不是严格的二元规则。根据观察到的SEM，我们定义了实际的“明确决策区域”。对于评分者1，测量结果≤2.42毫米或≥7.58毫米意味着非手术或手术分类的确定性≥90%；对于评分者2，≤3.04毫米或≥6.96毫米。保守的交叉评分者方法建议≤2.05毫米（非手术）和≥7.95毫米（手术）作为决策不太可能随重复测量而改变的范围。“灰色区域”内的值应谨慎处理并双重检查，或进行共识审查。

**断裂间隙可以通过超声评估，并可能影响治疗决策和临床结果**[3, 4, 8, 12]。然而，在常规实践中很难达到所需的测量精度，尤其是在严格的5毫米阈值附近[5]。关于较大间隙预示着较差功能的证据在研究中并不一致。我们的发现表明，这种不一致性可能部分反映了测量可靠性和由此产生的决策规则。如果基于阈值的路径包含超声间隙测量，那么选择切割点时应考虑测量误差并对其进行前瞻性验证[7, 8, 11, 12]。当使用固定切割点时，我们的结果表明边界测量（在这个数据集中约为3至7毫米）最容易产生分歧。在这种情况下，可以考虑重新测量或进行第二次读数，标准化的采集/读数程序可以降低变异性。尽管先前的一项系统评价报告称，超声测量跟腱间隙的内部可靠性和评分者间可靠性非常好，但大多数研究主要基于ICC（ICCC）[5, 18,19,20,21]。相比之下，我们的研究使用了额外的方法，包括ICC、Bland–Altman方法和SEM，并采用了一种新的方法来评估基于阈值的分类中的决策一致性。这种方法使我们发现了一个有趣的悖论：尽管ICC相对较高，但在这一临床临界点上的一致性却较低。这意味着，仅使用ICC时，无法检测到微小的测量误差可能导致手术与非手术分类的结果发生改变。Bland–Altman分析揭示了评分者间和评分者内的绝对差异，这些差异可能影响5毫米临界点附近的分类结果。ICC评估了群体层面的可重复性，但忽略了患者层面的不确定性。因此，当使用固定阈值时，根据临床情况，接近阈值的测量结果可能需要重新测量或进行第二次读数。未来的关于跟腱间隙的可靠性研究应该结合基于阈值的一致性指标和ICC，以更好地反映临床实践中的决策过程。

这些结果突显了在急性断裂分类中应用阈值的方法的一个局限性[22]。在决策阈值附近解释超声间隙测量结果时应谨慎，因为预期的测量误差可能会改变基于阈值的分类（手术与非手术）。保存超声影像循环数据可以进行后续的复核，从而提高边界情况的可解释性。 tendon间隙的测量差异有时相当显著，但其原因尚不清楚。这可能与操作者的经验有关，但在我们的研究中，两名评分者都具有丰富的常规超声检查经验。不规则或磨损的肌腱残端会妨碍一致的标志物识别，可能增加测量的变异性。

我们的研究存在一些局限性。单中心样本量限制了研究的精确度和普遍性。虽然检查是按照标准化方法重新进行的，但帧选择和测量尺放置仍然是误差的来源。超声的变异性不仅来自测量复查，还来自于采集因素（探头角度、设置、检查设置）和伪影；我们的复查设计并未涵盖这些方面[23]。概率图在稀疏区域较为平滑，评分者间的一致性（LoA）表明个别边界病例在重新测量时可能会改变分类结果。只有两名评分者重新评估了间隙情况。此外，由于没有明确的参考标准，我们的发现应被视为观察者间一致性的估计，而不是测量准确性的证据。由于检查是在常规护理中进行的，并且没有由多名放射科医生重复进行，我们没有量化不同操作者之间的采集差异，这可能会在其他情况下进一步增加不确定性。未来的工作应包括多评分者、多中心验证，并对灰色区域的工作流程进行前瞻性测试，可能利用固定装置、3D成像或扩展视野技术来减少变异性[19, 21]。最后，由于石膏固定对急性处理至关重要并且限制了踝关节的活动，因此我们没有进行动态超声评估。因此，我们的发现反映了静态间隙测量的可靠性，可能未能捕捉到动态评估所能获得的额外信息。在测量间隙为0毫米的情况下，静态超声可能无法可靠地区分肌腱完全断裂与部分断裂的情况。

未来的研究应包括多中心、多评分者的研究，并采用标准化协议，将连续测量结果与以患者为中心的结局相关联，以改进或取代5毫米的规则。决策曲线分析和贝叶斯概率报告可以量化净临床收益，并使不确定性变得明显。存储在影像循环数据中的超声间隙测量显示了良好的内部和观察者间可靠性，但在5毫米临界点附近，绝对误差仍然具有临床意义。在边界测量情况下，观察者间的差异可能会改变基于阈值的分类。当使用阈值来支持治疗决策时，阈值附近的灰色区域有助于解释边界测量结果；在这种情况下，在最终确定分类之前，可以考虑重新测量或进行第二次读数。如果在治疗路径中使用了阈值，边界结果可能需要重新测量或进行第二次读数；需要前瞻性研究来验证这种验证是否能提高决策的一致性和结局。

热点排行