根据OMERACT 2.2过滤器标准，牛津肩关节评分在评估针对肩部疾病患者的干预措施的临床试验中用于测量疼痛的适用性

《Seminars in Arthritis and Rheumatism》：Suitability of the Oxford Shoulder Score for measuring pain in clinical trials evaluating interventions for people with shoulder disorders according to the OMERACT filter 2.2

【字体：大中小】 时间：2026年05月11日 来源：Seminars in Arthritis and Rheumatism 4.4

编辑推荐：

　　罗密·哈斯（Romi Haas）|哈娜·马尔穆拉（Hana Marmura）|罗谢尔·富尔塔多（Rochelle Furtado）|索菲亚·拉米罗（Sofia Ramiro）|乔尔·J·加尼耶（Joel J Gagnier）|阿里安妮·维尔哈根（Arianne Verhagen）|塞缪尔·惠特尔（Samuel Whittle）|多卡斯·比顿（Dorcas Beaton）|贝弗利·谢亚（Beverley Shea）|帕梅拉·理查兹（Pamela Richards）|丹妮尔·贝尔科维奇（Danielle Berkovic）|安德鲁·弗斯（Andrew Firth）|拉谢尔·布赫宾德（Rachelle Buchbinder）

澳大利亚墨尔本莫纳什大学公共卫生与预防医学学院，肌肉骨骼健康与更明智的医疗保健单元

摘要

背景：在风湿病学结局测量（OMERACT）的核心结果集中，疼痛是评估肩部疾病试验的必测领域。我们使用OMERACT Filter 2.2评估了牛津肩部评分（Oxford Shoulder Score，OSS），这是一个由四个疼痛项目和八个功能项目组成的综合指标，但没有针对这些领域的独立子量表。

方法：按照OMERACT手册的要求，我们首先评估了OSS的领域匹配性和可行性，然后系统地审查了其在肩部疾病（如旋转袖疾病、粘连性囊炎、不稳、骨关节炎、脱位、肱骨头骨折和未指明的疼痛）中的测量特性。检索了截至2023年6月的MEDLINE、EMBASE和CINAHL数据库。评审人员独立筛选并评估了方法学质量并提取了数据。测量特性被综合评分（分为绿色、琥珀色、红色或白色）。结果总结在测量特性摘要（Summary of Measurement Properties，简称SOMP）表格中，并在2025年OMERACT研讨会上进行了讨论。

结果：OSS在可行性及领域匹配性方面被评为琥珀色，这反映了对其多维性质的担忧，同时也考虑到了疼痛和功能之间的相互关联性。共有23项研究被纳入系统评价：11项研究评估了构念有效性，3项研究评估了重测信度，10项研究评估了反应性，5项研究评估了试验区分度，5项研究评估了意义阈值。34个组成部分中有30个被判断为适合继续使用（8个为绿色；22个为琥珀色）。所有研究都评估了OSS总分（疼痛和功能）；其中1项研究评估了包含4个项目的疼痛子量表。对于OSS总分，构念有效性和反应性被评为绿色，而信度、试验区分度和意义阈值被评为琥珀色。两项研究未报告地板效应/天花板效应，有1项研究结果不明确。在2025年OMERACT研讨会上，95%的参与者同意不应使用多维工具来测量没有经过验证子量表的单一领域。

结论：OSS总分显示出足够的构念有效性和反应性，但由于其同时评估疼痛和功能，因此不适合单独用于测量疼痛。

引言

目前，在针对肩部疾病的临床试验中，测量的结果缺乏一致性。一项对409项此类研究的系统评价发现了319种不同的工具，用于评估32个不同的领域[1]。这种多样性限制了我们汇总数据并比较不同试验结果的能力，同时也增加了选择性报告结果的风险，导致研究资源的浪费。为了解决这个问题，风湿病学结局测量（OMERACT）肩部工作组开发了一套核心领域集，用于所有评估肩部疾病干预措施的临床试验（包括肌腱病、撞击、肩峰下滑囊炎、旋转袖撕裂、粘连性囊炎、不稳、盂肱关节骨关节炎、脱位、近端肱骨或肱骨头骨折以及未指明的肩痛）[2]。初步的核心领域集[3]是基于对肩部疾病研究中测量的领域的系统评价[1]、涉及患者、临床医生和研究人员的国际德尔菲研究[4]以及对肩部疾病患者生活经验的定性综合[5]制定的，最终核心领域集于2018年获得OMERACT的认可[2]。强制性的核心领域包括疼痛、身体功能、患者整体肩部状况和不良事件。

基于之前的工作[1]，我们确定了38种用于测量肩部疾病患者疼痛的候选工具。OMERACT进程的下一步是确定这些工具中哪些符合OMERACT Filter 2.2关于真实性、区分度和可行性的标准。本研究的目的是使用OMERACT Filter 2.2来评估牛津肩部评分（OSS）作为评估肩部疾病患者临床试验中疼痛的核心测量工具的适宜性。OSS是一种患者报告的综合指标，包含评估疼痛和身体功能的条款，但没有针对这些领域的独立子量表。该评分最初是为评估肩部疾病的外科手术结果而开发的[6]，现在在手术和非手术试验中广泛使用[7]，也是关节置换登记中最常用的肩部特定工具[8]。

方法

我们遵循了OMERACT手册中关于核心结局测量工具选择的方法，这些方法基于三个原则：真实性、可行性和区分度[9]。这包括获得工作组的一致认可，即该工具与目标领域相匹配并且是可行的，随后进行系统评价以综合候选工具的测量特性。在关键决策点应用了手册中的交通灯评分系统：绿色表示可以继续进行，琥珀色表示需要谨慎处理（存在某些问题或限制），红色表示需要停止（图1）。

下载：下载高分辨率图像（361KB）
下载：下载完整尺寸图像

图1. 评估牛津肩部评分在肩部疾病临床试验中测量疼痛强度适宜性的工具选择过程

牛津肩部评分（OSS）评估过去四周的肩部问题，包括四个与疼痛相关的项目（最严重疼痛强度、通常疼痛强度、疼痛对日常工作的干扰以及夜间疼痛）和八个与日常功能相关的项目（穿衣、使用刀叉、梳理头发、移动车辆、购物、端盘穿过房间、洗澡和穿衣）（补充图1）[6]。每个项目的评分采用5点李克特量表。在最初的版本中，项目的评分范围是从1（最好）到5（最差），总分范围是从12到60（分数越低，结果越好）。2009年，评分的方向被反转（每个项目的评分范围是从0（最差）到4（最好）），总分范围是从0到48（分数越高，结果越好）[10]。作为一种综合指标，OSS没有经过验证的疼痛和功能子量表。

领域匹配性和可行性评估

我们在2018年的一次工作组在线会议上评估了OSS的领域匹配性和可行性。我们考虑了OSS是否与疼痛的定义相符，包括相关性和项目的完整性、冗余性和清晰度、回答选项的适宜性以及评分方法的适当性。疼痛被定义为所经历的肩部疼痛程度，包括休息时、活动期间和活动后的疼痛以及夜间疼痛[2]。

对于可行性，我们考虑了整体的使用便捷性、成本、负担（患者、受访者）、 administration方法、设备需求、潜在的版权问题以及语言或文化需求。领域匹配性和可行性各自获得了独立的交通灯评分，只有获得绿色或琥珀色评分的OSS才能进入下一步。

测量特性的系统评价

我们对OSS测量肩部疾病患者疼痛的测量特性进行了系统评价。研究方案在PROSPERO CRD42023440148上注册，并根据PRISMA-COSMIN指南报告了结果测量工具的系统评价[11]。

选择标准和搜索方法

表1提供了关于我们基于研究人群排除研究的更多细节。我们还排除了那些评估OSS肩部不稳量表的研究。评估的测量特性包括地板效应和天花板效应、构念有效性、重测信度、方法间信度、评分者间信度、反应性（纵向构念有效性）、试验区分度和意义阈值。

表1. 资格标准

纳入标准：
- 患有旋转袖相关肩痛（肌腱病、撞击、肩峰下滑囊炎、部分和全层撕裂）、粘连性囊炎、不稳、盂肱关节骨关节炎、脱位、近端肱骨或肱骨头骨折或未指明的肩痛的成年人
- 样本中≥75%的人患有纳入的肩部疾病
- 如果结果至少为一种符合条件的肩部疾病单独报告，则为混合样本研究
- 炎症性疾病，例如类风湿性关节炎、轴性脊柱关节炎、银屑病关节炎

排除标准：
- 儿童人群
- 肩锁关节疾病
- 乳腺癌手术后的肩痛
- 如果样本中≥25%的人患有排除的疾病

工具：
- 牛津肩部评分（英文版）
- 牛津肩部不稳评分

测量特性：
- 地板效应和天花板效应*
- 构念有效性
- 重测信度
- 评分者间信度
- 反应性
- 试验区分度
- 意义阈值

* 由于在领域匹配阶段无法获得原始数据，因此我们的系统评价中包括了评估地板效应和天花板效应的研究。

我们通过Ovid检索Medline数据库，通过Ovid检索Embase数据库，通过Elton B. Stephens Company（EBSCO）检索Cumulative Index of Nursing and Allied Health（CINAHL）数据库，时间范围从文献起始年份至2023年6月5日，没有语言或出版日期的限制。我们使用了逻辑运算符“AND”来组合与肩部疾病、工具和测量特性研究相关的搜索词（补充表1）。在Medline中使用了有效的敏感搜索过滤器，并将其适应于其他数据库[12]。我们通过肩部疾病研究的系统评价[1]和最近的一项关于成人肩部功能测量工具的评估[7]，识别出了将OSS作为结局的随机对照试验（RCTs）。同时还筛选了纳入研究的参考文献列表和相关评论文章。

研究选择

标题和摘要的初步筛选由作者团队（RH、DB和/或AF）使用Covidence系统评价软件（Veritas Health Innovation，墨尔本，澳大利亚）独立进行，随后对潜在符合条件的文章进行了全文审查。通过与其他研究团队成员（SR、SW、RB、JG和/或AV）的讨论解决了任何分歧，直到达成共识。在全文审查过程中，根据它们评估的测量特性对符合条件的研究进行了标记，并在SOMP表格中展示了每个证据组成部分[13]。

方法学质量评估

评审团队使用COSMIN-OMERACT Good Methods Checklist[9]独立评估了每项研究的方法学质量。对于评估一个或多个测量特性证据的研究，每位评审员完成了相应的检查表项目并提供评论（补充表2）。然后每位评审员使用交通灯评分系统对是否包括每个证据组成部分做出了总体判断。通过与其他研究团队成员（SR、JG、AV和/或RB）的讨论解决了任何分歧。

数据提取

在COSMIN-OMERACT Good Methods Checklists上被评为绿色或琥珀色的证据组成部分被纳入数据提取和进一步的功能适当性审查。对于每个纳入的组成部分，使用OMERACT数据提取模板提取数据，并包含了研究设计、人群、方法学以及每个测量特性的报告结果的详细信息。最初是由两位评审员针对每项测量特性独立提取数据的，之后由另一位评审员独立验证了其余数据。任何差异通过讨论解决。

定义、相关统计量和解释阈值基于OMERACT Filter 2.2中规定的标准，展示在补充表3中。对于构念有效性和反应性（纵向构念有效性），将OSS与其他工具之间的观察相关性与先验假设进行了比较。对于反应性，将预期的标准化反应均值（SRMs）或随时间变化的效应大小与先验假设进行了比较。在同时提供SRMs和效应大小的情况下，优先考虑SRMs，因为它们考虑了样本内部变化的变异性，提供了更精确的反应性估计，并更好地反映了临床试验中可能发生的变化。对于试验区分度，将组间效应大小与预期差异进行了比较。在没有明确先验假设的情况下，我们根据现有文献制定了假设。我们关于OSS与其他工具之间预期相关性的先验假设、随时间变化的效应大小以及试验中组间效应大小的假设分别展示在补充表4、5和6中。

性能适当性

对于每项纳入的研究，评审团队独立评估了每个测量特性的性能适当性。如果≥75%的假设得到验证，则评估为适当（+）；如果25-74%得到验证，则评估为不确定（±）；如果<25%得到验证，则评估为不适当（-）。对于重测信度，如果类内相关系数（ICC）≥0.75，则评估为适当（+）；如果<0.75，则评估为不适当（-）。对于意义阈值，如果没有确定的计算阈值标准，如果阈值基于至少一个反映患者内部变化的锚点，则评估为适当（+）；如果仅基于分布方法，则评估为不适当（-）。

每个测量特性的证据综合

支持每个测量特性的证据在SOMP表格中呈现[13]。每个测量属性的评级是根据OMERACT指南为每个测量属性制定的综合评级方法（见补充表7）进行的，考虑了质量（评为绿色/琥珀色或红色）、数量、表现充分性（评为+、±或-）以及研究间的一致性。如果至少有两名高质量（绿色）的研究显示出一致的结果并且表现充分（+），则授予绿色评级。如果至少有两名高质量的文章（绿色）显示出不一致的结果，或者有一名高质量的研究（绿色）表现不佳（-），则授予红色评级。如果没有可用证据，则评为白色。其他所有情况都评为琥珀色。

OMERACT技术咨询组（TAG）的审查和OMERACT 2025特别兴趣小组的工作坊
在OMERACT 2025会议之前，所有在SONP表格中呈现的发现和总体评级都经过了OMERACT TAG的审查。我们的发现和TAG的反馈在OMERACT 2025肩部工作组特别兴趣研讨会上进行了汇报。会议结束时进行了在线投票，以回答两个具体问题：(a)参与者是否同意我们对每个测量属性的综合评级？以及(b)当一个多维度工具没有经过验证的子量表时（例如，OSS，它同时测量疼痛和功能），是否适合通过OMERACT过滤器来评估该工具的单一领域（例如，疼痛）？

结果
领域匹配和可行性
肩部工作组对于OSS在疼痛领域的匹配性和可行性的一致意见是琥珀色（见补充表8）。关于领域匹配，有人担心可能存在项目冗余、响应选项的适当性以及评分方法的问题。尽管OSS的多维度特性被认为是一个限制因素，但患者研究合作伙伴（PRPs）认为这些项目与疼痛领域非常匹配，强调了疼痛和功能在日常生活中的相互关联性。他们还报告称，这些问题清晰易懂，易于完成。在可行性方面，琥珀色评级反映了对于版权限制的担忧，包括是否需要使用许可，以及对OSS在相关语言和文化背景中的可用性的担忧。

系统评价
排除重复项后，搜索得到了8,575项研究；其中463篇全文报告被评估是否符合要求，最终有23项研究（26篇报告）被纳入（见图2）[6,[14], [15], [16], [17], [18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34], [35], [36], [37], [38]]。十项研究考察了构念有效性[6,[14], [15], [16],19,20,22,25,29,30,35]，三项研究了地板效应和天花板效应[23,33,34]，三项研究了重测信度[6,20,35]，十项研究了反应性[6,15,16,20,23,25,29,31,34,35]，五项（八篇报告）研究了临床试验的区分度[17,18,21,24,[26], [27], [28],32]，以及五项研究了意义阈值[[34], [35], [36], [37], [38]]。所有23项研究都评估了OSS总分的质量属性，其中一项研究还评估了包含四个特定疼痛项目的子量表的质量属性[19]。

下载：下载高分辨率图像（636KB）
下载：下载全尺寸图像

图2. PRISMA-COSMIN用于结果测量工具（OMIs）的流程图，显示了从数据库和其他来源识别和纳入的研究数量。图2的缩写和脚注：PRISMA；用于系统评价和荟萃分析的首选报告项目：COSMIN；健康测量工具选择的基于共识的标准：OMI；结果测量工具

纳入的23项研究中有15项是通过数据库和 registros识别的，8项是通过其他方法识别的。

设置和目标人群
纳入的研究发表于1996年至2023年之间，其中近一半（n=10, 43%）发表于2010年至2020年[16-18,23-26,29,31,32,35,36]，四项（17%）发表于2020年后[27,28,33,34,38]（见表2）。大多数研究为观察性设计（n=18, 78%），其中17项为纵向研究[6,[14], [15], [16],19,20,22,23,25,[29], [30], [31],[33], [34], [35], [36], [37], [38]），一项为横断面研究[30]。其余五项（22%）为随机对照试验（RCTs）[17,18,21,24,[26], [27], [28],32]。大多数研究在英国（UK）进行[6,[14], [15], [16], [17], [18], [19], [20], [21], [22], [23], [24],26,[29], [30], [31], [32], [33]]，其次是新加坡[3][[36], [37], [38]]，另有部分研究在澳大利亚[35]、新西兰[25]、丹麦[34]以及挪威和瑞典进行[27,28]。大多数研究在医院进行（n=21, 91%）[6,[14], [15], [16], [17], [18], [19], [20],[22], [23], [24], [25],[27], [28], [29], [30], [31], [32], [33], [34], [35], [36], [37], [38]），两项（9%）在初级保健机构进行[21,26]。

表2. 纳入研究的特征。

观察性研究
作者年份国家设计人群设置测量属性样本大小随访（最终）年龄平均值（标准差）男性（%）基线OSS 平均值（标准差）其他工具

Allom[14] 2009 英国纵向 RCDO 手术 OPC 构念 37 22年 56（范围19-87） 45 95% CI 45.5至50.3 在100分中，分数越高=结果越好 Constant
DASH Baker[15] 2008 英国纵向近端肱骨骨折 OPC 构念反应性 103 12个月 61.4（范围15-85） 29 27.3（12.7，范围12-57） 12-60分越高=结果越差 Constant
Bavan[16] 2020 英国纵向肩峰下肩痛医院物理治疗部构念反应性 25名患者 50名对照组 92.0（17.3）天 58.9（10.5） 48.4（21.2） 48 58 33.9（7.15） 0-48分越高=结果越好
Inertial metrics Beastall[19] 2012 英国纵向近端肱骨骨折（内固定） OPC 构念 44 23（IQR 16.25, 35）个月 58.4（13.9） 66 19（IQR 15, 26.75） 12-60分越高=结果越差 Constant
QuickDASH UCLA Cloke[20] 2005 英国纵向肩峰下撞击 <6个月专科诊所构念重测反应性 110 24周 55（范围24-89） 44 38.7（20.4）在100分中，分数越高=结果越差
SF-36 SPA Dawson[6] 1996 英国纵向肩部手术（非不稳定）术前诊所构念重测反应性 111 16个月中位数57.4（15.0，范围19.9至87.5） 54 36.3（95% CI 34.6至37.9） 12-60分越高=结果越差 Constant
HAQ SF-36 Dawson[22] 2001 英国纵向肩峰下撞击（手术）手术诊所构念 93 3.9（2.2至5.6）年 57.8（22.3至83.7） 66 33.0（95% CI 31.3至34.8） 12-60分越高=结果越差 Constant
SF-36 Evans[23] 2018 英国纵向肩部手术（非不稳定）手术诊所地板/天花板反应性 20 4 1年 60.3 39 19.6 4（6.52） 0-48分越高=结果越好
EQ-5D-3 LHapuarachchi[25] 2014 新西兰纵向逆向肩关节置换术治疗旋转袖撕裂数据库构念反应性 29 1年 78.9（6.0范围63.3-87.6） 28 18.3（6.8范围4至32） 0-48分越高=结果越好
ASES Noorani[29] 2012 英国纵向肩部手术术前诊所构念反应性 6 13-6个月无数据无数据无数据 Constant
SPONSA Othman[30] 2004 英国横断面冻结肩 MUA 手术诊所构念 51（60个肩部） 33（6-88）个月 53（33-83） 52 15（12-24） 12-60分越高=结果越差 Constant
Price[31] 2019 英国纵向肩部手术术前诊所反应性 59 46个月 53.0（16.7） 55 29.6（10.3） 0-48分越高=结果越好
EQ-5D-5 LMSK-HQ Singh[33] 2021 英国纵向肩关节置换术数据库地板/天花板 46,824个独立观察 5年 75.0（7.0） 28 15.7（8.6） 0-48分越高=结果越好
Sorenson[34] 2021 丹麦纵向肩峰下撞击减压术前诊所反应性阈值 58 6个月 57.4（10.1） 50 29.4（6.6） 0-48分越高=结果越好
EQ-5D-5 LPain VASSS V Van de Water[35] 2014 澳大利亚纵向近端肱骨骨折 2家医院诊所构念重测反应性阈值 22 13周 68.1（11.3） 20 无数据 0-48分越高=结果越好 Constant
DASH FABQ-PAU CLASS Xu[36] 2019 新加坡纵向旋转袖撕裂修复数据库阈值 21 42年 60.1（10.0） 45 29（11） 0-48分越高=结果越好 Constant
UCLA Xu[37] 2020 新加坡纵向旋转袖撕裂修复数据库阈值 30 62年 60.2（10.3） 45 28.1（11.2）无数据，假设与上述相同作者的结果
UCLA Zhou[38] 2023 新加坡纵向逆向肩关节置换术数据库阈值 13 15年 75.0（7.0） 66 39.1（12.5）无数据 Constant

随机对照试验
作者年份国家设计人群设置干预措施样本大小随访（最终）年龄平均值（标准差）男性（%）基线OSS

Beard[17,18] 2018 英国三臂肩峰下疼痛 3家医院减压关节镜检查无治疗 106 103 104 1年 52.9（10.3） 53.7（10.5） 53.2（10.2） 49 50 50 25.2（9.5） 26.7（8.8） 25.5（8.3） 0-48分越高=结果越好
Modified ConstantHADSPain[17] 2008 英国试点四臂疼痛弧<6个月初级保健物理治疗类固醇注射物理治疗+类固醇 27 29 28 29 18周 54.5（范围23-88） 43 31.35 29.95 28.85 26.35 12-60分越高=结果越差
SF-36 Holt[26] 2013 英国试点两臂旋转袖肌腱病或黏连性囊炎 6个初级保健机构类固醇+利多卡因利多卡因 19 21 12周 61.5（5.8） 56.0（11.3） 42 29 26.4（7.4） 25.4（9.0） 0-48分越高=结果越好
Moosmayer[27,28] 2023 挪威瑞典实用三臂骨化性肌腱病 6家医院冲洗+类固醇假冲洗+类固醇假冲洗 73 74 73 2年 50.5（8.5） 49.0（8.8） 49.3（9.0） 30 36 35 29.7（7.4） 29.6（7.6） 0-48分越高=结果越好
EQ-5D-5 LPain VAS[24,32] 2015 英国实用两臂近端肱骨骨折（移位） 3家医院手术非手术 12 51 25 2年 66.6（11.8） 65.4（12.1） 22 24 无数据 0-48分越高=结果越好

缩写：
UK：英国；RCD：旋转袖疾病；MUA：麻醉下的手法治疗；OPC：门诊诊所；PT：物理治疗；Mths：个月；Sh：肩部；SD：标准差；IQR：四分位数范围；NR：未报告；DASH：手臂、肩部和手部残疾量表；UCLA：加州大学洛杉矶分校肩部量表；SF-12：简版12健康调查；SPADI：肩部疼痛和残疾指数；HAQ：健康评估问卷；EQ-5D-3L：EuroQuol五维三级量表；EQ-5D-3L：EuroQuol五维五级量表；ASES：美国肩肘外科医生协会；SPONSA：斯坦莫尔正常肩部百分比评估；MSK-HQ：肌肉骨骼健康问卷；VAS：视觉模拟量表；FABQ-PA：恐惧避免信念量表-身体活动；HADS：医院焦虑和抑郁量表。

十二项研究包括了患有旋转袖疾病的患者，其中六项正在接受手术治疗[14,25,34,[36], [37], [38]]，六项正在接受非手术治疗[[16], [17], [18],[20], [21], [22],27,28]，四项研究包括了正在接受非手术治疗的近端肱骨骨折患者[15,19,24,32,35]，一项研究包括了正在接受肩关节置换术的骨关节炎患者[33]，一项研究包括了正在接受麻醉下手法治疗的黏连性囊炎患者[30]，五项研究包括了混合人群，其中四项接受手术治疗[6,23,29,31]，一项接受非手术治疗我们未对地板效应和天花板效应的综合评分进行报告，因为COSMIN-OMERACT良好方法检查并未提供评估这些效应的方法学质量的指导。

**重测信度**
三项研究评估了总OSS得分的重测信度[6,20,35]（补充表13）。其中一项研究的方法学质量被评为绿色[35]，两项被评为琥珀色[6,20]。所有研究都被认为表现良好，类的相关系数（ICC）≥0.75，尽管其中一项研究的置信区间较宽[35]。基于这些发现，总OSS得分的重测信度评分被定为琥珀色。

**反应性（纵向构念效度）**
在八项反应性评分为绿色或琥珀色的研究中[6,16,23,25,29,31,34,35]，有六项被认为表现良好[6,16,25,29,34,35]，包括两项被评为绿色[34,35]（补充表14）。其余两项被评为琥珀色，但由于其结果仅达到预期术后标准化反应均值（SRM）的25-75%，因此被认为表现不佳[23,31]。基于两项高质量研究的结果以及结果的一致性，总OSS得分的反应性评分被定为绿色。这些研究使用了不同的测量方法来证明反应性，包括预期效应大小和随时间变化的标准化反应均值（n=6）[6,16,23,25,29,31]、改善组与非改善组之间的变化比较（n=3）[6,29,34]、与其他工具的变化分数相关性（n=4）[23,31,34,35]以及曲线下面积计算（n=1）[34]。

**临床试验区分度**
五项研究评估了总OSS得分的临床试验区分度[17,18,21,24,[26], [27], [28],32]（补充表15）。其中两项的方法学质量被评为绿色[17,18,21,32]，三项被评为琥珀色[24,[26], [27], [28],32]。除一项被评为琥珀色的研究外，其余研究都被认为表现不佳[17,18,21,[26], [27], [28]]。尽管这些研究在预期无效应的情况下始终未显示出效应，但在预期有效应的情况下（例如，糖皮质激素注射的短期效应）也未检测到组间差异。被评为表现良好的研究还显示，在预期无效应的情况下，手术与非手术处理肱骨近端骨折之间没有差异[24,32]。基于这些发现，总OSS得分的临床试验区分度评分被定为琥珀色。

**意义阈值**
所有五项评估总OSS得分意义阈值的研究都被认为表现良好，因为它们至少使用了一个有意义的锚点和结果的三重验证[[34], [35], [36], [37], [38]]（补充表16）。然而，只有一项研究的方法学质量被评为绿色，该研究报告了关节镜减压术后六个月的最小重要变化（MIC）为6分（满分48分）[34]。因此，总OSS得分的意义阈值评分被定为琥珀色。其余四项研究由于失访[[36], [37], [38]]或报告不完整[[35]]而被评为琥珀色。其中三项研究报告了肩关节反式置换术[38]、旋转袖撕裂[37]和肱骨近端骨折[35]后的最小临床重要差异（MCID）范围为2.6至11.4分。

**OMERACT TAG的反馈及OMERACT 2025特别兴趣小组的工作坊结果**
我们同意TAG关于OSS评估疼痛的适用性的担忧。他们认为OSS更适合测量功能或功能与疼痛的结合构念，而不是单独测量疼痛。TAG审议了系统评价提供的证据，尽管有一项研究报道了OSS的四项疼痛子量表与其他疼痛测量工具（如视觉模拟量表）之间的相关性，但总OSS得分与多维度工具（如Constant-Murley量表）之间的相关性更强，后者同时评估疼痛和功能。这个问题因该研究使用的疼痛子量表未经正式验证而变得更加复杂。

**讨论**
我们在OMERACT过滤器对OSS进行疼痛评估的适用性和可行性评价后，对其测量属性进行了评估，该过滤器基于患者合作伙伴的反馈获得了琥珀色评分。我们的系统评价确定了23项研究，其中只有一项评估了疼痛子量表的测量属性，而不是整个OSS。在评估的34个证据组成部分中，只有八项被评为具有良好的方法学质量。尽管总OSS在测量疼痛和功能的多维构念方面表现出足够的构念效度和反应性，但我们认为它不太适合单独测量疼痛。我们的评价还发现总OSS的重测信度、临床试验区分度和意义阈值评分均为琥珀色，表明证据存在局限性或不确定性。

我们的发现，即总OSS得分不适合用于评估肩部疾病患者的疼痛，与之前的研究一致，这些研究使用了精细化的国际功能、残疾和健康分类（ICF）框架，发现14个主要OSS概念中有10个与疼痛无关[39]。尽管先前的研究建议在旋转袖修复人群中使用四项OSS疼痛子量表[40]，但其他研究不支持其在冻结肩或肱骨近端骨折人群中的使用[41]。此外，子量表中的四个条目中只有两个专门评估疼痛强度，这反映在我们的疼痛领域定义中。虽然这项评价主要关注OSS测量疼痛的适用性，但同样的概念限制也适用于身体功能领域。由于OSS将疼痛和功能合并为一个单一评分，因此它不适合单独评估任一领域。

鉴于这些限制，需要考虑其他疼痛测量工具。其中一个有前景的工具是肩痛和残疾指数（SPADI）疼痛子量表，这是一个包含五个专门评估疼痛强度条目的经过验证的工具[42]，常用于肩部疾病试验[1]。患者报告的结果测量信息系统（PROMIS）疼痛强度量表[43]也可能是一个合适的候选工具，在其他肌肉骨骼疾病中具有良好的测量属性[44,45]。它在关节镜旋转袖修复和全肩关节置换术后的纵向研究中显示出强烈的反应性，但据我们所知，尚未在肩部试验中使用[46,47]。

尽管我们得出总OSS得分不适合测量肩部疾病患者的疼痛的结论，但这并不排除其作为疼痛和功能综合指标的潜在用途。也不排除进一步验证疼痛子量表的可能性。OSS在临床实践中也可能有价值，尤其是在需要简短的多维工具的情况下。它完成速度快，只需两到四分钟[7]，用户友好，并且总OSS在各种手术和非手术肩部疾病（包括盂肱关节炎或肩锁关节炎、旋转袖疾病、肱骨近端骨折和粘性囊炎）中表现出足够的构念效度和反应性。OSS现已被翻译并适应24个国家的21种语言[48]，支持其在全球临床环境中的更广泛应用。

从试验设计的角度来看，由于方法学限制，总OSS的定量意义阈值仍然有限，评分均为琥珀色。只有一项高质量研究报告了关节镜减压术后六个月的最小重要变化为6/48分，但这一估计反映了患者内部的变化，未为试验设计提供组间最小重要差异。另外三项研究因失访或报告不完整而估计出肩关节反式置换术、旋转袖撕裂和肱骨近端骨折后的最小临床重要差异范围为2.6至11.4分。需要进一步的高质量研究来建立在不同临床背景下的稳定阈值，以支持试验设计、样本量计算和治疗效果的解释。

鉴于肩部疾病中疼痛和功能的相互关联性，综合终点可能提供一种实用的方法，可以在单一指标中反映疼痛和功能的必备领域。然而，正式评估OSS作为综合结果（包括领域权重和在此框架内的验证）超出了本研究的范围。未来的研究有必要正式评估OSS作为肩部疾病临床试验中疼痛和功能综合指标的适用性，特别是在无法确定疼痛和身体功能单独指标的情况下。

我们研究的一个关键优势是使用了OMERACT过滤器2.2，它为评估结果指标提供了一个系统和严谨的框架。我们还采用了稳健的方法，包括全面的文献搜索、独立筛选和数据评估，以及涉及临床专家、方法学家和患者合作伙伴的合作审查过程。自2023年6月以来，我们的搜索没有更新，因此可能有一些研究未被涵盖。然而，我们不认为额外的证据会改变我们的结论，即OSS不适合测量疼痛。

**结论**
总OSS得分表现出足够的构念效度和反应性，但由于它同时评估了疼痛和功能，因此不适合单独测量疼痛。虽然它未通过OMERACT过滤器作为涉及肩部疾病患者的疼痛测量工具，但它仍可能适合作为疼痛和功能的综合指标，并可能在临床实践中具有价值。进一步验证独立的疼痛和功能子量表可能会提高其适用性。

**数据可用性**
从纳入研究中提取的数据提供在补充材料中。如需其他材料，请联系相应作者。

**作者贡献声明**
Romi Haas：写作 - 审查与编辑、撰写初稿、可视化、验证、项目管理、方法学、研究、正式分析、数据管理、概念化。
Hana Marmura：写作 - 审查与编辑、撰写初稿、可视化、研究、正式分析、数据管理。
Rochelle Furtado：写作 - 审查与编辑、撰写初稿、验证、项目管理、方法学、研究、正式分析、数据管理。
Sofia Ramiro：写作 - 审查与编辑、监督、方法学、概念化。
Joel J Gagnier：写作 - 审查与编辑、撰写初稿、可视化、验证、监督、项目管理、方法学、研究、正式分析、数据管理、概念化。
Arianne Verhagen：写作 - 审查与编辑、监督、方法学、概念化。
Samuel Whittle：写作 - 审查与编辑、监督、概念化。
Dorcas Beaton：写作 - 审查与编辑、方法学、研究、正式分析、概念化。
Beverley Shea：写作 - 审查与编辑、方法学。
Pamela Richards：写作 - 审查与编辑、撰写初稿、验证、监督、项目管理、概念化。
Danielle Berkovic：写作 - 审查与编辑、研究、正式分析、概念化。
Andrew Firth：写作 - 审查与编辑、验证、研究。
Rachelle Buchbinder：写作 - 审查与编辑、监督、方法学、研究、资金获取、概念化。

热点排行