基于瑞典国家登记数据的慢性疼痛特征数据驱动聚类分析：迈向跨学科康复中的个性化决策支持

《International Journal of Medical Informatics》：Data-driven clustering of chronic pain profiles using Swedish national registry data: Towards individualized decision support in interdisciplinary rehabilitation

【字体：大中小】 时间：2026年05月11日 来源：International Journal of Medical Informatics 4.1

编辑推荐：

　　伊利亚斯·托马斯 | 罗杰·尼贝里 | 里卡多·洛马蒂雷 | 托尼·博曼 | 埃莱娜·策利 | 约翰·阿恩洛夫 | 安娜·格里姆比-埃克曼 | 林达·维克斯纳 | 马里卡·哈格尔贝里 | 比约恩·昂格
瑞典达拉纳大学信息与工程学院，博尔伦格

**摘要**
**背景**
慢性疼痛影响着20-30%的成年人，并是导致残疾和社会成本的主要原因之一。跨学科的团队治疗（IDT）是最为全面的治疗方法，但治疗效果差异很大，长期益处平均来看相对有限。本研究旨在从常规的术前数据中开发出具有临床解释意义的患者群体，并使用独立的国家级登记指标进行外部验证，以此作为数据驱动的临床决策支持的基础。

**方法**
我们分析了瑞典90,505名接受专科IDT治疗的患者的数据。采用基于理论的无监督方法，利用k-means算法对瑞典疼痛康复质量登记处的生物心理社会特征进行聚类分析。内部验证用于评估聚类的稳定性和区分度，而外部验证则通过Mantel统计量和逻辑回归来检验问卷生成的聚类结构与国家级登记处的病假记录和药物处方之间的吻合度。

**结果**
共识别出8个不同的患者群体，这些群体在疼痛严重程度、心理困扰、功能状态和疼痛持续时间方面存在差异。登记指标与群体特征相匹配：疼痛程度较高的群体表现出更多的病假和药物处方。问卷与登记数据生成的聚类距离矩阵之间的吻合度为中等至强烈（Mantel r = 0.65；p = 0.0016），并且群体成员身份与登记处的特征显著相关。观察到了三种不同的病假轨迹（高/稳定、中/稳定和低/递增），这些轨迹在不同群体间存在差异。

**结论**
通过对患者报告的常规数据进行大规模无监督聚类，并通过独立的国家级登记数据进行外部验证，同时结合纵向的病假模式，可以得出具有临床解释意义的亚组，从而增强构建效度。这为患者分层和未来临床决策支持工具的开发提供了可扩展的基础，有助于更精准地针对和监测现实医疗环境中的IDT治疗。

**1. 引言**
慢性疼痛是一个全球性的健康问题[1][2]，估计影响了全球20-30%的成年人[2][3]。它损害了患者的功能能力，降低了生活质量（QoL），增加了心理健康挑战[4][5]，并且是导致残疾的主要原因之一[6]。慢性疼痛还对医疗系统和社会福利计划造成了巨大负担，在高收入国家中占比高达4%的国民生产总值[7]。跨学科治疗（IDT）被广泛认为是管理重度慢性疼痛的金标准[8]，它整合了物理疗法、心理疗法和行为疗法，以改善患者功能并支持其重返工作岗位[3][9]。在瑞典，IDT是在瑞典疼痛康复质量登记处（SQRP）下属的专门康复机构提供的。尽管这种方法较为全面，但IDT的长期效果仍然有限[10][11][12]，平均治疗效果较小，个体间差异较大[3][13]。多达30%的患者在标准化治疗之后可能会出现病情恶化[10]。定制化的治疗策略可能会增强IDT的临床效果[14]，临床决策支持系统（CDSS）被越来越多地提出作为工具，通过生成基于证据的群体来支持个性化护理[15][16]，现在也被提议作为IDT的组成部分。先前的研究已在瑞典[17]和国际上[18]对慢性疼痛患者群体应用了聚类方法，使用的算法包括层次聚类、k-means、潜在类别分析和混合方法[19][20][21][22]，主要是为了生成群体层面的知识，而非指导个别患者的决策。这些研究识别出了三到四个具有不同疼痛严重程度、心理困扰、社会功能和预后的亚组[19][20][21][23]。现有文献主要依赖自我报告的数据，样本量较小，聚焦于相对有限的聚类解决方案，或缺乏与独立登记结果的External验证[17][18][19][20][21][22][23][24][25]。

与早期的慢性疼痛聚类研究不同，本研究基于瑞典的全国性登记数据，旨在利用专科就诊时常规可用的变量来绘制患者画像。通过将这些画像与独立的药物和病假登记数据进行外部验证，本研究将以往的亚组划分工作扩展为临床可用的数据驱动分层。在这方面，其贡献不仅在于描述性表型分析，还在于为未来的IDT决策支持应用开发了信息学框架。

**2. 方法论**
2.1. 数据描述
SQRP在基线（就诊时）、项目结束后以及12个月随访时收集标准化的患者自我报告结果指标（PROMs）；本研究的数据涵盖2009年至2022年期间。纳入标准包括：1）转诊至专门的疼痛康复诊所；2）完成就诊调查。PROMs包括数值评分量表（NRS）、医院焦虑抑郁量表（HADS）、EuroQol-5维度量表（EQ-5D）、36项简短量表（SF-36）、工作能力指数（WAI）和多维度疼痛量表（MPI）。在后续描述中，这些PROMs被称为特征。
SQRP的数据与国家健康与福利委员会（NBHW；Socialstyrelsen）、瑞典处方药物登记处以及瑞典社会保险局（SSIA；F?rs?kringskassan）维护的登记处数据通过微数据分析工具（MiDAS）进行了关联。国家患者登记处提供了专科护理利用情况和诊断信息，但未作为主要验证指标。所有数据关联均经过瑞典伦理审查机构（Dnr 2023-01532-01）的伦理批准，并遵守通用数据保护法规，使用匿名化数据进行处理。所有分析均使用R 4.4.0版本完成。

2.2. 基于瑞典疼痛康复质量登记处的聚类
用于患者聚类的数据集仅包含SQRP中的特征，因为这是诊所就诊时唯一可用的信息。表1列出了从SQRP注册表中选出的所有特征，最终数据集中包含90,505名患者的数据。
**表1. 三种登记处共同数据集的患者人口统计特征及特征描述（n = 90,505）**：
- **年龄**：患者首次就诊时的年龄
- **性别**：患者的性别
- **疼痛持续时间（年）**：患者持续疼痛的年数
- **MPI-SCI（0–6）**：多维度疼痛量表的自我报告平均值
- **NRS（0–10）**：过去一周的疼痛强度（数值评分量表）
- **HADS焦虑（0–21）**：根据HADS问卷评估的总焦虑程度
- **HADS抑郁（0–21）**：根据HADS问卷评估的总抑郁程度
- **EQ-5D**：患者自我报告的实际健康状况（0–100分，与生活质量相关）
- **病假轨迹**：基于过去12个月的病假情况
- **神经性疼痛药物**：过去6个月内是否开具了神经性疼痛药物
- **阿片类药物**：过去6个月内是否开具了阿片类药物
- **抗抑郁药物**：过去6个月内是否开具了抗抑郁药物
- **扑热息痛**：过去6个月内是否开具了扑热息痛
- **非甾体抗炎药（NSAID）**：过去6个月内是否开具了非甾体抗炎药
- **睡眠药物**：过去6个月内是否开具了睡眠药物

2.3. 聚类方法
选择从SQRP中提取的特征进行聚类，因为这些特征是诊所就诊时唯一可用的信息。表1中列出了所有最终数据集中的特征。

2.4. 聚类数量的确定
使用k-means算法将患者分为具有相似疼痛模式的组。在应用k-means之前，先对所有特征进行了缩放处理。聚类数量的确定基于聚类内部平方误差总和（WCSS）的肘部图和聚类稳定性指标。在此过程中还评估了其他指标（轮廓系数、Davies-Bouldin指数和Calinski-Harabasz指数）。通过使用原始数据的自助样本重复构建相同数量的聚类100次来评估聚类稳定性。评估了最多20个聚类。聚类稳定性通过自助运行创建的聚类之间的Jaccard系数来计算。

2.5. 病假模式的纵向聚类
对于数据集中的每位患者，汇总了他们在首次就诊前12个月的病假数据。分析中使用了57,440名患者的数据，仅限于那些具有相关登记数据的患者。由于MiDAS登记中的数据提供了病假时长及其百分比，我们将这段时间转换为月份，并提取了每个月的平均百分比。因此，将每位患者首次就诊前1年的时间转换为12个观测值的统一长度。然后使用时间序列分析方法（基于Den Teuling等人的建议[27]，采用生长曲线建模和k-means（R中的latrend和lme4库）对患者进行了纵向聚类。

2.6. 患者药物处方的评估
瑞典处方药物登记处的数据根据M.H.（药剂师和护士）、J.?.（医生）和E.T.（物理治疗师）组成的专家小组讨论进行了分类。登记中的415个解剖治疗化学分类（ATC）代码被归纳为六个与慢性疼痛管理相关的药物类别：治疗“神经性疼痛”的药物、“阿片类药物”、“扑热息痛”、“非甾体抗炎药（NSAID）”、“辅助睡眠的药物”以及“抗抑郁药”。

2.7. 验证策略
我们评估了基于SQRP创建的聚类是否反映了两个登记处（MiDAS和瑞典处方药物登记处）的客观数据，这两个登记处未用于聚类过程，因此可以提供独立的外部验证数据源。首先根据SQRP数据创建了两个不同的聚类集，然后分别计算了未参与聚类过程的特征（药物和病假数据）的聚类中心。创建了两个距离矩阵，分别对应第一组和第二组聚类中心，并进行了Mantel检验，以检测两个矩阵之间的相关性。显著的关联表明，在聚类过程中发现的结构在数据中得到了保留，而不是聚类过程的一部分，从而支持了所识别簇的普遍性和外部有效性。此外，我们为外部登记特征拟合了逻辑回归模型。以病假轨迹和药物类型作为响应变量（分别在多项式逻辑回归和二元逻辑回归中），进一步检验了簇成员身份与独立临床结果和利用结果之间的一致性，簇成员身份、年龄、性别和疼痛持续时间作为预测变量。

3. 结果
基于Jaccard系数超过0.8的簇数量最多、簇内平方和的肘点（WCSS）以及每个簇内的患者数量，共开发了八个患者簇（见图1）。对于这种解决方案，Davies-Bouldin指数最低，而Calinski-Harabasz指数与肘点标准一致。Silhouette图更倾向于较少的簇数量。这些簇反映了患者之间的多维分离，疼痛严重程度、心理健康、生活质量、性别和疼痛持续时间都对观察到的特征有贡献。创建的簇与用于外部验证的登记数据非常吻合，距离矩阵之间的相关性为中等到高，Mantel检验的p值较低。

下载：下载高分辨率图片（582KB）
下载：下载全尺寸图片
图1. 根据SQRP特征的相似性（蓝色表示性别与RS的反时针方向关系），使用WCSS开发的八个簇。红色的雷达图显示了相同簇的病假轨迹和药物处方。值已经根据簇的最小值和最大值进行了归一化。缩写：YPD-疼痛持续时间年数，MPIS-多维疼痛量表，NRS-数字评定量表，HADS-医院焦虑和抑郁量表，RS-评定量表，NSAID-非甾体抗炎药。

3.1. 开发和验证簇
从SQRP登记数据中开发的八个患者簇可以在图1中用雷达图表示（浅蓝色）。雷达图有助于直观比较多个簇并识别数据中的模式。然后使用另外两个登记数据（MiDAS和瑞典处方药物登记数据）来验证这些簇，并提供有关患者背景的进一步见解。这些在图1中用红色表示。所有簇的总结都在表2中呈现。

表2. 用于聚类和验证的特征的簇平均值。
| 特征 | ClusterDTI |
|-------------|----------|
| 性别（F） | 1 |
| 年龄 | 2 |
| 疼痛持续时间年数（YPD） | 3 |
| 多维疼痛量表（MPIS） | 4 |
| 医院焦虑和抑郁量表（HADS） | 5 |
| 评定量表（RS） | 6 |
| NSAID | 7 |

3.2. 病假轨迹和药物处方的模式
使用GCKM聚类方法，出现了三个病假簇。在本文的其余部分，这些簇将被称为轨迹。如图3所示，这三个轨迹是不同的：一个病假稳定但中等（轨迹2），一个病假逐渐增加但较低（轨迹3），一个病假较高但逐渐减少（轨迹1）。在评估簇数量时，AIC和BIC标准倾向于更高维度的解决方案；而簇离散度指标则倾向于更少的簇数量。从两个轨迹增加到三个轨迹时获得了最大的收益，而更高阶的解决方案主要是根据基线水平而不是时间形状对相同模式进行了细分。根据简约原则，在信息增益与复杂性之间取得平衡，保留了三轨迹解决方案作为病假数据最易解释的总结。每个轨迹中的患者百分比见表1和表2。

表2. 每个簇中药物使用的数量
| 特征 | ClusterDTI |
|-------------|------------|
| 性别（F） | 1 |
| 年龄 | 2 |
| 疼痛持续时间年数（YPD） | 3 |
| 多维疼痛量表（MPIS） | 4 |
| 医院焦虑和抑郁量表（HADS） | 5 |
| 评定量表（RS） | 6 |
| NSAID | 7 |

从浅蓝色的簇中可以看出，患者根据他们对SQRP问卷的回答有明显的分离。有些簇中的患者经历剧烈的疼痛和心理健康问题（簇5和8），生活质量最低。簇5包括疼痛持续时间较短的患者，而簇8包括疼痛持续时间较长的患者。簇1和7中的患者具有相同的疼痛特征，但在性别和年龄上有所不同，并与簇3的对应关系较弱。簇4和6中的患者生活质量最高，疼痛强度适中或较低。最后，簇2中的患者疼痛持续时间较长，年龄较大，疼痛程度和生活满意度处于中等水平。簇平均特征的热图见图3，其中簇的分离情况与图2所示一致。

下载：下载高分辨率图片（111KB）
下载：下载全尺寸图片
图2. 簇平均特征的热图

下载：下载高分辨率图片（67KB）
下载：下载全尺寸图片
图3. 数据集中57,440名患者的三种病假轨迹。轨迹1的患者病假持续时间长且稳定，轨迹2的患者病假中等但稳定，轨迹3的患者病假较低但逐渐增加。y轴表示病假百分比，x轴表示首次就诊前的12个月。

单因素方差分析显示所有特征在簇间存在显著差异（所有FDR调整后的p < 0.001）。效应量估计显示，疼痛持续时间（η2 = 0.60）、MPIS（η2 = 0.58）和性别（η2 = 0.57）是簇区分的最大贡献因素，其次是抑郁（η2 = 0.52）、焦虑（η2 = 0.50）和疼痛强度（η2 = 0.47）。评定量表和年龄显示出中等效应（η2 = 0.36和0.28）。

3.2. 病假轨迹和药物处方的模式
使用GCKM聚类方法，出现了三个病假簇。这些簇在本文的其余部分将被称为轨迹。如图3所示，这三个轨迹是不同的：一个病假稳定但中等（轨迹2），一个病假逐渐增加但较低（轨迹3），一个病假较高但逐渐减少（轨迹1）。在评估簇数量时，AIC和BIC标准倾向于更高维度的解决方案；而簇离散度指标则倾向于更少的簇数量。从两个轨迹增加到三个轨迹时获得了最大的收益，而更高阶的解决方案主要是根据基线水平而不是时间形状对相同的模式进行了细分。基于简约原则，在信息增益与复杂性之间取得平衡，保留了三轨迹解决方案作为病假数据最易解释的总结。

3.3. 基于病假轨迹和药物处方的簇验证
病假轨迹可以用来验证创建的簇。如图1所示，簇5的病假最长，其次是簇8、1、3和7，符合预期。簇8的患者疼痛持续时间较长，而簇5的患者疼痛持续时间较短。簇2、4和6的病假最短。在这种情况下，病假较长意味着患者属于轨迹1或轨迹2；病假较短则属于轨迹3。在评估患者的药物处方时，我们看到患者所经历的挑战与他们接受的药物之间存在一致性。簇5和8的患者接受的药品最多，而簇4的患者主要接受扑热息痛。簇1和3的患者用药特征相似，而簇7（年轻女性）患者接受了更多的阿片类药物和抗抑郁药。簇2的患者接受了多种药物，簇6的患者主要接受了抗抑郁药、阿片类药物和睡眠药物。

更重要的是，除了视觉上确认主观数据和客观数据之间的一致性外，两组质心之间的距离矩阵之间的皮尔逊相关性为0.65，表明存在轻度到中度的关联结构。Mantel检验的p值为0.0016，表明第一组质心中的簇分离模式在第二组质心中有意义的保留。在额外的外部验证分析中，簇成员身份与多项式逻辑回归中的登记派生病假轨迹有很强的相关性，无论是在未调整模型中还是在调整了年龄、性别和疼痛持续时间之后（似然比检验，p < 0.001）。同样，簇成员身份在二元逻辑回归模型中与所有六种药物类别也有显著相关性，无论是在调整之前还是之后（所有p < 0.001）。

3.4. 评估患者是否接受了治疗
表2显示了每个簇中接受治疗的患者百分比。簇中的百分比在39%到50%之间，其中簇5的差异最大。簇1、2、4和8也有较高的未接受治疗患者百分比，而簇6和7中只有一半的患者接受了治疗。

4. 讨论
基于迄今为止最大的瑞典慢性疼痛患者队列，我们识别出了八个不同的患者簇。选择用于验证的登记数据是有策略的，因为它们包含了自我报告问卷通常无法捕捉的信息，从而允许对生成的簇进行客观和独立的评估。这增强了八个簇解决方案反映临床意义的表型的信心。聚类（SQRP）和验证（NBHW、SSIA）之间的分离是一个关键的方法论优势，确保簇反映了临床实践中的实际情况，同时验证结果基于现实世界的结局。由于聚类变量是在入院时常规收集的，未来的实施可以将新患者分配到最近的簇特征中，并使用该特征来支持分层分诊、多学科关注和结果监测，结合临床医生的判断。

病假轨迹的数量是通过数据驱动的方式确定的。我们识别出了三种不同的病假轨迹：一种病假逐渐增加，两种相对稳定，要么处于高水平要么处于低水平。当指定了额外的轨迹时，出现了一些相似的时间模式，基线水平的差异很小，表明所选的解决方案 capture 了数据的基本结构，而没有引入不必要的解释复杂性。选择雷达图来可视化簇特征，因为它们有助于跨多个维度进行比较，并突出不同组之间的显著模式。重要的是，外部验证不仅仅基于视觉检查（见图1）；相反，两组簇之间的对应关系是使用Mantel检验和逻辑回归正式评估的。

相对于后续的IDT（干预治疗），对簇的评估显示，接受IDT和未接受IDT的患者分布大致平衡。这种模式与转诊决策受Clinically显著因素影响的前提一致，这些因素仅部分被捕捉到[28]，如临床医生评估、环境因素和患者偏好。同时，基线药物模式与症状特征大致一致，表明康复前的处方实践广泛反映了临床表现，从而为簇特征提供了额外的、临床直观的依据。我们的八个簇解决方案建立在早期应用层次聚类、潜在类分析或混合算法于慢性疼痛人群[18]、[19]、[20]、[21]、[22]、[23]、[24]的工作基础上。虽然大多数先前的研究主要根据疼痛严重程度、心理痛苦和社会功能报告了三到四个广泛的亚组[19]、[20]、[21]、[23]，但当前的分析表明，当聚类与大规模登记数据连接和外部验证相结合时，可以实现更细粒度的表型区分。特别是，之前的瑞典工作强调了心理社会和支持维度的重要性[23]，大规模研究突出了基于严重程度的分组及其预后意义[20]，这些发现与我们在这里观察到的多维特征一致，但在我们的八个簇解决方案中进一步得到了区分。因此，当前的结果通过展示登记数据验证的聚类可以支持生物心理社会疼痛模型中的更细致的分类，补充了基于机制的方法，如ROPA[22]。

总之，这些发现扩展了之前的慢性疼痛人群聚类研究[17]、[18]、[19]、[20]、[21]、[22]、[23]，表明使用客观登记数据可以外部验证更详细的八个簇解决方案。这种方法支持对患者异质性的更细致描述，并可能有助于开发更精准的康复策略。

5. 结论和未来工作
未来的分析将结合瑞典统计局的社会经济和人口统计数据以及额外的医疗利用数据，以进一步丰富患者特征并支持更全面的簇验证。此外，还需要更彻底地研究病假轨迹的发现，并应用额外的数据处理技术。Mantel检验的结果应谨慎解读，但测试结果和视觉检查都表明不同登记数据中的簇结构相似。作为未来工作的一部分，我们将检查每个簇中哪些患者接受了治疗，并将他们的结果与未接受治疗的患者进行比较。由于数据可追溯到初次评估后的五年，因此可以跟踪病假模式和药物处方的变化。

这项工作是迈向个性化决策支持以建模患者轨迹[29]的初步步骤，需要考虑几个限制。首先，该研究群体的样本来自于被转诊到瑞典疼痛康复专科的患者，可能无法代表所有慢性疼痛患者群体或其他医疗系统的情况。其次，尽管最终用于聚类的变量整体缺失率较低，但仍需要对一些初始数据进行插补处理，这可能会引入一定的不确定性。第三，与所有无监督分析一样，所获得的聚类结果和轨迹模型应被视为对数据的有用且具有临床解释意义的表示形式，而不是唯一真实的潜在结构。最后，该研究在临床决策支持方面的潜在价值仍属于基础性探讨阶段，需要在实际应用前进行前瞻性评估、工作流程整合以及可移植性测试。

CRediT作者贡献声明：
Ilias Thomas：撰写——审阅与编辑、撰写——初稿、数据可视化、方法学研究、数据分析、概念构建。
Roger Nyberg：撰写——审阅与编辑、撰写——初稿。
Riccardo LoMartire：撰写——审阅与编辑、数据管理。
Tony Bohman：撰写——审阅与编辑、项目管理工作、资金筹措。
Elena Tseli：撰写——审阅与编辑、方法学研究。
Johan ?rnl?v：撰写——审阅与编辑、方法学研究。
Anna Grimby-Ekman：撰写——审阅与编辑。
Linda Vixner：撰写——审阅与编辑、资金筹措。
Marika Hagelberg：撰写——审阅与编辑、方法学研究。
Bj?rn ?ng：撰写——审阅与编辑。

热点排行