特应性皮炎中的人工智能：当前应用与未来前景

《Chinese Medical Journal》：Artificial intelligence in atopic dermatitis: Current applications and future perspectives

【字体：大中小】 时间：2026年05月10日 来源：Chinese Medical Journal 7.3

编辑推荐：

　　**摘要** **背景**：在糖尿病发病之前， já存在显著的代谢异质性，这为更早、更精确的干预提供了机会。本研究旨在利用创新的聚类方法分析无糖尿病人群中的常见临床指标，以识别特征性亚组，并评估其在分层预测糖尿病风险及相关并发症方面的效用。 **方法**：本研究纳入了来

　　**摘要**
**背景**：在糖尿病发病之前， já存在显著的代谢异质性，这为更早、更精确的干预提供了机会。本研究旨在利用创新的聚类方法分析无糖尿病人群中的常见临床指标，以识别特征性亚组，并评估其在分层预测糖尿病风险及相关并发症方面的效用。

**方法**：本研究纳入了来自中国昆山“健康老龄化研究”（KARE）队列的13,829名无糖尿病成年人。该队列是一组基于人群的纵向研究，包含51,400名来自中国昆山市城乡地区的社区居民，这些居民自2014年1月起每年接受健康检查。研究采用了基于并发症聚类和加权朴素贝叶斯分类的新亚型分类方法，以选择最具信息量的变量，并将个体分为不同的糖尿病亚型。随后，我们评估了这些亚组在3年内患糖尿病及并发症（包括心血管疾病（CVD）、脂肪肝病（FLD）和中风）的风险。为评估遗传因素的影响，比较了所有参与者的多基因风险评分（PRS）。外部验证使用了北京九华医院自2014年以来追踪的22,630名无糖尿病个体的数据。

**结果**：研究确定了13个具有临床意义的变量：性别、年龄、身体质量指数（BMI）、腰围、甘油三酯（TG）、总胆固醇（TC）、高密度脂蛋白胆固醇（HDL-C）、丙氨酸氨基转移酶（ALT）、尿酸（UA）、血尿素氮（BUN）、空腹血糖（FBG）、收缩压（SBP）和心率。在昆山队列中识别出3个亚组：
- **亚组1**（n = 6,751）具有有利的生理指标，糖尿病风险（2.04%，138/6,751）及相关并发症风险（CVD 4.52%，305/6,751；FLD 15.30%，1,033/6,751；中风 9.07%，612/6,751）最低；
- **亚组2**（n = 4,622）的血糖和血脂控制最差，3年内糖尿病（9.95%，460/4,622）和FLD（52.14%，2,410/4,622）的累积发病率最高；
- **亚组3**（n = 2,456）以年龄最大、收缩压和BMI及腰围最高为特征，糖尿病风险居中（3.05%，75/2,456），但CVD（8.47%，208/2,456）和中风（14.13%，347/2,456）的风险最高。

在调整后的COX生存分析中，以亚组1为参考，亚组2的 Hazard Ratio（HR）为2.357（95%置信区间[CI]：2.161–2.571，P <0.001），亚组3为1.903（95% CI：1.718–2.108，P <0.001）。对于CVD，亚组2的HR为1.193（95% CI：0.975–1.459，P = 0.087），亚组3为1.295（95% CI：1.041–1.611，P = 0.02）。中风分析中，亚组2的HR为1.058（95% CI：0.911–1.23，P = 0.46），亚组3为1.212（95% CI：1.029–1.428，P = 0.021）。PRS预测的糖尿病和CVD风险与临床聚类结果一致。这些发现在北京九华医院队列中也得到了独立验证。

**结论**：使用新聚类方法从临床特征分析中得出的表型能够有效识别并分层评估无糖尿病中国成年人中糖尿病及相关并发症（如CVD、FLD和中风）的风险，为制定更精确和个性化的预防策略提供了支持。

**通俗语言总结**：本研究基于中国昆山KARE队列中13,829名无糖尿病成年人的13个常见临床指标，利用新的聚类方法识别出3个具有不同未来风险的亚组。亚组1的糖尿病（2.04%）、CVD（4.52%）、FLD（15.30%）和中风（9.07%）风险最低；亚组2的血糖和血脂控制最差，糖尿病（9.95%）和FLD（52.14%）风险最高；亚组3由于年龄较大、血压和BMI及腰围较高，CVD（8.47%）和中风（14.13%）风险最高。PRS模式和北京九华医院队列（n=6,209）的数据验证了这些发现，进一步支持了更精确的预防策略。

**引言**：根据国际糖尿病联合会的数据，糖尿病已成为最严重和最常见的慢性疾病之一。截至2021年，全球估计有5.37亿成年人患有糖尿病，患病率超过10%，且这一比率持续上升。糖尿病及其并发症是导致过早死亡的主要原因，给全球公共卫生、社会和经济带来了巨大负担。然而，糖尿病及其并发症在很大程度上是可以预防的，早期筛查和诊断在有效管理中起着核心作用。因此，准确识别高糖尿病风险个体并提供有效干预是糖尿病预防和治疗的关键。糖尿病由多种病理生理机制引起，个体之间的危险因素（不仅仅是高血糖）可能存在差异。在无糖尿病人群（如糖尿病前期患者）中，病理生理异质性更大，对糖尿病及其并发症的易感性也各不相同。早期发现和管理对于预防和减少糖尿病及其相关并发症的负担至关重要。目前，传统的糖尿病前期或糖尿病诊断主要依赖于测量单一代谢物——葡萄糖，这限制了风险预测的准确性。因此，准确识别高糖尿病风险个体已成为紧迫挑战。美国糖尿病协会和欧洲糖尿病研究协会强调，精确诊断、分类和干预是糖尿病精准医疗的重要组成部分。

**伦理批准**：所有参与者均提供了书面知情同意书，本研究获得了北京医院伦理委员会的批准（批准编号2022BJYYEC-104-03）。

**数据来源**：
- **昆山队列**：包括13,829名无糖尿病成年人，来自中国昆山市的“健康老龄化研究”（KARE）队列，这是一组基于人群的纵向研究，包含51,400名来自城乡地区的社区居民，自2014年起每年接受健康检查。
- **北京九华医院队列**：包括22,630名自2014年起每年接受健康检查的健康个体，数据用于外部验证。

**具体步骤**：
1. 采集生理指标、人体测量数据（血压、心率、身高、体重、腰围）和个人健康行为信息，并进行血液检测。
2. 通过腹部超声波检查诊断脂肪肝病（FLD）。
3. 使用ICD-10编码和自我报告数据定义CVD和中风。
4. 对EHR数据进行去识别和匿名处理，并定期更新。

**纳入和排除标准**：
- 纳入标准：2014年至2023年间在中国苏州昆山社区卫生服务中心或北京九华医院接受过体检的个体；同意参与并能够按时随访的个体。
- 排除标准：基线时空腹血糖（FBG）≥7.0 mmol/L 或自报患有糖尿病的个体；基线或随访期间人口统计或临床数据不完整的个体。

**主要结果和次要结果**：
- **主要结果**：不同亚组在3年内患糖尿病的风险。
- **次要结果**：两个中国无糖尿病成年人队列中糖尿病相关并发症（CVD、FLD、中风）的3年风险。

**聚类分析**：研究者开发了一种新的聚类框架，基于相似性矩阵生成具有临床意义的代谢亚型。通过集成聚类策略和加权朴素贝叶斯分类（WNBC）方法，评估这些亚型在不同队列中的稳定性和可重复性，以及它们患糖尿病及相关并发症的差异风险，从而为针对性预防策略提供依据。不同聚类数量的轮廓系数和Davies–Bouldin得分分别在补充图1和补充图2中展示，链接为https://links.lww.com/CM9/C724。我们应用了t-SNE（t-distributed stochastic neighbor embedding）技术将数据集投影到二维空间中，以便可视化数据结构以及每个参与者在群体中的聚类分配情况。t-SNE分析是使用Python（版本3.5，Python软件基金会，美国俄勒冈州比弗顿）中的scikit-learn库进行的。

多基因风险评分（PRS）：昆山市队列基于2638名中国血统个体的全基因组测序开发了一种新的单核苷酸多态性（SNP）阵列。PRS，也称为多基因评分（PGS），是通过计算风险等位基因计数的加权和来获得的，其中权重来自全基因组关联研究（GWAS）中报告的效果大小。[14,15] 为了评估遗传因素的影响，我们计算了目标结果的PRS。在昆山市队列中，使用R包bsnpr[16]和聚类及阈值化（C+T）方法（也称为修剪和阈值化（P+T）计算了27,865名个体的PRS，这是一种广泛使用的方法，可以直接从GWAS结果中得出PRS。[17] 我们使用了来自日本生物银行（BBJ）[18–20]研究的220个人类表型的GWAS汇总统计信息，以及手动选定的其他相关GWAS数据。汇总统计信息的基因组构建使用liftOver转换为hg38格式。[21] 提取了在GWAS汇总统计信息和我们的推断基因型数据中都存在的变异。聚类时使用了0.2的r2阈值和500 kb的窗口大小。[22] 选出了P值小于5 × 10–8的变异用于最终的PGS计算。[23] 最后，通过将每个群体中个体的GWAS汇总统计信息中的变异剂量与其beta系数相加来计算每个表型的PGS。

统计分析：连续变量以均值±标准差表示，而分类变量则以百分比（%）表示。对于符合正态性和方差同质性假设的连续数据，使用方差分析（ANOVA）来比较三个组；否则，使用Kruskal–Wallis H检验。当发现三组之间存在显著差异时，使用Steel–Dwass检验进行组间比较。分类变量使用卡方检验进行分析。聚类分析是使用Python（版本3.5）进行的。糖尿病及相关并发症（包括CVD、FLD和中风）的风险是使用基于随访数据的Cox比例风险回归模型进行评估的。任何两组之间的生存差异使用Kaplan–Meier（KM）生存分析中的对数秩检验来评估。在线性回归模型中，PRS作为因变量，聚类成员身份（以Cluster 1为参考）作为协变量。所有检验都是双尾的，P值小于0.05被视为统计显著。

**结果：**
- **两个队列中的参与者**：在昆山市队列中，由于基线时的FBG≥7.0 mmol/L或自我报告患有糖尿病，有13,410名个体被排除。此外，由于基线时或随访期间的数据不完整，有21,172名个体被排除，另有2,989名个体因极端值被移除。最终共有13,829名受试者被纳入研究[补充图3，链接为https://links.lww.com/CM9/C724]。记录了随访期间糖尿病、CVD、FLD和中风的发病率。
- **九华队列**：有5,848名个体因为自我报告患有糖尿病或基线时FBG≥7.0 mmol/L被排除。另有9,914名个体因失访或缺失数据被排除，659名个体因极端值被移除。最终共有6,209名受试者被纳入研究。数据筛选流程图见补充图3，链接为https://links.lww.com/CM9/C724。

**不同亚组中参与者的特征**：共有13,829名昆山市队列的参与者被纳入分析。根据13个临床重要和常见的指标进行了聚类，确定了三个不同的群组：(1) Cluster 1：糖尿病风险低（48.82%，6,751/13,829）；(2) Cluster 2：糖尿病风险高（33.42%，4,622/13,829）；(3) Cluster 3：糖尿病风险中等（17.76%，2,456/13,829）[图1]。三个群组的基线特征见表1。如图1所示，每个群组显示出特定的特征。Cluster 2在血糖和脂质代谢控制方面最差。Cluster 3的年龄、SBP、BMI和腰围与其他组相比最高。Cluster 1的参与者具有没有显著代谢相关风险因素的有利指标。图2和补充图4[https://links.lww.com/CM9/C724]显示了所有聚类指标上的明显差异，这些差异根据Kruskal–Wallis H检验在统计上都是显著的（P <0.05）。图2展示了按群组成员身份分层的年龄、ALT、BMI、BUN、FBG、性别、HDL-C和心率的分布，这与图1的结果一致。

**图1：昆山市队列中参与者的分布和群组特征。(A) 昆山市队列中参与者的群组分布。(B) 在简化二维空间中的个体t-SNE可视化，根据群组着色。轴没有直接的物理意义。(C) 每个群组的临床特征雷达图。Cluster 1（C1，n = 6,751），Cluster 2（C2，n = 4,622），Cluster 3（C3，n = 2,456）在人口统计（年龄、性别）、人体测量（BMI、腰围）和代谢特征（FBG、TC、TG、HDL-C、ALT、UA、BUN、HR）方面显示出不同的模式。**

**表1：**昆山市队列中无糖尿病成年人的基线特征，按三个代谢群组划分。
| 项目 | Cluster 1（n = 6,751） | Cluster 2（n = 4,622） | Cluster 3（n = 2,456） |
|-----------------|-----------------|-----------------|-----------------|
| 年龄（岁） | 73.78 ± 8.23 | 70.62 ± 8.06 | 77.63 ± 5.47 | <0.01 |
| 性别（男） | 3,817（56.54%） | 2,860（61.88%） | 1,411（57.45%） | <0.01 |
| BMI（kg/m2） | 22.23 ± 2.13 | 25.8 ± 2.69 | 26.35 ± 2.27 | <0.01 |
| 腰围（cm） | 76.89 ± 6.34 | 83.29 ± 7.31 | 84.17 ± 7.66 | <0.01 |
| TC（mmol/L） | 4.66 ± 0.89 | 4.88 ± 0.98 | 4.51 ± 1.08 | <0.01 |
| ALT（U/L） | 18.69 ± 6.90 | 21.98 ± 8.53 | 22.9 ± 8.98 | <0.01 |
| BUN（mol/L） | 5.68 ± 1.59 | 5.53 ± 1.61 | 5.82 ± 1.47 | <0.01 |
| UA（μmol/L） | 296.49 ± 72.63 | 318.58 ± 77.05 | 357.14 ± 86.34 | <0.01 |
| 心率（次/分钟） | 74.31 ± 9.63 | 76.83 ± 10.27 | 72.48 ± 10.62 | <0.01 |
| SBP（mmHg） | 128.77 ± 13.74 | 132.16 ± 14.19 | 136.68 ± 15.01 | <0.01 |
| HDL-C（mmol/L） | 1.52 ± 0.38 | 1.32 ± 0.34 | 1.35 ± 0.37 | <0.01 |
| TG（mmol/L） | 1.20 ± 0.49 | 1.78 ± 0.85 | 1.60 ± 0.78 | <0.01 |
| FBG（mmol/L） | 5.01 ± 0.49 | 5.81 ± 0.58 | 4.80 ± 0.51 | <0.01 |

该表总结了昆山市老年研究与电子健康（KARE）队列中13,829名无糖尿病成年人的 demographic、人体测量、生化和血液动力学特征，这些特征根据常规测量的临床指标被分为三个代谢群组。连续变量以均值±标准差表示，分类变量以计数（n）和百分比（%）表示。

**图2：**昆山市队列中各群组的临床特征分布。小提琴图展示了按群组成员身份分层的（A）年龄、（B）ALT、（C）BMI、（D）BUN、（E）FBG、（F）性别、（G）HDL-C和（H）心率的分布。每个小提琴图中的水平线表示均值，上下须表示最大和最小值。

**三个亚组中糖尿病及其并发症的3年进展风险**：在昆山市队列中，三个风险群组之间的糖尿病及相关并发症（如CVD、FLD和中风）的3年风险存在显著差异（所有P <0.05，通过Kruskal–Wallis检验，图3）。Cluster 2中发展成糖尿病的参与者比例最高，且FLD的风险最大，3年累积发病率分别为9.95%（460/4,622）和52.14%（2,410/4,622）[图3]。Cluster 3的糖尿病患病率居中，但CVD和中风的风险最高，3年累积发病率分别为3.05%（75/2,456）、8.47%（208/2,456）和14.13%（347/2,456）[图3B和D]。Cluster 1的糖尿病及其并发症的风险最低，3年累积发病率分别为2.04%（138/6,751）、CVD为4.52%（305/6,751）、FLD为15.30%（1,033/6,751）和中风为9.07%（612/6,751）[图3]。

**Cox比例风险研究**：调整后的Cox生存分析显示了昆山市队列中各群组发展糖尿病及其并发症的显著风险。以Cluster 1为参考，Cluster 2的糖尿病风险显著更高（风险比[HR]：6.488；95%置信区间[CI]：5.211–8.078，P <0.001），而Cluster 3的风险略有增加（HR：1.454；95% CI：1.067–1.981，P = 0.018）[补充图5A，链接为https://links.lww.com/CM9/C724]。对于CVD，Cluster 2的HR为1.193（95% CI：0.975–1.459，P = 0.087），但统计上不显著；而Cluster 3的风险显著增加（HR：1.295；95% CI：1.041–1.611，P = 0.020）[补充图5B，链接为https://links.lww.com/CM9/C724]。关于FLD，Cluster 2（HR：2.357；95% CI：2.161–2.571，P <0.001）和Cluster 3（HR：1.903；95% CI：1.718–2.108，P <0.001）的风险均显著高于Cluster 1[补充图5C，链接为https://links.lww.com/CM9/C724]。对于中风，Cluster 2的风险没有显著增加（HR：1.058；95% CI：0.911–1.23，P = 0.46），而Cluster 3的风险略有但统计上显著增加（HR：1.212；95% CI：1.029–1.428，P = 0.021）[补充图5D，链接为https://links.lww.com/CM9/C724]。

**三个亚组的糖尿病和并发症的Kaplan–Meier生存分析**：补充图6[链接为https://links.lww.com/CM9/C724]展示了糖尿病、CVD、FLD和中风的KM生存曲线。比较各组生存差异的对数秩检验的P值分别报告在补充表1–4中[链接为https://links.lww.com/CM9/C724]。糖尿病、CVD、FLD和中风的生存分析结果与上述累积发病率发现一致。

**昆山市队列三个亚组的糖尿病和并发症的PRS**：PRS是使用来自欧洲和亚洲人群的相应GWAS计算得出的，考虑了几个感兴趣的性状。PRS中包含的SNP是根据之前的出版物选择的，详细信息见补充表5[链接为https://links.lww.com/CM9/C724]。如补充图7所示[链接为https://links.lww.com/CM9/C724]，观察到SBP[24]、DBP（舒张压）[24]、TG[25]、ISCH_STroke（缺血性中风[IS]）[20]、T2D-EA（基于东亚最大样本量的2型糖尿病[T2D] [26] 和 HDL-C[25]（所有P <0.05）在各组之间的PRS存在显著差异。以Cluster 1为参考，Cluster 2的T2D风险系数最高（HR：3.10；95% CI：1.95–4.25，P <0.05），与其最高的糖尿病患病率一致。在各组之间没有差异的PRS包括NAFLD1（酒精相关肝硬化，基于712名个体）[27]、NAFLD2（非酒精性脂肪肝病[NAFLD]，基于8,434名个体的荟萃分析，这是目前最大的NAFLD GWAS[28]）、CAD[20]、中风[29] 和 T2D1（基于最大的跨种族T2D荟萃分析[30]（P >0.05）。此外，基于BBJ数据库[18]的PRS分析结果见补充图8[链接为https://links.lww.com/CM9/C724]。在不同群体间，PRS（表型风险评分）存在显著差异，涉及的疾病包括：1型糖尿病（T1D）、2型糖尿病（T2D）、用于糖尿病的药物（A10）、心肌梗死（MI）、不稳定型心绞痛（UAP）、慢性胰腺炎（ChP）、体重指数（BMI）、体重（BW）、收缩压（SBP）、舒张压（DBP）、平均动脉压（MAP）、血尿素氮（BUN）、丙氨酸转氨酶（ALT）、天冬氨酸转氨酶（AST）、γ-谷氨酰转移酶（GGT）、总胆红素（TBil）和葡萄糖（TG），所有这些差异的P值均小于0.05。以Cluster 1作为参考，Cluster 2在BBJ_T2D方面的风险系数最高（风险比：HR: 3.16；95%置信区间：1.51–4.81；P < 0.05），这与该群体中糖尿病的最高患病率相符。此外，Cluster 3在BBJ_MI方面的风险系数也最高（HR: 1.07；95%置信区间：0.57–1.58；P < 0.05），这与该群体中心血管疾病（CVD）的最高患病率一致。在各组之间没有差异的PRS指标包括心绞痛（Ang）、脑出血（IH）、稳定性心绞痛（SAP）和甲状腺功能亢进症（Hype）（P > 0.05）。此外，PRS还基于BBJ和英国生物银行的荟萃分析（BBJ_EUR_META）通过全基因组关联研究（GWAS）进行计算，具体详见补充图9（https://links.lww.com/CM9/C724）。

在不同群体间，PRS存在显著差异的疾病包括：2型糖尿病（T2D）、BMI、体重（BW）、高密度脂蛋白胆固醇（HDL-C）、甘油三酯（TG）、心肌梗死（IS）、不稳定型心绞痛（UAP）、慢性胰腺炎（ChP）、睡眠呼吸暂停综合征（SAS）、血尿素氮（BUN）、AST、GGT和葡萄糖（P < 0.05）。以Cluster 1作为参考，Cluster 2在BBJ_EUR_meta_T2D方面的风险系数最高（HR: 1.70；95%置信区间：1.20–2.20，P < 0.05），这与该群体中糖尿病的最高患病率相符。此外，Cluster 3在BBJ_EUR_meta_UAP方面的风险系数也最高（HR: 1.02；95%置信区间：0.70–1.34，P < 0.05），这与该群体中心血管疾病（CVD）的最高患病率一致。在各组之间没有差异的PRS指标包括心绞痛（Ang）、脑出血（IH）、稳定性心绞痛（SAP）和甲状腺功能亢进症（Hype）（P > 0.05）。

在北京市九华医院队列中对分类方法进行了外部验证，使用了相同的方法。最终分析共纳入了6209名参与者，结果与训练队列（昆山队列）的发现一致。聚类是基于与训练队列相同的13个临床指标进行的，形成了三个不同的群体：（1）Cluster 1：糖尿病低风险组（51.83%，3218/6209）；（2）Cluster 2：糖尿病高风险组（37.33%，2318/6209）；（3）Cluster 3：糖尿病中等风险组（10.84%，673/6209）[补充图10A，https://links.lww.com/CM9/C724]。三个群体的基线特征详见表2。

表2总结了北京市九华队列中三个代谢群体的基线特征：
- 组别 | 年龄（岁） | 性别（男/女） | BMI（kg/m2） | 腰围（cm） | 总胆固醇（mmol/L） | 丙氨酸转氨酶（U/L） | 血尿素氮（mol/L） | 尿酸（μmol/L） | 心率（次/分钟） | 收缩压（mmHg） | 高密度脂蛋白胆固醇（mmol/L） | 甘油三酯（mmol/L） | 空腹血糖（mmol/L） |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| Cluster 1 | 43.96 ± 13.94 | 2199（68.33%） | 22.01 ± 2.27 | 75.45 | 4.60 ± 1.18 | 75.29 | 75.29 | 77.30 | 114.85 | 1.50 | 4.95 |
| Cluster 2 | 48.25 ± 13.49 | 1731（74.68%） | 26.39 ± 2.77 | 89.48 | 4.86 ± 1.24 | 23.83 | 77.30 | 128.56 | 77.30 | 114.85 |
| Cluster 3 | 58.03 ± 10.23 | 467（69.39%） | 26.44 ± 2.27 | 89.97 | 4.75 ± 1.07 | 20.68 | 23.83 | 128.56 | 128.56 | 75.45 |

如补充图10所示（https://links.lww.com/CM9/C724），每个群体具有不同的特征。Cluster 2在血糖和脂质代谢控制方面表现最差，而Cluster 3的收缩压（SBP）最高且年龄最大。Cluster 1具有较好的临床指标，并且缺乏显著的代谢相关风险因素。根据Kruskal–Wallis检验（P < 0.05），所有聚类指标都存在明显差异且具有统计学意义（补充图11和12）。三个群体在糖尿病及其相关并发症（包括CVD、非酒精性脂肪肝（FLD）和中风）的3年风险方面存在显著差异（所有P值均小于0.05，详见补充图13）。Cluster 2的糖尿病和FLD发病率最高，3年累计发病率分别为15.83%（367/2318）和82.01%（1901/2318）。Cluster 3的糖尿病发病率处于中等水平，但中心血管疾病（CVD）和中风的风险最高，3年累计发病率分别为2.82%（19/673）、6.98%（47/673）和3.27%（22/673）。Cluster 1的糖尿病和并发症 risk 始终最低，3年累计发病率分别为1.12%（36/3218）、1.86%（60/3218）、25.98%（836/3218）和0.56%（18/3218）。

补充图14展示了糖尿病、CVD、FLD和中风的KM生存曲线。组间差异的对数秩检验P值见补充表6–9。

讨论：在本研究中，我们采用了基于并发症聚类和加权朴素贝叶斯分类的疾病亚型分类方法，分析了无糖尿病成人中的13个常见临床指标。该方法识别出三个不同的群体，有效分层了糖尿病及相关并发症（如CVD、FLD和中风）的发病风险。这些群体之间的差异具有统计学意义，并在验证队列中得到了重现。目前，探索常见疾病亚型的过程通常遵循以下步骤[31]：首先，根据广泛的文献回顾和专家临床知识，选择具有潜在预测价值和疾病相关性的特征集。其次，使用不同的聚类算法（如K-means聚类、层次聚类和基于密度的聚类）测试这些特征的各种组合，以确定最佳的特征集和聚类结果[32]。最后，通过比较群体间的结果指标差异来验证聚类的有效性及可解释性。然而，这种传统方法存在局限性，因为聚类标签的高度依赖性先验知识——即群体间结果指标的差异很大程度上取决于最初选择的特征，而这些特征的选择往往基于医生的经验和直觉，这引入了较高的不确定性。为了解决上述问题，我们开发了一种新的分析方法，即基于并发症聚类和加权朴素贝叶斯分类的疾病亚型分类方法。该方法的优势在于不需要预先知道每个特征如何影响结果指标的聚类。相反，我们首先根据结果指标进行聚类，然后根据形成的群体来确定不同特征的预测重要性。这与传统的疾病亚型聚类方法不同。聚类标签有助于识别共病变化的最佳描述性分组。利用这些标签的分布作为先验概率，结合临床指标作为输入，可以训练出一个加权朴素贝叶斯分类模型，尽可能准确地再现临床结果的最佳聚类划分。在我们的研究中，使用了四个并发症指标进行聚类，并用13个临床指标进行分类，将健康参与者分为三个亚组，有效分层了糖尿病及相关并发症的风险预测。

目前，利用机器学习（ML）方法探索无糖尿病人群中糖尿病及其并发症异质性的研究相对较少。一项研究[33]基于空腹血糖（FBG）、胰岛素水平、BMI、舒张压（SBP）、性别、2型糖尿病家族史、稳态模型评估的β细胞功能（HOMA2-β）和胰岛素抵抗（HOMA2-IR）等指标，通过k-prototypes聚类识别出六种风险表型。与低风险、高β细胞功能组相比，非常低风险和低β细胞功能组的危险较低，而高风险高血压组、高β细胞功能障碍组和高风险胰岛素抵抗组的2型糖尿病发病风险较高。另一项研究[6]在无糖尿病的高风险个体中识别出六种风险表型，并分析了心脏和肾脏并发症的差异，考虑了口服葡萄糖耐量测试数据、基于磁共振成像的体脂分布、肝脏脂肪含量和2型糖尿病的遗传风险。然而，这些研究中使用的大多数指标较为复杂，难以在常规临床环境中获得，这限制了它们的普遍性和在糖尿病预防中的应用。相比之下，Cho等人[34]使用年龄、性别、BMI、高血压和糖尿病家族史五个简单变量，通过机器学习方法将健康个体分为六个群体，并比较了这些群体中2型糖尿病的发病风险。Ito等人[35]对非糖尿病个体进行了层次聚类分析，使用了四个变量（BMI、糖化血红蛋白、HOMA2-β和HOMA2-IR），识别出四种风险表型。Cluster 1（“肥胖且胰岛素抵抗但代偿性胰岛素分泌充足”）和Cluster 2（“胰岛素分泌低且血糖异常”）在五年随访期间2型糖尿病的发病风险显著增加（风险比分别为14.7和53.1）。然而，该研究未评估群体间长期并发症风险的差异。

在我们的研究中，我们开发了一种创新的聚类方法，使用了几种常规可获得的临床变量来预测中国无糖尿病成人中糖尿病及其各种并发症的发病风险。据我们所知，这是首次在两个大规模无糖尿病人群中应用这种新聚类方法来有效分层糖尿病及其并发症的风险。本研究中的队列包含大量参与者，并使用13个常见的临床指标进行聚类。这些指标是基于文献中报告的风险因素选定的，并通过临床实践进行了优化，使其易于在常规临床环境中使用。此外，我们还比较了不同群体间的PRS差异，以探索遗传因素的影响，并使用中国参与者的外部队列验证了模型的普遍性。我们还开发了一种新的分析方法，即基于并发症聚类和加权朴素贝叶斯分类的疾病亚型分类方法。这种方法有效提高了聚类模型的有效性、稳定性和可靠性。据我们所知，这种方法之前尚未被用于开发糖尿病及其并发症的风险预测模型。在我们的研究中，它揭示了无糖尿病人群中先前未发现的异质性，这是我们工作的关键创新点。PRS是一个个体级别的评分，它汇总了基因组中风险等位基因的数量，每个等位基因的风险通过其估计的影响大小进行加权。它独立于传统的风险因素和临床风险评分，可以估计个体患糖尿病或相关疾病（如2型糖尿病和冠状动脉疾病）的可能性[14,36,37]。值得注意的是，PRS的预测价值已在基于人群的队列研究和电子健康记录（EHR）研究中得到验证[38–40]。在我们的研究中，以Cluster 1作为参考，Cluster 2在2型糖尿病相关遗传评分方面的风险系数最高：gene T2D2（HR: 3.10；95% CI: 1.95–4.25，P < 0.05）、BBJ_T2D（HR: 3.16；95% CI: 1.51–4.81，P < 0.05）和BBJ_EUR_meta_T2D（HR: 1.70；95% CI: 1.20–2.20，P < 0.05）。这些结果与Cluster 2中糖尿病最高患病率的观察结果一致。同样，以Cluster 1作为参考，Cluster 3在中心血管疾病（CVD）方面的遗传风险最高：BBJ_MI（HR:1.07；95% CI: 0.57–1.58，P < 0.05）和BBJ_EUR_meta_UAP（HR:1.02；95% CI: 0.70–1.34，P < 0.05），这与该群体中心血管疾病的最高患病率相符。然而，FLD和中风的遗传关联与临床观察结果并不完全一致。这种不一致性可能是由于被诊断为脂肪肝（FLD）和中风的参与者数量有限，这可能会降低统计效力。我们进一步观察到，在三种亚型中，与代谢相关的预测风险评分（PRS）存在群体间差异，包括那些与肾功能、肝功能、血压、血脂、2型糖尿病（T2D）和其他代谢疾病相关的差异。重要的是，疾病进展可能受到外部环境和其他非遗传因素的影响。此外，PRS在不同祖先人群中的普遍性仍然有限[41]，在评估PRS对不同人群亚组中糖尿病、心血管疾病（CVD）、脂肪肝和中风的预测价值时需要仔细考虑这一点[23]。我们的聚类结果使我们能够对无糖尿病的成年人进行糖尿病和并发症风险的分层，突显了疾病临床发作前存在的代谢异质性。这种分层为制定有针对性的干预措施提供了基础，以最大限度地利用医疗资源。例如，第3组的个体具有最老龄的特征、最高的收缩压（SBP）和最高的体重指数（BMI），尽管他们的糖尿病风险并非最高。鉴于年龄增长和高血压是心血管疾病[42,43]和中风的已知风险因素[44]，而升高的BMI和腰围也会导致高血压[45,46]，第3组的个体可能最适合接受针对血压控制和减肥的干预。相比之下，第2组的空腹血糖（FBG）和血脂水平最低，而脂肪肝和糖尿病的风险最高。因此，旨在改善葡萄糖和脂质代谢的强化生活方式干预措施，如饮食调整和增加体力活动，可能对这一组特别有益[47–49]。基于这些发现，通过首先将非糖尿病患者分为不同亚组，然后针对每个组的风险特征实施有针对性的策略，可以有效地预防糖尿病及其并发症。经过进一步验证，这种方法可以为糖尿病、脂肪肝、心血管疾病和中风的精准预防和治疗提供依据。本研究存在几个局限性。首先，只提取了有限的变量，关键的糖尿病风险因素如血清胰岛素和C肽水平未能获得。此外，由于数据限制，脂肪肝没有被分为酒精性和非酒精性类型。其次，研究对象是进行常规体检的个体，没有包括2小时口服葡萄糖耐量测试或糖化血红蛋白评估的数据。因此，仅依靠FBG可能会遗漏一些糖尿病患者，从而导致对糖尿病患病率的低估。相对较少的新发糖尿病病例也可能影响研究结果的可靠性，需要进一步验证。此外，由于基线特征的差异，不同数据集的聚类结果可能会有所不同，这引发了关于聚类模型一致性和普遍性的担忧。需要更大、更多样化的数据集来确保结果的稳健性。选择偏差也是一个问题，因为许多参与者因人口统计或临床数据不完整而被排除在外，而具有基线合并症（脂肪肝、心血管疾病和中风）的个体未被排除，这可能会影响数据的完整性和结果的准确性。在昆山队列中，有慢性疾病和无慢性疾病的参与者之间的随访间隔不同，可能会影响新发结果日期的准确性。最后，仅三年的随访期可能不足以评估所识别亚型的长期稳定性，这突显了需要在随访时间更长的队列中进行验证的必要性。总之，本研究基于13个常规测量的临床指标（包括年龄、脂肪度量、血糖和血脂谱、肝肾功能指标以及血压/心率模式），在无糖尿病的成年人中识别出三个代谢特征不同的亚组。第1组个体的代谢和血液动力学参数总体较好，患糖尿病、心血管疾病、脂肪肝和中风的风险最低。第2组的血糖和血脂调节较差，随后患糖尿病和脂肪肝的风险最高。第3组个体年龄较大，血压和脂肪度较高，并且心血管和脑血管事件的风险显著增加。这些亚组反映了糖尿病发作前的潜在病理生理异质性，为在一般人群中分层风险和指导有针对性的早期预防策略提供了实用框架。重要的是，由于这种类型分类是基于常规可获得的临床指标（如BMI、血压、血脂和肝酶）进行的，因此可以 easily 应用于初级保健和社区健康环境中，以支持个体化的风险评估、早期干预和糖尿病及其并发症的精准预防。

**资助**
本研究得到了首都卫生改善与研究基金（编号2022-1-4051）、国家重点研发计划（编号2022YFB3203700）、非传染性慢性病-国家重点科技重大项目（编号2024ZD0531900和2024ZD0531905）、国家自然科学基金（编号82170848、82370835和82200928）、国家高水平医院临床研究资助（编号BJ-2022-193、BJ-2023-104和BJ-2022-120）、北京市科学技术委员会（编号Z221100007422007）、北京市自然科学基金（编号7244403）以及北京协和医学院 Bethune 慈善基金、中国医学科学院医学科学创新基金（编号2021-I2M-1-001）的资助。

**利益冲突**
无。

热点排行