一种结合SHAP可解释性的机器学习方法，用于分类药物成瘾程度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Public Health》：A machine learning approach with SHAP interpretability for classifying drug craving levels

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Public Health 3.4

编辑推荐：

　　**摘要** **背景**：药物成瘾是一种慢性且反复发作的脑部疾病。药物渴求是预测复发的最强独立指标。然而，传统的线性模型往往无法捕捉到复杂的非线性成瘾模式。尽管机器学习（ML）表现出更好的性能，但其“黑箱”本质限制了其在临床上的可信度。 **目的**：本研究旨在基于机器

　　**摘要**
**背景**：药物成瘾是一种慢性且反复发作的脑部疾病。药物渴求是预测复发的最强独立指标。然而，传统的线性模型往往无法捕捉到复杂的非线性成瘾模式。尽管机器学习（ML）表现出更好的性能，但其“黑箱”本质限制了其在临床上的可信度。
**目的**：本研究旨在基于机器学习构建一个用于预测药物渴求分数的分类模型，并探讨多因素特征的影响。
**方法**：从中南省强制隔离药物康复中心招募了692名戒毒者。使用包含34项内容的药物渴求量表对他们的渴求程度进行了评估。经过预处理（填补缺失值、通过四分位数范围排除异常值）后，共有629个有效样本。本研究分析了18个人口统计和行为特征。样本被分为7:3的比例用于训练集和测试集。为了处理类别不平衡问题，采用了合成少数样本过度采样技术（SMOTE）。比较了包括逻辑回归（Logistic Regression）、XGBoost和LightGBM在内的七种算法。通过10折交叉验证和网格搜索选出了最优模型，并使用多维指标在独立测试集上对其进行了评估。同时引入了SHAP方法以提高模型的可解释性。
**结果**：逻辑回归模型被确定为最优模型。在独立测试集上，该模型的准确率为66.13%，微观平均AUC值为0.85，显示出识别高渴求群体的良好潜力（AUC值为0.84）。SHAP方法量化了各特征对模型的贡献：药物使用频率、使用时长和海洛因使用是核心因素。行为特征与高渴求程度呈正相关，而社会人口统计特征则表现出保护作用，且这种作用随着成瘾程度的增加而减弱。
**结论**：逻辑回归模型结合了预测性能和可解释性。通过应用SHAP方法，本研究直观地阐明了各特征对模型的具体贡献，提高了模型的透明度，为初步临床评估提供了支持，但仍需在独立且多样化的群体中进行严格验证。

**1. 引言**
药物滥用和成瘾作为一种全球性的慢性复发性脑部疾病，已成为严重威胁人类健康和社会安全的重大公共卫生问题（1）。根据联合国毒品和犯罪问题办公室（UNODC）发布的2024年世界毒品报告，全球约有2.92亿人使用过药物，较十年前增加了20%。其中，超过6400万人患有药物使用障碍（2）。虽然现有的干预措施（如强制隔离戒毒、社区康复和阿片类替代疗法）可以帮助成瘾者实现生理上的戒断，但由于神经适应性变化和环境线索的诱导，这些人重返社会后的复发率仍然很高（3）。先前的研究表明，患有物质使用障碍的人在戒断后第一年的复发率可高达60%，甚至有些人在戒断数十年后仍可能复发（4）。因此，准确识别高风险复发群体并实施有效的干预措施已成为成瘾医学领域中最具挑战性的问题。
在这一复杂的病理过程中，药物渴求被定义为对成瘾物质的强烈、无法控制的心理欲望和强迫性冲动。这种病理性心理状态已被《精神疾病诊断与统计手册》第五版（DSM-5）确定为核心诊断标准（5, 6）。Vafaie和Kober在《JAMA Psychiatry》上发表的一项大规模荟萃分析进一步证实，渴求强度是预测戒断后复发的最强独立指标，其预测有效性显著优于人口统计特征和基本的药物使用史（5）。先前的神经生物学研究表明，渴求的出现与中边缘系统多巴胺功能障碍密切相关（7）。长期接触药物会导致多巴胺D2受体下调、前额叶皮质功能抑制以及杏仁核-前额叶连接异常。这些神经适应性变化使个体对与药物相关的线索高度敏感，从而引发强烈的复发冲动（8）。Volkow等人（9）通过正电子发射断层扫描（PET）研究证实，长期药物使用会导致多巴胺D2受体可用性降低，削弱对自然奖励的反应性，并加剧对药物的病理性渴求（9）。
然而，尽管渴求在复发预测中起着关键作用，现有的评估和预测方法仍存在诸多局限。历史上，对渴求的临床评估主要依赖于视觉模拟量表（VAS）和各种自我报告问卷。这些传统方法不仅容易受到认知偏见、情绪状态和社会期望的影响，更重要的是，它们通常基于线性假设，无法充分捕捉到成瘾系统背后多维特征的潜在交互模式（10）。关于“渴求潜伏期”的最新研究表明，在戒断期间，渴求水平表现出复杂的动态变化，而非简单的线性下降（11）。此外，个体心理社会特征（如长期压力、社会隔离）与生物机制（如HPA轴激活、神经突触可塑性）之间存在复杂的耦合关系（12）。Heilig等人提出的成瘾作为脑部疾病的修正模型特别强调了社会因素的生物学嵌入作用，认为环境压力和神经脆弱性的“双重打击”是维持渴求的关键（13）。面对这种复杂的生物-心理-社会交互网络，传统的单变量分析或线性回归模型在预测准确性方面常常遇到瓶颈，因为它们无法处理高维异构数据，从而无法满足精准临床诊断和治疗的需求。
随着计算精神病学的兴起，以机器学习（ML）为代表的人工智能技术为解决这些挑战提供了新的机会。与传统统计方法不同，机器学习算法能够自动捕捉高维数据中的复杂模式，揭示出通过手动假设难以发现的预测规律（14, 15）。无论是通过神经影像数据识别病理特征，还是基于行为数据预测复发风险，机器学习在处理成瘾行为的高复杂性和异质性方面都展现了比传统模型更强的潜力（16）。然而，随着机器学习算法复杂性的增加，这些模型的“黑箱”本质变得越来越明显。虽然复杂模型能够产生高精度的预测结果，但临床医生往往无法理解其决策背后的理由。这种决策过程的不透明性在一定程度上限制了机器学习模型在临床实践中的可信度，阻碍了将其转化为临床干预的实际证据（17）。
为克服由复杂模型的黑箱本质引起的临床应用瓶颈，本研究引入了SHAP（Shapley Additive Explanations）事后解释框架（18）。该方法巧妙地将经典博弈论概念应用于机器学习，将预测模型视为一个复杂的博弈系统，输入特征视为参与博弈的参与者。通过计算不同特征组合下每个特征对预测结果的平均边际贡献，SHAP能够为每个样本的特征分配一个满足叠加性的Shapley值。与传统方法相比，SHAP不仅确保了特征重要性评估的一致性，还能有效识别变量之间的具体关联，从而为生物医学数据的深入分析提供了可靠的方法学支持（19）。

**2. 材料与方法**
2.1 **数据与参与者**
本研究获得了湖南省第二人民医院伦理委员会的批准（伦理批准编号：2022045），所有研究程序均严格遵循《赫尔辛基宣言》的伦理指南。数据收集时间为2023年3月至2023年7月。共从中南省强制隔离药物康复中心招募了692名药物使用者，采用问卷调查方法进行招募。参与者符合以下纳入标准：（1）符合《精神疾病诊断与统计手册》第五版（DSM-5）中定义的物质相关和成瘾障碍的诊断标准；（2）年龄≥18岁；（3）男性；（4）能够理解问卷内容并签署书面知情同意书。排除标准包括：（1）患有精神分裂症、双相情感障碍或重度抑郁症（根据DSM-5定义）；（2）拒绝参与问卷调查。所有数据均由经过统一培训的研究助手通过面对面访谈收集，每位参与者完成评估大约需要30-40分钟。
2.2 **研究变量**
2.2.1 **预测变量**
设计了一个自我开发的通用信息量表来收集22个人口相关因素（见补充表1），包括人口统计和药物相关特征。人口统计特征包括姓名首字母、性别、年龄、出生日期、教育水平、婚姻状况、家庭人均月收入和家庭氛围。药物相关特征包括入院日期、预期出院日期、使用的药物类型（如甲基苯丙胺、MDMA、安非他明、氯胺酮、海洛因）、主要的使用方式（如嗅吸/吸食、注射、口服）、用药年限、日均用量和使用频率。在构建模型之前，对选定的原始变量进行了预处理和特征工程处理：（1）由于“姓名首字母”对建模无关，因此将其删除；（2）由于“出生日期”与“年龄”重复，将其从模型中剔除，直接将“年龄”作为人口统计特征输入模型；（3）“拘留时间（天）”根据“入院日期”和“预期出院日期”计算得出，并作为一个新的连续特征包含在内；（4）特定药物类型（如甲基苯丙胺、MDMA、安非他明、氯胺酮、海洛因）被编码为二元特征，使用记为“1”，未使用记为“0”。
2.2.2 **结果变量**
我们使用自开发的药物渴求量表（详见补充表1）来评估渴求程度。该量表基于经典条件反射和操作性条件反射理论设计，包含34个项目，涵盖五个维度的药物渴求：（1）基于奖励的药物渴求；（2）反射性药物渴求；（3）社会性药物渴求；（4）负面药物渴求；（5）缓解导向的药物渴求。参与者根据自身实际情况对每个项目从1（强烈反对）到7（强烈同意）进行评分。总分是通过将34个项目得分相加得到的，理论范围为34-238分。本研究旨在建立一个具有潜在临床用途的探索性分类系统。在等待外部验证之前，当前的内部定义的阈值作为一个初步框架。由于缺乏将总分分类为“低”、“中”、“高”等级的普遍接受标准，我们参考了视觉模拟量表（VAS）（20）的分级方法，这是一种广泛认可的渴求评估工具。将连续的总分分为三个大致区间，以将渴求程度分为三个类别：（1）低渴求（总分0-102分）；（2）中等渴求（103-170分）；（3）高渴求（171-238分）。为了评估这种分类方法的可信度，进行了两项统计分析。首先计算了总量的Cronbach’s α系数，以评估各项目测量同一构念的内部一致性，从而测试量表的内部可靠性。其次，计算了Kappa系数，以比较本研究基于总分的分类结果与VAS评分的结果，从而验证本研究中阈值设置与VAS评分之间的逻辑一致性。

2.3 统计分析
2.3.1 数据预处理
在研究的初始阶段，收集了692个样本的原始数据并进行了预处理。首先，对缺失值进行了插补：连续变量使用均值填充，而分类变量使用众数填充。随后，应用了四分位距（IQR）规则来识别和处理可能由异常或极端偏移引起的异常值。具体来说，将落在 [Q1–1.5×IQR, Q3+1.5×IQR] 范围之外的样本定义为异常值并排除。这一过程最终得到了629个样本的数据集。处理后的数据通过简单随机抽样被划分为训练集（70%）和测试集（30%），分别用于模型开发和参数调整，以及评估模型的泛化能力。

2.3.2 模型构建与评估
总样本量（n=629）被随机划分为训练集（n=440）和测试集（n=189），比例为7:3。由于所有参与者均为男性，性别变量表现为零方差，因此被排除在外；模型是基于问卷和预处理得到的其余18个表型特征构建的。为了评估预测变量之间的多重共线性并防止其相互依赖性影响模型性能，在建模前使用statsmodels包中的variance_inflation_factor函数计算了这些特征的方差膨胀因子（VIF）。同时，为了确保类别间的平衡学习并增强对关键少数类别的识别——从而防止模型因分布不平衡而偏向多数类别——使用Python库imblearn对训练集应用了合成少数样本过采样技术（SMOTE）。该过程通过插值生成了合成少数样本以平衡类别分布，而测试集则保持其原始不平衡状态，以真实评估模型性能。随后，开发了七种采用不同算法策略的机器学习模型，包括逻辑回归、XGBoost、LightGBM、决策树、梯度提升、高斯朴素贝叶斯（GaussianNB）和K-最近邻（K-Nearest Neighbors）。为了评估和比较模型性能，使用了10折交叉验证，并根据优化后的指标（包括准确率、精确率、F1分数和AUC）选择了最优模型。进一步对最优模型进行了超参数调整的网格搜索。最后，使用一对多多类策略评估了测试集上的性能，整合了接收者操作特征曲线下面积（AUC）、F1分数、宏平均和微平均以及混淆矩阵等指标。

2.3.3 模型解释
机器学习的可解释性仍然是一个重要挑战。为了全面阐明每个特征变量对最终模型的具体影响和贡献，我们采用了SHAP方法来解释最优的黑盒模型（21）。利用博弈论的原则，SHAP值将每个特征视为“玩家”来估计其对预测结果的具体影响。这种方法使得模型的预测性能能够公平地分配到各个特征上，从而解释每个特征对单个数据点的贡献。具体来说，生成了五种类型的SHAP图以提供对特征效应的全面理解：（1）平均SHAP图（条形图），用于显示全局特征重要性；（2）SHAP蜂群图，用于说明样本间SHAP值的分布；（3）SHAP决策图，用于展示模型如何基于特征值做出预测决策；（4）SHAP依赖图，用于显示单个特征值变化对特定渴求类别内模型输出的局部影响趋势；（5）SHAP热图，用于可视化特征之间的整体分布模式及其对模型预测的影响。图1展示了本研究的完整工作流程。

图1 本研究的整体框架流程图。

3 结果
3.1 数据预处理结果
本研究最初包括692个样本；经过数据预处理后，剩余629个有效样本（详细信息见表1）。具体来说，训练集包含282例低渴求、135例中度渴求和23例高渴求病例，而测试集分别包含124例、60例和5例。在人口统计特征和药物相关临床特征方面，训练集和测试集之间没有观察到统计学上的显著差异（p>0.05）；然而，不同渴求类别之间的药物使用频率存在显著差异（p<0.001）。结果表明数据集内部存在显著的类别不平衡，这可能会在训练过程中使模型偏向多数类别。因此，在随后的模型构建和评估阶段实施了有针对性的措施来减轻这种影响。具体来说，在模型构建阶段，采用了SMOTE策略来解决类别不平衡问题。在评估阶段，使用宏平均AUC和F1分数来平衡模型在所有类别中的综合区分能力，并通过微平均AUC指标来评估整个样本级别的分类性能。此外，我们重点分析了每个类别的个别AUC值和混淆矩阵（特别是高渴求组），以具体评估模型对关键少数类别的识别效果。这种全面的评估策略确保了对模型在不平衡数据上的表现进行整体和无偏的评估。

表1
类别训练集（n=440）测试集（n=189）
0 282 124
1 135 60
2 23 5
年龄 [中位数（IQR）] 42.00 [36.00, 48.00] 41.00 [37.00, 48.00]
4 44.00 [38.00, 48.50] 43.00 [35.00, 49.00]
教育 (%) 115 (5.3) 5 (3.7) 0 (0.0)
0 48 (6.5) 6 (10.0) 0.576
2 43 (15.2) 21 (15.6) 3 (13.0)
16 12.9 11 (18.3) 0 (0.0)
3 148 (52.5) 86 (63.7) 10 (43.5)
6 55 (52.4) 28 (46.7)
4 459 (20.9) 20 (14.8) 9 (39.1)
9 29 (23.4) 11 (18.3) 1 (20.0)
5 13 (4.6) 1 (0.7) 1 (4.3)
5 5 (4.0) 1 (1.7) 0 (0.0)
6 4 (1.4) 2 (1.5) 0 (0.0)
3 3 (5.0) 0 (0.0)
婚姻 (%) 190 (31.9) 43 (31.9) 8 (34.8)
0 918 36 (29.0) 19 (31.7)
0 0.28 210 (3.5) 8 (5.9)
1 1 (4.3) 6 (4.8) 7 (11.7)
0 0.0 310 4 (36.9)
5 1 (37.8) 7 (30.4) 40 (32.3)
2 20 (33.3) 3 (60.0) 478 (27.7)
3 3 (24.4) 7 (30.4) 42 (33.9)
14 2 (40.0) 14 (23.3)
2 (40.0) 10 (16.7) 0 (0.0)
4 55 (19.5) 22 (16.3)
3 1 (15.3) 6 (10.0) 2 (40.0)
5 31 (11.0) 9 (6.7) 2 (8.7)
1 14 (11.3) 5 (8.3) 0 (0.0)
6 26 (9.2) 11 (8.1) 0 (0.0)
12 (9.7) 3 (5.0) 0 (0.0)
7 92 (32.6) 51 (37.8) 11 (47.8)
4 33 (34.7) 27 (45.0)
3 (60.0) 813 (4.6) 5 (3.7)
0 6 (4.8) 3 (5.0)
收入 [中位数（IQR）] 3000.00 [2000.00, 5000.00] 4000.00 [2000.00, 6000.00]
3000.00 [2000.00, 5000.00] 3000.00 [2000.00, 6000.00]
5000.00 [4000.00, 5000.00] 0.497
家庭 (%) 1166 (58.9) 74 (54.8) 11 (47.8)
0 674 (59.7) 28 (46.7) 3 (60.0)
0 121 (35.8) 50 (37.0) 9 (39.1)
37 (29.8) 26 (43.3) 2 (40.0)
3 15 (5.3) 10 (7.4) 3 (13.0)
13 (10.5) 6 (10.0) 0 (0.0)
4 0 (0.7) 0 (0.0)
持续时间 [中位数（IQR）] 10.00 [5.00, 15.00] 10.00 [6.00, 15.00]
15.00 [8.00, 20.00] 10.00 [8.00, 20.00]
0.03 10.00 [5.00, 15.50]
10.00 [8.00, 20.00] 20.00 [15.00, 20.00]
0.00 8 0.49 (0.44)
服药时间 [中位数（IQR）] 613.50 [523.25, 644.00] 614.00 [545.50, 643.00]
613.00 [576.50, 670.00] 0.568
612.50 [544.75, 632.25] 613.00 [516.00, 636.00]
73 730.00 [730.00, 972.00]
0.01 146 (34.0)
27 20.0 11 (18.3)
0 0.0 12 (9.7)
3 (5.0) 0 (0.0)
7 92 (32.6) 51 (37.8) 43 (34.7)
27 45 (30.4) 3 (60.0)
8 13 (46.9) 7 (30.4)
4 2 (40.0) 14 (23.3)
2 (40.0) 2 (40.0)
甲基苯丙胺 [均值（标准差）] 0.51 (0.50) 0.53 (0.50)
0.57 0.86 10.48 (0.50)
0.45 0.45 0.20 (0.45)
MDMA [均值（标准差） 0.28 (0.45) 0.28 (0.45)
0.43 0.27 0.24 (0.43)
0.27 0.24 (0.43)
0.00 0.00 (0.00)
安非他明 [均值（标准差） 0.02 (0.13) 0.03 (0.17)
0.09 0.02 (0.13) 0.00 (0.00)
0.96
氯胺酮 [均值（标准差） 0.03 (0.17) 0.03 (0.17)
0.13 0.03 (0.34) 0.033
0.03 0.03 (0.18) 0.03 (0.18)
0.00 0.00 (0.00)
海洛因 [均值（标准差） 0.45 (0.50) 0.47 (0.50)
0.52 0.53 (0.50) 0.81
3 0.48 (0.50) 0.53 (0.50)
0.80 0.31 0.48
鼻吸 [均值（标准差） 0.76 (0.43) 0.73 (0.44)
0.61 0.57 (0.50) 0.40 (0.55)
0.01 0.01 0.22 (0.41)
注射 [均值（标准差） 0.22 (0.41) 0.23 (0.42)
0.39 0.50 0.17
3 0.43 (0.43) 0.37 (0.49)
0.60 0.067
口服 [均值（标准差） 0.07 (0.25) 0.03 (0.17)
0.13 0.13 (0.34) 0.00 (0.00)
0.31 0.07 (0.26) 0.13 (0.34)
0.00 0.00 (0.00)
3 0.31
训练集和测试集中介质使用者的分布特征。

3.2 模型构建结果
特征多重共线性分析的结果表明，本研究中包含的18个预测变量之间没有显著的多重共线性。如表2所示，这些变量的方差膨胀因子（VIF）范围在1.01到2.82之间，均远低于经验阈值（VIF<5）。这表明这些特征具有较好的独立性，没有严重的信息冗余，适合用于后续的分类模型构建。

表2
变量 VIF
频率 2.281
年龄 1.554
数量 1.088
海洛因 2.820
持续时间 2.701
收入 1.086
氯胺酮 1.316
甲基苯丙胺 2.055
鼻吸 2.140
服药时间 1.012
家庭状况 1.157
教育 1.181
职业 1.147
口服摄入 1.104
注射 2.599
安非他明 1.350
MDMA 1.188
婚姻状况 1.143
此外，本研究还开发了七种机器学习模型，并进行了10折交叉验证，以全面评估每种模型在多个维度上的鲁棒性，包括准确率、精确率、召回率和AUC。10折交叉验证期间每个模型的性能总结在表3中。为了提供模型的完整评估细节，补充表2提供了每个折叠的具体性能指标。结果显示，逻辑回归、梯度提升和极端梯度提升（XGBoost）等模型表现出优秀的整体性能，在关键指标上的差异最小。具体来说，逻辑回归的AUC达到了0.9079，在所有模型中排名最高，同时在其他关键指标上也与最强算法表现相当。考虑到其结构简单、计算成本低和临床可解释性优越——这些特性更有利于探索成瘾机制并促进临床应用——逻辑回归最终被确定为本研究中的最优预测模型。

表3然而，结合混淆矩阵（图3）的分析表明，尽管该模型成功识别出了测试集中仅有的5个高渴望样本中的3个，显示出令人鼓舞的初步敏感性，但由于这一类别的样本规模极小，其分类边界的绝对稳健性仍需通过更大的样本集进行进一步验证。表5显示了不同机器学习模型在测试集上的性能评估结果。

3.5 SHAP分析结果

我们使用SHAP方法来确定逻辑回归模型的关键影响因素，并根据它们的SHAP值贡献大小对特征进行排序。如图4所示，结果发现使用频率（药物使用的次数）、使用时长（使用药物的年数）和药物类型5（海洛因）与药物渴望水平的预测之间存在高度相关性。

3.6 SHAP决策图

SHAP决策图直观地展示了每个特征对模型预测结果的贡献大小和方向。如图6所示，垂直轴代表不同特征变量，按重要性降序排列；水平轴表示模型输出值，中间的灰线表示模型的基线预测值。图中的彩色线条代表不同样本的预测路径：每条线从基线值开始，从下到上累积特定特征的SHAP值，最终达到顶部的最终预测分数。线条的颜色反映了预测强度，红色表示更高的输出值（更有可能被预测为目标类别），蓝色表示较低的输出值（较低的分类概率）。以“使用频率”为例，这一特征对预测结果有显著影响，其SHAP值分布显示出正相关：使用频率越高，被分类为中等或高渴望的可能性越大。此外，对于重要性较高的特征（如“教育水平”），SHAP值分布在正负区间内。这表明其影响既不是简单的风险因素，也不是保护因素；相反，其贡献随着特征值本身的变化而变化，在较低教育水平时是风险因素，在较高教育水平时是保护因素。这些发现不仅验证了社会人口统计特征的相关性，还通过SHAP值量化了它们在模型中的具体贡献权重。

为了进一步阐明特定特征在不同渴望状态下的差异性影响，我们使用了SHAP依赖图进行深入分析。如图7所示（展示了代表性特征：使用频率、使用时长和教育水平），低渴望组和高渴望组之间存在不同的贡献模式（图7A-C分别对应低渴望组、中等渴望组和高渴望组）。值得注意的是，药物使用行为特征，特别是使用频率和使用时长，表现出明显的正相关性。在高渴望组中，随着特征值的增加，SHAP值显著上升，表明高频率和长期使用是加剧渴望的关键驱动因素。相反，在低渴望组中，这些特征的SHAP值随着值的增加而急剧下降，表明随着使用频率和使用时长的增加，保持低渴望状态的概率相应降低。此外，社会人口统计特征（如教育水平）主要表现为不同程度的保护因素。对于低渴望组，较高的社会经济地位与较高的正SHAP值相关，起到稳定作用。然而，在高渴望组中，尽管这些特征仍具有负面影响（倾向于降低渴望评分），但其绝对SHAP值明显减弱。这表明在成瘾的晚期阶段，社会因素的保护作用可能会被药物使用行为的强度所掩盖。

逻辑回归模型的SHAP热图通过颜色的直观变化和位置展示了不同特征对模型预测的影响。如图8所示，X轴代表样本序列，X轴上方的f(x)表示每个样本的SHAP值总和，代表偏离平均值的程度。Y轴左侧列出了特征名称，右侧的条形图显示了特征维度上的SHAP值总和。颜色块的颜色强度表示SHAP值的大小：红色表示高的SHAP值，有助于增加分类概率；蓝色表示低的SHAP值，抑制分类概率。从样本维度来看，X轴顶部的f(x)曲线直观地展示了样本的整体预测变化。以低渴望组的“使用频率”为例，颜色块非常红，表明这些样本受到药物使用频率的显著正面影响；此外，样本SHAP值的总和高于平均水平，表明它们具有较高的预测信心。从特征维度来看，条形图进一步证实了使用频率、使用时长和海洛因使用与药物渴望水平预测之间的高度相关性。

4. 讨论

通过将机器学习与SHAP可解释性框架相结合，本研究系统地构建了一个药物渴望的分类预测模型，以评估药物使用者戒毒后的复发可能性，定量分析了药物渴望的多维影响因素，并阐明了每个特征对预测结果的具体贡献权重。结果显示，在七种算法中，逻辑回归模型表现最佳（测试集准确率：0.66；F1分数：0.54）。特别是在低渴望类别中，它表现出最高的特异性（AUC=0.66），其区分指标（Macro-AUC：0.71；Micro-AUC：0.85）显著优于其他比较算法。这表明，在本研究中，逻辑回归在拟合能力和泛化稳定性之间取得了最佳平衡。SHAP分析进一步揭示了使用频率、使用时长和海洛因使用是渴望水平的核心预测因子。药物渴望受到多种因素的共同影响；我们的发现表明，药物使用行为特征（如频率、时长、类型）和社会人口统计特征对模型预测有显著但不同的贡献。这一发现解决了传统分析仅关注系数显著性的局限性；通过SHAP值可视化特征贡献，它为理解与渴望相关的因素提供了直观的定量视角。

逻辑回归在本研究中构建的七种机器学习模型中表现出最佳的综合性能，测试集准确率为66.13%。尽管这一数字在绝对值上还有改进空间，但必须在研究背景下客观评估：首先，药物渴望作为一种复杂的心理构造，具有动态性质，仅依靠表型特征难以完全捕捉；其次，数据集中的显著类别不平衡（高渴望组仅有28个案例）限制了整体区分能力的进一步提升；第三，三类预测任务本身比二元分类更为复杂。尽管如此，逻辑回归在关键维度上显示出了明显的优势：它在识别高复发风险的高渴望个体方面表现出令人鼓舞的敏感性（AUC=0.84）。然而，由于测试集中高渴望样本的数量非常少，该模型在这一少数类别上的性能稳健性仍需在更大的数据集上进行确认。其综合性能在七种算法的横截面比较中最为稳健。更重要的是，本研究的核心目标不仅仅是追求预测精度，而是构建一个平衡预测效能与可解释性的分类框架。本研究的核心创新在于方法论的整合——将机器学习预测与SHAP可解释性分析相结合，提供特征贡献的直观可视化。在这个框架中，逻辑回归模型因其卓越的可解释性而成为理想的工具。通过SHAP分析，我们成功地将模型的预测结果转化为对关键驱动因素（如药物使用频率、时长）的定量解释，清楚地展示了这些因素在决策过程中变化对其预测概率的边际贡献和正面或负面影响。从“预测”到“解释”的这种深化将模型从一个黑盒子变成了一个透明工具，经过进一步验证后，可以为临床医生提供明确的干预目标和决策支持，这对药物康复实践具有更大的实际意义。

此外，本研究的结果与成瘾神经生物学的经典理论框架高度一致，并通过SHAP分析提供了与这些理论视角一致的关键定量支持。SHAP值明确指出了药物使用频率和使用时长是最核心的预测因子，这与长期药物暴露引起的神经适应性变化的假设相符，例如多巴胺D2受体的下调、前额叶皮质功能的抑制以及伏隔核中谷氨酸信号传导的失调（22, 23）。SHAP分析赋予使用时长和频率的高权重可能反映了累积暴露对成瘾严重性的渐进影响，定量捕捉了渴望严重性随累积暴露逐渐增加的趋势。值得注意的是，本研究克服了以往研究的局限性；虽然Everitt等人基于动物实验提出了“习惯到强迫”的转变理论（24），但这些基于操作条件作用的范式难以量化人类特定的多维社会行为因素的动态贡献。相比之下，本研究通过机器学习成功量化了药物类型和时长等特征的具体贡献。我们的计算框架因此在这项神经基础上构建了一座桥梁，有助于理解复杂的成瘾行为。此外，先前的研究表明，低频率使用者保留了部分前额叶皮层的调节能力（如执行控制和冲动抑制），使得他们的渴望水平更容易受到环境线索的调节（25）。这种机制为我们在SHAP决策图中观察到的现象提供了理论解释，其中社会因素有助于调整分类概率。据此，本研究进一步将药物使用行为和社会人口统计特征概念化为稳定的风险驱动因素和依赖上下文的调节因素。

在临床应用方面，本研究通过提出一个框架将模型预测因子转化为分层干预策略，展示了潜在的应用价值。即使在社会类别不平衡的情况下，逻辑回归模型仍保持了66.13%的准确率；这种稳健性突显了其作为初步筛查工具的潜力，尽管其广泛的临床适用性需要在更多样化、多中心的人群中进行进一步的外部验证。具体而言，鉴于“频率”在该模型中无可争议的核心地位，我们建议将高频药物使用作为风险分层的关键指标，为干预策略提供焦点：具有高频和长期药物使用行为的个体可能需要结合药物辅助治疗（如美沙酮）和认知行为疗法，从而实现对奖赏通路的双重调节（26）。其次，社会特征的显著贡献表明了干预途径的复杂性。职业稳定性和教育水平对渴求加剧的抑制作用与Moos（27）提出的观点一致，即这些因素可能通过增强社会资源来缓冲渴求加剧的风险。最具创新性的是，SHAP决策图打破了传统单维度评估的局限性，直观地展示了具有高教育水平但高药物使用频率等复杂个体的风险特征。对于这种矛盾的特征组合，该模型能够量化各种因素的抵消或累积效应，从而指导临床医生制定包括职业压力管理和神经认知训练在内的个性化计划（28），而不仅仅是应用一刀切的干预模板。这为构建一个“生物-心理-社会”综合戒毒框架提供了坚实的实证支持。

方法论上，本研究通过将多种机器学习算法与SHAP框架相结合，系统分析了影响药物渴求的因素。“算法优化与可解释性增强”的“双轨”方法不仅提高了模型的预测性能，还加深了对成瘾机制的理解。与传统的线性模型相比，机器学习不仅捕捉到了药物使用频率的差异效应，还量化了社会因素和生物行为特征对模型输出的联合贡献。此外，为了解决临床数据中常见的类别不平衡问题，我们在训练阶段采用了SMOTE过采样技术；这有效地提高了少数类别（高渴求组）的敏感性和识别鲁棒性，同时保持了测试集的真实分布，从而克服了单纯重新采样或仅依赖指标校正的局限性。这一突破与医学领域“可解释AI（XAI）”的发展趋势高度吻合（29）；正如Hassabis等人（30）所指出的，SHAP技术通过提高模型透明度，可以有效增强临床医生对复杂算法的信任和应用。另外，采用10折交叉验证策略并结合网格搜索显著优化了模型超参数，解决了传统研究中由于参数选择偏差导致的泛化能力不足的问题（14），从而使测试集的准确率提升到了66.1%。此外，SHAP全局分析重点关注了药物使用频率、持续时间、药物类型和各种社会因素对渴求的具体贡献，弥补了以往研究侧重于生物学机制的不足（12）。

然而，本研究也存在一定的局限性。首先，关于样本代表性，所有参与者均为来自湖南省的男性戒毒者；这种对女性的排除忽略了对渴求模式可能产生的激素周期影响——例如，雌激素已知可以通过调节前额叶-边缘系统连接来增强冲动控制（31）。此外，联合国毒品和犯罪问题办公室（UNODC）的最新世界毒品报告明确指出了全球药物滥用模式的显著地区差异（2）；因此，这种性别同质性和地区限制可能会给结论带来偏差，并限制模型的泛化能力。其次，尽管在模型构建过程中应用SMOTE技术有效减轻了由于类别不平衡引起的学习偏差，但由于数据分布的固有特性，仍存在两个局限性：一是高渴求类别的原始样本量较少（n=28），限制了模型在极端特征组合下的泛化能力，并可能掩盖某些微妙的相互作用；二是在数据划分阶段使用简单随机抽样而非分层抽样，虽然不会削弱模型的核心效果，但仍可能使测试集分布产生轻微的不稳定性。另外，当前的分类标准本质上仍是探索性的，需要外部验证。尽管它们与VAS逻辑一致且具有较高的内部一致性，但尚未针对参与者的后续复发行为或临床诊断进行外部校准，这突显了对外部验证这一内部定义的阈值系统的需求。最后，当前模型仅依赖于静态问卷数据，未能整合三个关键的生物信息类别：纵向神经影像数据（如fMRI），这些数据可以揭示前扣带回皮层（ACC）活动与渴求强度之间的动态关联（32）；表观遗传标记（如DNA甲基化），这些标记可以反映长期药物暴露的生物学累积效应（33）；以及结合fMRI和行为指标的多模态数据，这些数据可以显著增强渴求预测的神经生物学解释力（34）。这些数据维度的缺失使得模型难以完全捕捉成瘾行为背后的多尺度生物学相互作用。

针对上述局限性，未来的工作可以朝以下方向展开：首先，在样本代表性方面，未来的研究应纳入性别分层分析，并与其他省份和城市的药物康复机构合作进行多中心验证，从而提高模型的泛化能力。其次，为了解决类别不平衡问题，未来的研究应优先从高渴求组中招募真实的临床样本，从根本上解决分布差异；此外，在数据划分过程中应优先采用分层抽样策略，以确保训练集和测试集之间的一致分布比例，从而提高评估的鲁棒性。同时，应探索算法层面的优化策略，如成本敏感学习（Cost-Sensitive Learning），以减少合成样本引入的潜在噪声（35）。第三，为弥补当前生物学解释方面的不足，可以整合多模态数据（如fMRI、表观遗传标记）来增强模型的神经生物学解释力。最后，可以开发基于可穿戴设备的实时监测工具（如心率变异性、皮肤电反应（36）结合生态瞬时评估（EMA）来追踪渴求的时间波动模式（37），为基于社区的康复提供早期预警和精准干预支持。

5 结论

本研究成功构建并验证了一个基于机器学习的药物渴求分类预测模型。逻辑回归模型在处理类别不平衡数据时表现出最佳预测性能和可解释性，被确定为最佳模型。通过SHAP可解释性分析，我们首次系统地量化了“频率”、“持续时间”和“海洛因”等核心特征的重要性排序及其对不同渴求类别风险概率的具体贡献。该模型不仅作为筛查高复发风险个体的初步定量工具，更重要的是，它为理解药物渴求的复杂影响因素提供了定量视角。经过在独立和多样化人群中的严格外部验证，它可能为未来制定个性化的精准干预策略提供重要的科学依据和数据支持。

联系信箱：

粤ICP备09063491号

热点排行