《Discover Health Systems》:Leveraging gradient boosting machine learning models to predict customer churn in digital health platforms
编辑推荐:
客户流失是数字医疗保健领域维持收入与服务连续性的一项关键挑战。准确的流失预测能够使医疗保健组织实施主动式留存策略、降低成本并提升患者参与度。本研究基于某数字健康平台的真实世界行为数据、人口统计学数据与交易数据,比比较了三种先进梯度提升算法——XGBoost、L
客户流失是数字医疗保健领域维持收入与服务连续性的一项关键挑战。准确的流失预测能够使医疗保健组织实施主动式留存策略、降低成本并提升患者参与度。本研究基于某数字健康平台的真实世界行为数据、人口统计学数据与交易数据,比比较了三种先进梯度提升算法——XGBoost、LightGBM 与 CatBoost——的预测性能。数据预处理包括缺失值处理、类别编码以及类别不平衡调整,随后采用 Optuna 框架进行超参数优化。结果显示,XGBoost 的表现略优于另外两种模型,而优化过程显著提升了全部算法的整体性能与稳定性。特征重要性与 SHAP(SHapley Additive exPlanations)分析表明,平均会话时长、参与频率以及交易行为是预测流失的关键变量。研究结果证实,集成式梯度提升技术可为降低流失率并提升数字医疗保健系统中的用户留存提供稳健、可解释且具有实践价值的预测工具。本研究通过支持促进用户留存并提供高质量照护的数据驱动决策,为可持续健康服务管理作出了贡献。
该文发表于《Discover Health Systems》,围绕数字健康平台中的客户流失预测问题展开,核心目标是在数字医疗保健场景中构建兼具预测性能与解释能力的机器学习模型。研究背景在于,客户留存直接关系到企业竞争力、收入稳定性与服务连续性,而在数字健康领域,用户流失不仅意味着商业损失,还可能中断照护连续性,影响患者管理效果。论文指出,相较于传统行业,数字健康平台同时承载健康需求、信任关系、敏感数据治理与行为依赖等多重特征,因此客户流失并非单纯的消费终止,而是用户在留存与忠诚阶段中感知价值、满意度或信任下降后的结果。现有研究虽然已将机器学习用于流失预测,但在数字健康领域仍存在两方面突出不足:其一,缺乏对 XGBoost、LightGBM 与 CatBoost 等梯度提升模型的系统比较;其二,缺乏将可解释人工智能(XAI,解释人工智能)与客户生命周期理论结合起来的分析框架,导致模型虽可预测,却较难支撑管理与临床决策。因此,开展本研究具有明显必要性,即通过高性能、可解释的集成学习方法识别高风险流失用户,并将关键驱动因素映射到客户生命周期各阶段,以支持精准干预、提升用户参与和照护连续性。
研究人员围绕某数字健康组织的真实平台数据开展分析。该组织通过移动应用与网站提供在线医师预约、虚拟医疗咨询、居家 COVID-19 检测等服务。研究采用结构化客户数据,整合人口统计学、行为、财务与健康相关信息,重点比较 XGBoost、LightGBM 与 CatBoost 三种梯度提升算法在客户流失预测任务中的表现,并进一步通过特征重要性和 SHAP 分析解释模型输出。研究结论显示,三种模型在默认参数与超参数优化后均能实现较强的预测性能,其中 XGBoost 整体表现最佳;Optuna 驱动的超参数调优显著提升了三类模型的准确率、稳定性以及对流失类别的识别能力;平均会话时长、登录频率、活跃天数、设备类型、处方状态、总支付金额等变量是重要预测因子。研究还表明,客户流失在数字健康平台上表现为行为参与、交易依赖和关系稳定性逐步减弱的过程,这一发现与客户生命周期框架高度一致。论文的重要意义在于:一方面,证明了梯度提升模型在数字健康流失预测中的方法学有效性;另一方面,通过引入 SHAP 与生命周期解释框架,将算法结果转化为具备管理可操作性的洞见,为数字健康服务机构构建主动留存机制、提升患者忠诚度与照护质量提供了实证支持。
在方法上,研究使用来源于单一数字健康组织内部信息系统的二手数据,采集时间为 2024 年 4 月至 2025 年 4 月,共纳入 3500 条客户记录,剔除目标标签缺失后保留 3343 条观测。目标变量为二分类客户流失,定义为用户在最后一次活动后连续 3 个月停止全部服务使用与交互。数据预处理包括数值变量中位数填补、类别变量众数填补、One-Hot 编码及类别不平衡处理;模型训练采用分层 5 折交叉验证;超参数优化采用 Optuna 框架中的 TPE(Tree-structured Parzen Estimator)策略;模型评估指标包括 Accuracy、Precision、Recall、F1-Score 与 ROC-AUC;模型解释采用特征重要性分析与 SHAP 分析。
以下结合论文结果部分各小标题,对研究发现进行系统解读。
4.1 Model performance with default parameter settings
在默认参数设定下,三种梯度提升模型均表现出可接受的分类能力,但仍存在明显差异。XGBoost 的整体 Accuracy 达到 82.5%,在非流失类与流失类上的 Precision 分别为 83% 和 82%,Recall 分别为 84% 和 80%,显示出较为均衡的识别能力,同时对非流失用户的识别略强。LightGBM 的整体 Accuracy 为 81.7%,虽对非流失类 Recall 达到 85%,但对流失类 Recall 仅为 78%,提示其更偏向识别多数类,对高风险流失用户的捕捉能力相对较弱。CatBoost 的 Accuracy 为 82.3%,Precision 和平均 Recall 均保持在 82% 左右,总体平衡性较好,但对真实流失案例的识别仍略弱于 XGBoost。混淆矩阵进一步表明,三种模型共同存在假阴性(False Negative)高于假阳性(False Positive)的问题,即遗漏部分真实流失用户,其中 XGBoost 的错误结构最优,更有利于管理实践中对流失风险的提前识别。总体而言,默认参数下 XGBoost 表现最佳,CatBoost 次之,LightGBM 略弱。
4.2 Model performance with hyperparameter optimization
在采用 Optuna 进行超参数优化后,三种模型的性能均获得提升。优化后的 XGBoost 在 K 折交叉验证中的 Accuracy 提升至 84.1%,标准差为 1.2%,显示出良好的稳定性;其流失类 Precision 为 82%,Recall 为 85%,F1-Score 为 83%,表明该模型在兼顾整体准确性的同时,更有效地识别了真实流失用户。优化后的 LightGBM Accuracy 达到 83.8%,AUC 为 0.92,略高于 XGBoost 的 0.91,但其标准差为 1.3%,稳定性稍逊。CatBoost 的 Accuracy 也提升至约 83.8%,但标准差为 2%,跨折波动更大,说明性能一致性略低。研究人员据此认为,XGBoost 在默认参数和优化参数两种情形下均为综合表现最优模型。值得注意的是,超参数调优不仅提升了 Accuracy,也同步改善了 Recall 与类别间平衡性,特别是流失类 Recall 在 XGBoost、LightGBM 和 CatBoost 中分别提高至 85%、84% 和 84%。论文还指出,CatBoost 调优后收益相对较小,这与其内置 Ordered Boosting、类别特征处理与正则化机制可能已提供较强默认基线有关,但作者同时强调,这一解释仍需谨慎,不能脱离具体数据集特征与搜索空间单独断定。
4.3 Interpreting key predictors of customer churn
在特征重要性分析中,不同模型对关键特征的排序有所差异,但总体结论较为一致。XGBoost 中,Device Type 是最重要特征,提示 PC 与 Mobile 终端的接入方式对用户交互模式和流失倾向具有显著影响。其后为 Prescription 以及若干行为特征,如 Average Session Duration、Update Frequency、Logins per Month 等。LightGBM 中,Average Session Duration、Active Days per Month 和 Logins per Month 位居前列,总支付金额(Total Amount Paid)亦具有较高影响力。CatBoost 中,Average Session Duration 是最关键变量,表明在平台内停留更久的用户更不易流失。研究进一步将这些特征纳入客户生命周期框架解释:平均会话时长下降意味着留存阶段中的参与减弱,反映用户感知价值、信任或满意度下降;登录频次、更新频率等行为指标共同构成参与稳定性的多维表征;处方状态、支付金额、续订等则体现退出成本(switching costs)和关系依赖性。由此可见,数字健康平台中的客户流失并非突发事件,而是行为、交易与关系维度逐步弱化的结果。
4.4 Understanding customer behavior through SHAP explanations
SHAP 分析进一步揭示了特征影响方向及个体层面的解释信息。在 XGBoost 的 SHAP 图中,Update Frequency 的 SHAP 值分布最广,说明其对模型输出影响最强;Average Session Duration、Logins per Month 与 Active Days per Month 同样具有显著影响。分析显示,Average Session Duration、Logins per Month、Active Days per Month、App Retention Time、Device Type 中的 Mobile 类别、Number of Diagnoses 以及 Follow-Up Appointments 整体上与较低流失概率相关,即这些变量升高时,流失风险下降。相比之下,Update Frequency 呈现出相对反常的模式:更高的更新频率对应更高的流失概率。作者对这一现象保持谨慎,强调 SHAP 反映的是特征贡献而非因果关系,不能直接据此认定频繁更新导致流失;其可能与系统改版频繁、稳定性波动或用户体验受损相关,但论文并未将其作为确定性因果结论,而是建议未来通过时间序列对齐与交互分析进一步验证。不同模型的 SHAP 输出总体相近,但 CatBoost 对 Average Session Duration 的依赖更突出。
4.5 Linking features to customer lifecycle stages
为了提升研究结果的理论可解释性与实践可转化性,论文将核心预测特征映射至客户生命周期(Customer Lifecycle)不同阶段。结果显示,Average Session Duration、Logins Per Month、Active Days Per Month 与 App Retention Time 主要对应留存阶段,因为它们表征持续使用强度与关系维系水平,若这些指标下降,则可视为早期流失预警。Update Frequency 与 Follow-Up Appointments 更接近考虑阶段或过渡阶段,因为它们反映用户对平台价值与功能有效性的再评估。Total Amount Paid 与 Subscription Duration 则主要对应获取与忠诚阶段,体现投入水平及关系延续性。论文指出,这种映射并非严格分类,而是理论引导下的结构化解释框架。其意义在于,组织可据此设计分阶段干预策略,例如对留存阶段参与下降的用户发送个性化提醒、行为助推(behavioral nudges)或推荐内容,对早期阶段用户优化引导流程与使用体验,从而降低早期流失风险。
4.6 Managerial implication
在管理启示方面,研究首先表明,以 XGBoost 为代表的梯度提升模型可作为数字健康平台构建早期预警系统的重要技术基础,用于识别高流失风险客户并提前采取留存措施。其次,平均会话时长、月登录次数、月活跃天数等行为指标是留存的核心信号,管理者应将注意力从单纯人口学特征或交易指标转向用户交互质量与使用模式。再次,论文强调用户体验的重要性。更新频率与流失之间出现的反向关系提示,若频繁更新伴随错误、性能问题或体验中断,反而可能削弱忠诚度,因此产品团队应优先保障界面稳定性、易用性与可靠性,而非单纯追求高频迭代。研究还指出,超参数优化具有现实管理价值,组织若具备数据分析与模型优化能力,将更有可能准确预测流失并主动实施个性化营销与服务干预。总体而言,论文主张将数据驱动模型、行为参与指标与阶段化管理策略相结合,以实现客户生命周期价值(CLV,客户生命周期价值)的提升。
在讨论部分,论文系统回应了数字健康领域客户流失研究长期存在的两个缺口:一是先进梯度提升算法缺乏系统比较,二是可解释人工智能与营销理论整合不足。研究结果显示,XGBoost、LightGBM 与 CatBoost 均具有较强泛化能力,且在超参数优化后性能接近,但 XGBoost 在 Accuracy、正类识别与稳定性方面略占优势。更重要的是,特征重要性与 SHAP 分析把模型输出与客户生命周期中的参与、留存和忠诚等阶段联系起来,使流失预测不再只是精度导向的计算任务,而成为可解释、可干预的健康服务管理工具。论文认为,该研究在方法上推动了可解释集成学习在数字健康中的应用,在理论上强化了“流失是关系逐步弱化结果”的生命周期视角,在实践上则为构建更精准的患者留存和照护连续性策略提供了证据支持。
研究结论部分可译述如下:本研究成功识别出用于客户流失预测的最优梯度提升算法,其中 XGBoost 表现最佳,在整体 Accuracy、真实流失实例识别能力以及区分流失与非流失客户方面均优于其余两种模型。鉴于这些指标在客户留存问题中的关键性,XGBoost 被确定为所研究数字医疗保健组织的首选流失预测模型。研究同时强调,超参数优化对于构建最优、可靠且预测平衡的机器学习模型具有重要意义;经调优后,所有模型的性能均获得显著改善。研究还发现,CatBoost 对超参数调优的敏感性较低,在默认参数条件下也可作为稳健的流失预测模型。除经验结果外,本研究还通过将生命周期解释框架与可解释集成机器学习相结合,为数字健康情境下兼顾准确预测与可操作洞见生成提供了文献贡献。论文亦指出其局限性,包括数据来源于单一机构、数据为静态横断面、未进行统计显著性检验等,未来可引入多机构数据、时间动态建模、深度学习架构与混合解释框架,以进一步提升结果的推广性与解释深度。