
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于维度优化客户流失预测的混合特征选择框架
《Scientific Reports》:A hybrid feature selection framework for dimensionality-optimized customer churn prediction
【字体: 大 中 小 】 时间:2026年06月07日 来源:Scientific Reports 3.9
编辑推荐:
摘要客户流失是竞争激烈的电信行业中的一个主要问题。它直接影响公司的盈利能力及其在该行业的未来发展。已经有一些成功应用机器学习(ML)和深度学习(DL)技术来检测客户流失的情况。然而,在某些情况下,基于ML/DL的算法在分类客户流失方面未能取得令人满意的结果。早期关于客户流失预测的
客户流失是竞争激烈的电信行业中的一个主要问题。它直接影响公司的盈利能力及其在该行业的未来发展。已经有一些成功应用机器学习(ML)和深度学习(DL)技术来检测客户流失的情况。然而,在某些情况下,基于ML/DL的算法在分类客户流失方面未能取得令人满意的结果。早期关于客户流失预测的研究中,使用机器学习分类器和传统的特征编码技术得到了有希望的预测结果。但是,优化特征集在提高效率和降低特征维度方面仍然起着重要作用。本研究提出了一个模块化的流失预测框架,该框架将数据准备、通过混合特征选择进行特征优化、类别平衡以及预测建模整合到一个统一的流程中。这一过程采用了多阶段混合特征选择(MHFS)技术,该技术结合了互信息(MI)进行初步相关性筛选、递归特征消除(RFE)进行迭代优化、Boruta进行严格变量验证以及并行模拟退火(SA)进行全局优化。此外,还使用了5×3嵌套分层交叉验证来保证模型的客观评估,其中特征选择和SMOTE仅在内部训练折叠中进行,而外部折叠则完全不参与评估过程。用于训练的机器学习算法包括随机森林(Random Forest)、XGBoost、LightGBM、支持向量机(SVM)、Extra Trees和逻辑回归(Logistic Regression),以及表格神经网络(Tabular Neural Network)。该框架使用两个全面的电信数据集Cell2Cell和IBM Telco进行了评估,以确保其在不同流失情况数据集下的有效性。实验结果表明,所提出的混合框架在显著降低特征维度的同时(在IBM Telco数据集中从28个特征减少到16个特征,在Cell2Cell数据集中从57个特征减少到25个特征),仍能实现具有竞争力的预测性能。使用XGBoost时,该框架在IBM Telco数据集上的准确率为81.60%,在Cell2Cell数据集上的准确率为77.52%。这些结果表明,所提出的框架在大幅减少特征维度的同时,仍能保持良好的预测性能。