用于违约风险早期预警的两阶段特征选择方法

《Knowledge-Based Systems》:Two-Stage Feature Selection for Early Warning of Default Risk

【字体: 时间:2026年03月17日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  特征选择通过消除冗余噪声保留关键特征提升信用风险模型的预测准确性和稳定性,提出两阶段框架:第一阶段用最大信息系数(MIC)筛选非线性关联特征,第二阶段通过引入特征替换和交换机制改进的顺序向后选择(MSBS)动态优化特征组合。实证表明该方法在六期企业信用数据(共3,425家上市公司)和多个UCI数据集上优于传统方法(如SBS、遗传算法、XGBoost-RFE),AUC均超0.8,且非财务特征对违约预测影响最大。

  
Zhe Li|Lina He|Mohammad Zoynul Abedin|Petr Hajek|Brian Lucey
聊城大学商学院,中国聊城252059

摘要

特征选择通过消除冗余和噪声特征同时保留关键的预测特征,提高了信用风险模型的预测准确性和稳定性。使用不同的特征组合构建模型会导致预测准确性的差异。然而,现有的特征选择研究往往关注单个特征的区分能力,而忽略了变量之间的联合效应对违约预测的影响。为了解决这些局限性,本研究提出了一种新颖的两阶段特征选择框架,结合了最大信息系数(MIC)和改进的顺序向后选择(MSBS)算法。MIC作为初始的广谱过滤器,检测并移除冗余特征,同时保留与违约风险相关的复杂非线性关联。MSBS算法随后通过动态的向后消除过程对特征集进行精细化处理,这一过程受到预测准确性指标的指导,并通过特征替换和特征交换策略得到增强。来自六个时间窗口的实证结果表明,我们的方法优于常见的特征选择技术,如顺序向后选择、遗传算法和带有递归特征消除的XGBoost。非财务特征在违约风险预测中影响最大,其次是财务特征,最后是宏观经济特征。在多个UCI公共数据集上的实验表明,MSBS方法具有优越的违约区分能力,并表现出很强的鲁棒性。

引言

早期识别违约风险对于减轻企业的财务负担和降低金融机构的不良贷款比率至关重要。然而,构建用于此任务的预测特征集仍然具有挑战性[1],[2]。关键问题包括特征选择方法的不稳定性,不同的算法往往对同一借款人的特征子集和性能产生不同的结果。此外,模型构建者必须在高维环境中权衡实现高预测性能和保持计算效率之间的平衡[3]。
为了解决这些挑战,我们提出了一种新颖的两阶段特征选择框架。首先使用最大信息系数(MIC)作为鲁棒过滤器来消除冗余特征,同时保留潜在的预测性非线性关系。随后,改进的顺序向后选择(MSBS)算法进行精细化搜索。MSBS通过引入系统的特征回替换和成对交换机制,克服了传统方法的贪婪性和收敛于局部最优解的倾向。此外,我们在包装阶段引入了通用的F分数(F-Score)标准来评估子集,扩展了传统的单特征度量,以更好地优化整体分类性能[4]。
与传统的顺序向后选择(SBS)不同,后者优化单一标准(例如曲线下面积AUC)并逐个删除特征,MSBS通过系统的替换和交换扩大了可能的子集搜索空间。这避免了SBS及相关方法中常见的局部最优陷阱[5]。Falk等人[6]观察到,纯向后驱动的算法既没有探索所有可能的特征组合,也没有充分捕捉序列依赖性。此外,虽然Tsai和Sung[7]证明了结合多种选择方法的特征子集可以获得更好的预测性能,但他们的方法没有测试添加或替换特征对准确性的影响。相比之下,MSBS在每次迭代中明确评估重新引入或交换特征的影响,从而提供了更灵活和全面的解决方案。
尽管近年来特征选择领域取得了显著进展,但许多流行方法要么忽略了非线性特征交互[8],要么无法有效处理高维数据[9],或者只是进行了微小的改进,而没有直接联系到实际应用[4]。无法处理指标之间的非线性关系可能导致信息丢失、预测能力下降和误导性结论。我们的两阶段框架通过利用MIC来处理潜在的非线性问题。特征之间的相关性使用MIC进行量化,保留或排除特征的决策基于其预测能力。
我们对现有研究的贡献如下:
  • 我们提出了一种基于改进的顺序向后选择的特征选择方法。与仅执行特征消除的SBS算法不同,MSBS算法引入了特征替换和特征交换的程序。这使得可以从更广泛的组合中选择最优的特征子集,从而打破局部最优解并提高所选特征的预测准确性。
  • 我们提出了一种基于通用F分数(F-Score)构建特征组合的方法。当特征数量为一个时,F分数是通用F分数的一个特例。我们通过基于AUC的MIC进行初始特征选择,然后使用通用F分数获得特征组合。与单特征选择的F分数相比,通用F分数考虑了特征对违约状态的联合效应,确保了获得的特征组合的区分能力。
  • 对中国上市公司数据的实证分析证实,我们的方法优于标准的特征选择技术,包括F-Score、SBS、遗传算法和Lasso回归,显著提高了分类准确性。多个公共数据集进一步验证了本文提出的特征选择模型的鲁棒性。
    本文的其余部分组织如下:第2节回顾了相关的特征选择方法及其与违约风险建模的相关性。第3节详细介绍了我们的两阶段特征选择框架和MSBS算法。第4节展示了模型的优越性。第5节讨论了主要发现。最后,第6节总结了本文并指出了未来研究的方向。

    章节片段

    文献综述

    在预处理信用数据时,异常值处理、缺失值插补和数据转换是关键步骤。接下来,从精炼的数据集中选择具有区分能力的特征以输入到机器学习算法中是至关重要的任务。特征选择方法与分类模型之间的相互作用可以大致分为三种范式[10],[11]:
  • 1.
    与违约状态无关的特征选择
  • 2.
    分离的特征选择和分类模型
  • 研究框架

    在理论环境中,评估m个特征的所有可能组合需要计算2m?1个不同的集合,这在计算上非常密集且耗时。对于需要快速预测分析的金融机构(如银行)来说尤其成问题。为了解决这一挑战,本研究引入了SBS算法的优化版本,称为MSBS,它在贪婪算法框架内运行,以实现高效的特征选择

    特征和数据

    本研究通过整合来自国际评级机构(如Moody’s、S&P和Fitch)的经典高频特征,以及来自国内著名金融机构(如中国农业银行和中国银行)的特征[35],为上市公司建立了一个全面的信用风险特征系统[36],[37]。该特征系统基于权威文献和实证研究构建,分为三个主要层次

    讨论

    实证结果表明,所提出的MSBS框架是解决违约预测中特征选择挑战的稳健且高效的方法。通过结合MIC过滤器和动态向后消除过程,MSBS在计算可行性和捕捉非线性依赖性及特征交互能力之间取得了平衡——这两个方面通常是传统方法所忽视的。
    与现有的特征选择技术进行基准测试

    结论

    本研究介绍了一种改进的向后选择算法MSBS,作为违约预测中特征选择的强大工具。分析涵盖了从t?0t?5的六个时间窗口,得到了包含60、46、39、53、46和56个变量的不同特征集。这些特征集遵循“5C”原则,所有时间窗口的AUC均超过0.8,凸显了它们在违约识别中的有效性。
    与流行的特征选择方法进行基准测试

    CRediT作者贡献声明

    Zhe Li:撰写——原始草稿、可视化、软件、方法论、调查、数据整理、概念化。Lina He:撰写——原始草稿、验证、软件、方法论、调查、形式分析、数据整理、概念化。Mohammad Zoynul Abedin:撰写——原始草稿、验证、方法论、调查、形式分析、数据整理。Petr Hajek:撰写——原始草稿、监督、方法论、资金获取、概念化。Brian Lucey:

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了捷克科学基金会(编号22-22586S)的资助。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号