融合文本与结构化数据的混合机器学习模型：提升P2P借贷客户风险调整收益预测与决策

《Decision Analytics Journal》：A hybrid machine learning approach for customer valuation and decision-making in peer-to-peer lending

【字体：大中小】 时间：2026年02月16日 来源：Decision Analytics Journal CS10.9

编辑推荐：

　　随着金融科技的兴起，P2P借贷平台亟需更精确的客户估值方法来应对信息不对称和风险管理挑战。为填补非结构化文本数据在客户价值评估应用中的空白，Marcos R. Machado与Salma Karray开展了一项研究。他们从126,000条P2P在线贷款描述中提取文本主题，并将其与结构化数据结合，通过个体及混合机器学习模型来预测和解释客户的风险调整收益(RAR)。结果显示，混合模型，特别是结合潜在语义分析(LSA)进行客户聚类的模型，预测能力可达R2=97.55%。此项研究证明，整合贷款描述文本可显著提升P2P借贷市场的预测准确性、客户细分及整体估值水平，为金融机构的精准决策提供了新的视角。

在数字金融时代，点对点(P2P)借贷作为一种新兴的融资模式，正以前所未有的速度发展。然而，与传统金融机构不同，P2P平台通常缺乏详尽的借款人历史财务数据，导致出借人与借款人之间存在显著的信息不对称。借款人提供的简短贷款描述，往往成为投资者判断其信用状况和还款意愿的重要依据。传统的信用风险评估模型主要依赖结构化的“硬”数据（如收入、信用评分），而借款人倾注了大量个人信息的“软”文本数据（如贷款原因描述）的价值却长期被忽视。能否从这些非结构化的文本中挖掘出洞察，从而更全面地评估客户价值，成为P2P借贷行业提升风险管理水平、优化资源配置、乃至增强平台整体稳定性的一个关键难题。

为了填补这一研究空白，来自荷兰特文特大学的Marcos R. Machado和Salma Karray在《Decision Analytics Journal》上发表了一项开创性研究。他们不再局限于预测违约风险，而是将目光投向了更综合的客户价值指标——风险调整收益(Risk-Adjusted Revenue, RAR)。RAR是一项关键的客户价值评估指标，它在计算客户为平台带来的收益现值时，融入了客户的风险因素（通过差异化的折现率体现），能比传统的客户终身价值(CLV)更全面地反映风险与回报的关系。本研究旨在探索：从借款人的贷款描述文本中提取的信息，能否有效提升对客户RAR的预测准确性？哪种主题建模方法效果最佳？先基于文本特征对客户进行细分（构建客户组合），再分别预测，这种混合机器学习方法是否优于传统的单一模型？通过回答这些问题，该研究为P2P平台利用人工智能进行更精细化的客户估值和战略决策提供了切实可行的方案。

为了开展研究，作者运用了几项关键技术方法。研究数据来源于美国大型P2P平台LendingClub，包含126,000笔贷款的财务信息及对应的借款人贷款描述。核心方法包括：首先，应用五种主题建模(Topic Modelling, TM)技术——潜在语义分析(LSA)、非负矩阵分解(NMF)、潜在狄利克雷分布(LDA)、Top2Vec和BERTopic——从贷款描述文本中自动提取出潜在的语义主题，并将其转化为可用于机器学习模型的特征。其次，构建了多种预测框架：包括仅使用包含文本特征的完整数据集进行训练的个体机器学习回归模型，以及两种混合框架。混合框架一先使用k-Means算法对所有特征（含文本）进行聚类，再对每个簇分别训练回归模型；混合框架二则直接利用提取的文本主题作为客户细分依据，形成不同的“主题组合”，再对每个组合进行建模。研究采用了5折交叉验证和网格搜索来优化模型参数，并使用R²、均方误差等指标评估预测性能。

研究结果揭示了多个重要发现。

5.1. 描述性统计

分析显示，客户的风险调整收益(RAR)与其信用评级呈正相关，高风险客户（G级）平均RAR（约245万美元）和折现率（18.5%）均显著高于低风险客户（A级，平均RAR约115万美元，折现率1.1%），印证了金融领域中高风险高回报的原则。不同主题下的客户在贷款价值、违约率和RAR上也表现出明显差异。

5.2. 主题数量确定

通过困惑度和对数似然分析，确定从数据集中提取4个主题是最优的，这为后续的主题建模和客户细分奠定了基础。

5.3. 主题建模结果

通过分析各主题的高频词，研究人员为每个主题赋予了易于理解的标签，例如“债务整合”、“家庭装修”、“商业投资”和“个人消费”。这些主题为理解借款资金用途提供了直观的语义维度。

5.4. 个体与混合机器学习模型的预测性能

这是研究的核心发现。结果表明，在所有测试的模型中，混合机器学习框架，尤其是那些结合了潜在语义分析(LSA)进行基于主题的客户聚类的模型，预测性能显著优于单一的个体算法。其中，基于LSA主题进行客户细分，再使用梯度提升(GB)回归器在各自集群内进行预测的混合模型，取得了最佳的预测效果，其R²高达97.55%。这有力地回答了第一个研究问题，证实了整合文本数据能够极大提升RAR的预测精度。同时，LSA在本次研究的多种主题建模方法中表现最为突出。

5.5. 特征重要性分析

研究还深入分析了在不同模型和客户细分中，哪些特征对预测RAR最为关键。分析发现，文本衍生特征在预测中扮演了重要角色。特别是在基于主题的客户组合中，与“债务”和“商业”相关的主题特征显示出很高的重要性。此外，传统的“硬”特征，如贷款状态、分期付款金额、债务收入比等，依然是预测的重要基础。值得注意的是，特征的重要性在不同客户组合间存在差异，这揭示了不同细分客户群体其价值驱动因素的异质性，为精准营销和风险定价提供了依据。

结论与讨论

本研究系统地论证了在P2P借贷客户价值评估中整合非结构化文本数据的巨大潜力和实际价值。主要结论是：第一，从借款人贷款描述中提取的文本主题信息，能够作为强有力的预测特征，显著提升机器学习模型对客户风险调整收益的预测准确性。第二，采用“先细分，后预测”的混合机器学习框架，特别是利用文本主题进行客户聚类的方法，其预测性能超越了传统的、在全数据集上直接训练的个体模型。第三，在多种主题建模技术中，LSA在本研究场景下展现了最佳的应用效果。

这项研究的重要意义体现在多个层面。在理论上，它填补了将非结构化文本数据应用于客户价值（特别是RAR）预测的研究空白，将自然语言处理与客户关系管理(CRM)中的高级估值模型相结合，推动了金融数据分析方法论的边界。在实践上，它为P2P借贷平台及其他金融机构提供了可直接落地的决策支持工具。管理者可以利用该模型创建具有清晰风险-回报特征、且语义可解释的客户组合，从而实现更精准的资源分配、差异化的定价策略、以及定制化的客户获取与留存活动。例如，平台可以识别出那些贷款描述指向“债务整合”且具有中高RAR预测值的客户，为他们设计特定的再融资产品。总之，该研究不仅证明了人工智能在金融领域的深度应用价值，也为构建更透明、可审计、以价值为导向的P2P借贷分析模型指明了方向。

热点排行

新闻专题