《Data & Knowledge Engineering》:Selection of secondary features from multi-table data for classification
编辑推荐:
多表数据分析中的变量选择与聚合优化方法研究。针对现有工具在处理复杂多表数据时生成冗余变量的问题,提出基于单变量分析的重要性评估方法,通过构建特定聚合变量过滤非信息变量,实验表明该方法可有效提升分类模型性能。
Nicolas Voisine|Lou-Anne Quellet|Marc Boullé|Fabrice Clérot|Anais Collin
Orange Innovation,法国兰尼翁
摘要
多表数据在组织中非常常见,其分析对于欺诈检测、服务改进和客户关系管理等领域至关重要。处理这类数据需要对其进行扁平化处理,即将多表结构转换成单一的平面表格,通过从原始变量中创建聚合值来实现。虽然有一些工具旨在自动化这一过程,但随着表格数量和关联关系的增加,数据的复杂性也随之提高,扁平化的效果反而会下降。为了提高聚合的质量,开发能够自动预处理数据的系统变得十分重要,这些系统应重点关注最具信息量的变量。
本文的目的是提出一种选择次要变量的方法,并通过单变量分析证明该方法能够有效过滤掉无信息量的变量。最后,我们将利用一组学术数据集证明,仅保留真正具有信息量的次要变量可以提升分类模型的性能。
引言
模型训练过程是机器学习工作流程中的基本组成部分,包括特征选择、数据转换、模型训练和验证等关键步骤,以开发出准确且稳健的预测模型。多表数据占组织内可用数据集的很大比例。分析这些数据集,特别是通过模型训练过程,为企业提供了重要的洞察力,例如用于欺诈检测、服务改进或客户关系管理。利用这些多表数据需要进行一种称为“扁平化”(或称命题化,Lachiche [1])的转换步骤,即将多个表格合并成一个表格。例如,在客户数据库中,这个过程可能会将每个客户的所有交易记录汇总成一行,包括交易总数、平均交易金额和最后交易日期等特征。这种转换从原始变量中创建了聚合值,并使用基本的构建规则(如“计数”或“平均值”)来简化数据,以便于分析。有许多工具(如featuretools、getML和Khiops [2]、[3]、[4])可以自动化这一过程。尽管这种方法提供了丰富的信息内容,但也引入了新的挑战,因为数据具有关联性质,并且存在许多冗余或无信息的变量。例如,一个无信息量或噪声较大的变量可能会通过聚合过程传递给最终结果,导致聚合值同样无信息量。冗余变量(即传递相似信息的变量)可能导致多个重复的聚合值,增加数据冗余性,并可能混淆模型输出。此外,表格之间的一对多(1-N)关系(如客户表(A)和交易表(B)中的信息)也可以提供有价值的洞察,但如果不加以妥善管理,可能会引入无关或冗余的特征,从而降低甚至损害分类模型的性能。因此,开发针对多表数据的自动变量选择方法对于优化命题化过程和提高分类模型性能至关重要。
在分类模型的训练过程中,特征选择是一个关键步骤,尤其是在处理复杂和大型数据集时 [5]。在多关系数据挖掘(MRDM)的背景下,数据被组织成通过键链接的多个表格。在MRDM中进行分类需要考虑不同表格之间实体之间的关系。传统上,变量选择主要关注主表中的变量,因为主表包含分类的目标对象 [6]。然而,从主表链接的次要表(我们称之为次要变量)也可以提供有价值的信息,从而提升分类模型的性能。例如,在信用评分领域的监督分类问题中,目标是根据客户违约的可能性对其进行分类。主表可能包含客户的个人信息(收入、就业情况、年龄等),而次要表可能包含银行交易记录、以往贷款还款历史或其他金融机构的关系信息。变量选择有助于识别哪些变量(如交易历史或与其他债权人的互动记录)对评估信用风险具有重要的预测价值 [7]。
有效利用次要表中的变量需要先进的变量选择技术,这些技术能够处理多表之间的关系。实际上,MRDM中的变量选择不仅需要识别主表中的相关聚合值,还需要确定次要表中的哪些关系和变量对分类任务有显著贡献 [8]。如果一个简单的分类模型使用了所有可用变量,可能会导致模型过拟合,从而降低模型的泛化能力 [9]。为了应对这些挑战,已经开发了多种方法,包括过滤技术和包装器技术,以及专为主表设置设计的嵌入式方法 [6]。例如,过滤方法使用统计度量来评估变量的重要性,而无需训练显式模型,这有助于降低计算成本。相反,嵌入式方法会为每个变量子集训练和评估预测模型,可能会以增加计算成本为代价获得更好的预测性能。
在本文中,我们将重点讨论基于过滤的变量选择技术,这些技术利用次要表中的变量进行MRDM背景下的分类。我们将探讨如何有效地识别这些次要变量并将其整合到训练过程中,同时尽量减少包含噪声的风险。我们将提出一种衡量次要变量重要性的方法,以便过滤掉无信息量的变量,并展示其在检测噪声较大次要变量方面的实用性。
部分内容摘录
多表数据中的变量构建
数据扁平化的开创性方法源于命题化技术 [1],Lavra?等人 [10] 的LINUS系统以及Krogel和Wrobel [11] 的研究,他们旨在自动化从关系数据中创建聚合值的过程。这些技术结合了关系数据库中常见的优化方法(如索引)来汇总和总结数据。然而,这些方法存在局限性,例如禁止递归操作。
目标
对于平面数据而言,添加一个噪声较大的变量不会为预测目标变量提供任何有用信息。但在多表数据的背景下,关于在次要表中添加噪声变量的研究较少(Cai等人 [15])。这些噪声变量可能会导致性能下降,因为它们会生成大量的无信息量聚合值;或者相反,也可能产生有信息量的随机投影。在这项研究中,我们旨在解决两个问题:(1)是否可以创建……
提出的选择方法
为了解决次要表中无信息量变量的问题,我们提出了一种单变量方法,即独立研究每个次要变量。这种单变量方法通过创建单变量聚合值并分析Khiops水平(第2.2节)来评估变量对分类问题的潜在影响。
结论
本文致力于改进从多表数据中自动创建聚合值的过程。首先,我们证明了当次要表中的记录数量与目标类别相关时,由噪声变量创建的聚合值可以提供有用信息。然而,总体而言,次要表中这些噪声变量的存在会对分类器的性能产生负面影响。多表数据为分析次要表中的数据提供了另一种视角。
CRediT作者贡献声明
Nicolas Voisine:撰写 – 审稿与编辑、撰写原始草稿、验证、方法论设计、资金筹集、概念构思。Lou-Anne Quellet:可视化处理、验证、软件开发、方法论设计、形式化分析、概念构思。Marc Boullé:方法论设计、概念构思。Fabrice Clérot:撰写 – 审稿与编辑、方法论设计、概念构思。Anais Collin:软件开发、形式化分析、数据整理、概念构思。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Nicolas Voisine与Orange SA存在雇佣关系。如果还有其他作者,他们声明自己没有已知的可能影响本文工作的财务利益或个人关系。
Nicolas Voisine出生于1972年,1996年毕业于雷恩大学(法国),并获得雷恩大学的博士学位。目前,他是Orange Innovation数据挖掘研究组的高级研究员。他的主要研究方向是统计数据分析与数据挖掘,特别是针对大型多表数据库的自动机器学习。他开发了用于决策树的规则化方法以及提升预处理和建模技术。