基于马氏距离-高斯混合模型与Wasserstein GAN的数据驱动不平衡回归增强方法

《Neural Networks》：Regression Augmentation With Data-Driven Segmentation

【字体：大中小】 时间：2026年01月20日 来源：Neural Networks 6.3

编辑推荐：

　　为解决连续目标变量分布偏斜导致模型在稀疏区域预测性能差的问题，研究人员开展了一项名为“Regression Augmentation With Data-Driven Segmentation”的研究。他们提出了一种全数据驱动的框架，结合Mahalanobis-GMM自动识别少数样本，并采用Wasserstein GAN生成合成数据，通过确定性最近邻匹配增强稀疏区域。在32个基准数据集上的评估表明，该方法在RMSE、SERA和Fφ1指标上均优于现有方法，显著提升了模型对稀有值的预测准确性，为金融风控、医疗诊断等需要精确预测罕见事件的领域提供了新方案。

在现实世界的预测任务中，我们常常面临一个棘手问题：数据分布严重不平衡。比如在医疗诊断中，罕见疾病的病例寥寥无几；在金融风控中，极端欺诈事件屈指可数；在工业生产中，设备故障的异常数据凤毛麟角。传统回归模型在这些场景下表现不佳，因为它们会“偏爱”那些数量庞大的普通样本，而对那些稀少却至关重要的极端值视而不见。

这种“厚此薄彼”的现象在机器学习中被称为不平衡回归问题。与备受关注的分类不平衡不同，回归不平衡的研究相对滞后，而现实需求却日益迫切。想象一下，如果气象模型无法准确预测罕见的强台风，如果医疗系统漏诊罕见的重症患者，如果工业检测忽略那些预示重大故障的微小异常，后果将不堪设想。

传统解决思路往往依赖人工设定阈值来区分“普通”与“稀有”，这种方法既主观又僵化，无法适应复杂多变的数据特性。更糟糕的是，简单的过采样方法可能会生成不合理的合成数据，破坏原始数据的统计特性，导致模型过拟合或性能下降。

面对这一挑战，来自加拿大西安大略大学计算机科学系的Shayan Alahyari、Shiva Mehdipour Ghobadlou和Mike Domaratzki提出了一种创新解决方案。他们发表在《Neural Networks》上的研究，开发了一套完全数据驱动的增强框架，巧妙地将三种技术融合：使用Mahalanobis-Gaussian Mixture Modeling（GMM）自动识别少数样本，采用Wasserstein GAN with Gradient Penalty（WGAN-GP）生成高质量合成数据，最后通过确定性最近邻匹配筛选出最真实的增强样本。

这项研究的精妙之处在于其“让数据自己说话”的理念。不同于需要预设阈值的方法，该框架通过分析数据本身的分布特性，自动确定何为“稀有”。研究人员将每个样本视为特征与目标的联合向量，计算其与数据中心的Mahalanobis距离（马氏距离），这种距离考虑了数据的相关结构，比欧氏距离更能反映样本的真实分布位置。然后，他们对这些距离的平方拟合双组分高斯混合模型，自然地将数据分为“多数”与“少数”两部分，其分界点就是两个高斯分布密度函数的交点。

在数据生成阶段，研究团队选择了Wasserstein GAN with Gradient Penalty（WGAN-GP），这种生成对抗网络以其训练稳定性和生成质量著称。特别值得一提的是，他们仅对识别出的少数样本进行GAN训练，而非全数据集，这大大提升了计算效率。最终，通过k近邻匹配从大量生成样本中精选出与真实少数样本最相似的增强数据，确保了合成样本的质量和多样性。

该方法在32个标准不平衡回归数据集上进行了全面评估，与SMOGN、G-SMOTE、随机过采样等多种方法对比，在RMSE（均方根误差）、SERA（平方误差相关区域）和F_φ₁（F测度）三个关键指标上均表现最优。结果表明，这种数据驱动的方法不仅能有效提升模型对稀有值的预测精度，还能保持整体性能不受影响。

在技术方法层面，该研究主要采用了几个关键技术：基于Mahalanobis距离和高斯混合模型（GMM）的少数样本自动检测技术，使用Wasserstein生成对抗网络（WGAN）进行数据生成，以及基于k近邻（k-NN）的合成样本匹配策略。实验使用了来自UCI Repository和Keel Repository的多个真实数据集，包括Boston、Abalone、Compactiv等，样本量从186到22,784不等，特征维度从4到65维不等。

研究结果

Mahalanobis-GMM少数样本检测效果

通过双组分高斯混合模型对平方马氏距离进行拟合，成功将每个数据集中的样本自动划分为多数样本和少数样本两部分。分析显示，在不同数据集上，少数样本的比例在10.2%到21.8%之间，表明该方法能够自适应地识别出真正的稀有样本。阈值T（两个高斯组分密度函数的交点）在不同数据集上有显著差异，反映了方法对数据分布特性的自适应能力。

合成数据质量评估

t-SNE可视化分析表明，在不同困惑度（perplexity）设置下，GAN生成的合成样本与真实少数样本在降维空间中有高度重叠，证明合成数据保持了真实数据的分布特性。相关性分析显示，合成数据特征间的相关矩阵与真实少数样本高度一致，最大差异小于0.15，表明生成过程有效保留了变量间的内在关系。

性能比较结果

与SMOGN、G-SMOTE、随机过采样（RO）和无过采样基线相比，该方法在三个评估指标上均表现出优势。在TabNet模型上，该方法在100/128的 pairwise比较中获胜，其中57次胜利具有统计显著性。在随机森林模型上，同样表现出稳定的优越性。特别是在SERA指标上（该指标专门评估模型在稀有样本上的表现），改进最为明显，证明方法确实提升了模型对稀疏区域的预测能力。

超参数敏感性分析

对关键超参数k（近邻数）和n_pick（选择数）的敏感性测试显示，方法对这些参数的变化不敏感。在不同设置下，RMSE的变异系数仅为2.3%，F分数的变异系数为2.8%，表明方法具有较好的鲁棒性。统计检验（ANOVA）证实，超参数变化对性能影响不显著（p值>0.05），用户无需精细调参即可获得稳定性能。

计算效率分析

得益于早停策略（early stopping），实际训练周期从配置的1000轮减少到平均261轮，节省了约74%的计算时间。内存使用始终保持在1.4GB以下，表明方法具有良好的可扩展性，适用于不同规模的数据集。

高维数据扩展性

在特征维度高达998的基因表达数据集上的测试表明，方法在高维设置下仍保持有效。与基线方法相比，在Communities（122维）和Gene Expression（998维）数据集上，该方法在RMSE、SERA和F测度上均取得最佳结果，证明其适用于现代生物医学研究中的高维数据场景。

不同模型架构的通用性

在FT-Transformer架构上的额外实验证实，该方法不依赖于特定预测模型，在不同神经网络架构上都能带来性能提升。在RMSE、SERA和F测度三个指标上，与基线方法相比均取得显著优势，证明了方法的广泛适用性。

研究结论与意义

该研究提出了一种全数据驱动的不平衡回归解决方案，成功解决了传统方法依赖人工阈值、生成样本质量不高的问题。通过融合Mahalanobis-GMM检测、WGAN生成和确定性匹配三个环节，实现了对稀有样本的高质量增强。

研究的创新性主要体现在三个方面：首先，提出了基于数据分布的自动阈值确定机制，避免了主观设定；其次，将GAN技术成功应用于回归问题的数据增强，生成了符合真实分布的合成样本；最后，通过最近邻匹配确保了增强样本的质量和多样性。

在理论层面，该工作填补了生成模型在不平衡回归中的应用空白，为连续目标变量的数据增强提供了新思路。在实践层面，方法在多个真实数据集上验证有效，为金融风控、医疗诊断、工业检测等需要精确预测罕见事件的领域提供了实用工具。

值得注意的是，该方法无需复杂的参数调优即能获得稳定性能，计算效率高，适用于实际应用场景。未来的研究方向包括扩展方法至多模态目标分布、开发更高效的生

热点排行

新闻专题