通过最优传输实现的不平衡分类问题中的复杂分布感知校准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Complex Distribution-Aware Calibration for Imbalanced Classification via Optimal Transport

【字体：大中小】 时间：2026年02月25日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对不平衡分类中单高斯假设和启发式头类选择的局限性，本文提出基于高斯混合模型的分布校准框架GMDC，通过全局和局部最优传输实现自适应知识转移，显著提升尾类性能。

　　
在机器学习领域，分类模型在处理数据不平衡问题时往往面临显著挑战。传统方法倾向于通过调整样本权重或重新采样来缓解类别间的样本数量差异，但这些方法存在固有局限。例如，重采样策略可能破坏原始数据的内在分布结构，而基于权重的调整方法在极端不平衡场景下效果有限。近年来的研究开始关注利用头部类别的知识来改善尾部类别的分布校准，这种方法通过将头部类别的统计特征迁移到尾部类别，而非简单调整样本分布，被认为更具理论深度和实际适应性。

当前主流的分布校准方法存在两个关键问题：首先，普遍采用单高斯分布假设来建模类别特征分布，这种简化模型难以捕捉现实数据中复杂的特征分布形态。以CIFAR10-LT数据集为例，实验发现某些头部类别（如飞机和汽车）在特征空间中存在多个亚簇，但传统方法仍强制使用单一高斯分布进行建模，导致校准结果与真实数据分布存在系统性偏差。其次，头部类别的选择策略多依赖经验性规则（如基于欧氏距离的前k个最近邻类别），这种静态选择机制无法适应不同数据集间的动态特征关系。例如，在医学影像分类中，某头部类别的最佳知识贡献者可能与在自然图像分类中的情况完全不同，但现有方法无法实现这种自适应调整。

针对上述问题，本文提出基于高斯混合模型的分布校准框架GMDC。该方法的核心创新在于将最优传输理论（OT）与高斯混合模型（GMM）相结合，构建了两级协同的校准机制。在全局层面，通过解决类别间的最优传输问题，建立了一个动态自适应的头部到尾部知识迁移矩阵。这个矩阵不仅考虑了类别均值的空间距离，还通过几何统计量捕捉特征分布的形状差异，从而更精准地量化不同类别间的相似性。在局部层面，针对每个高斯混合模型的组件进行二次校准，通过组件级别的最优传输实现特征分布的精细调整。

GMDC方法的独特优势体现在三个方面：其一，采用高斯混合模型替代传统单高斯假设，能够有效建模具有多个密度峰值的特征分布。例如在ImageNet-LT数据集中，某些尾部类别的样本可能呈现多个视觉亚集群，GMM模型通过多个高斯成分的组合，能够更准确地描述这种复杂数据分布。其二，通过构建全局最优传输矩阵，系统性地解决了头部类别选择中的适配性问题。实验表明，在iNaturalist 2018数据集上，传统基于距离的头部选择策略（如前k个最近邻）可能错误地将知识迁移给相似度较低的中介类别，而GMDC的全局最优传输机制能够智能地分配知识迁移权重，避免这种错误关联。其三，作为轻量级后处理模块，GMDC无需引入额外的可训练网络，仅需在原始分类模型基础上进行两阶段微调。第一阶段冻结特征编码器，通过校准生成均衡的特征分布；第二阶段在调整后的特征基础上进行微调，实现决策边界的优化扩展。

具体实现层面，GMDC构建了双层次的校准框架。在全局层次，首先将头部类别的知识分布建模为离散概率分布P，尾部类别的原始分布建模为Q。通过计算这两个分布之间的最优传输（OT），得到一个密集的转移矩阵T。该矩阵不仅考虑了头部类别中心点的几何位置差异，还通过 OT 的成本函数整合了特征分布的协方差结构信息。这种设计突破了传统方法仅依赖均值相似性的局限，能够更全面地捕捉特征分布的相似性。在局部层次，针对每个尾部类别的GMM成分，执行组件级别的最优传输。例如，当某个尾部类别包含三个高斯成分时，系统会根据头部类别各个成分的相似性，建立多对多的知识迁移关系。这种分层处理机制既能保证全局知识迁移的系统性，又能实现局部特征分布的精准调整。

方法的有效性通过多维度实验得到验证。在四个基准数据集（CIFAR10-LT、CIFAR100-LT、ImageNet-LT、iNaturalist 2018）和两个真实场景数据集（HAM10000皮肤病变、OpenSARShip船舶识别）上的测试结果显示，GMDC相较于现有方法在F1-score、AUC-ROC等关键指标上平均提升12.7%，在极端不平衡场景（如样本比达到100:1）下仍能保持稳定性能。消融实验进一步证明，全局OT和局部OT两个层次校准共同贡献了方法的有效性：当移除全局OT仅保留局部校准时，模型在CIFAR100-LT上的F1-score下降18.4%；若仅进行单层校准，则知识迁移的覆盖范围不足，导致尾部类别识别率提升幅度受限。此外，该方法展现出良好的泛化能力，在跨领域数据集上的迁移学习效果显著优于传统单高斯校准方法。

理论分析表明，GMDC通过引入混合模型和高层次最优传输，有效解决了传统方法中的两个理论缺陷。首先，高斯混合模型能够通过线性组合捕获任意阶数的多模态分布特征，其可塑性远高于单高斯模型。实验可视化显示，在CIFAR10-LT数据集中，GMDC对飞机和汽车类别的建模准确度比单高斯模型提升37%，特别是在处理存在多个视觉亚集群的类别时，GMM的拟合误差降低至传统方法的1/4。其次，最优传输理论提供的数学框架，使得知识迁移过程具备严格的优化目标和收敛保证。通过构建包含均值距离和协方差相似性的联合成本函数，系统性地平衡了头部类别的统计特征相似性和几何分布差异，避免了传统方法中可能出现的知识过载或迁移不足问题。

在工程实现方面，GMDC设计了两阶段细调流程。第一阶段冻结特征编码器，使用预训练模型的输出作为输入。通过计算每个尾部类别各个GMM成分与头部类别所有成分之间的最优传输计划，生成新的特征分布表示。第二阶段在保持特征编码器不变的前提下，对校准后的特征进行微调。这种分离式训练策略既保证了特征提取的稳定性，又通过校准过程有效提升了模型对尾部类别的学习能力。特别值得关注的是，GMDC在实现过程中不需要任何新的神经网络结构，仅需在原有模型架构上增加校准层和微调层。这种模块化设计使得GMDC可以无缝集成到现有的深度学习框架中，如PyTorch或TensorFlow，极大降低了实际应用的门槛。

实际应用场景中，GMDC展现出显著的性能优势。在皮肤病变诊断数据集HAM10000上，针对少量样本的恶性病变类别（如黑色素瘤），GMDC通过迁移头部类别（健康皮肤、良性痣等）的统计特征，使模型对恶性类别的识别率从基准的68.2%提升至82.4%。这种提升源于GMDC能够准确识别不同恶性病变亚型的特征分布差异，并通过最优传输矩阵实现针对性的知识迁移。在船舶识别的OpenSARShip数据集中，GMDC在保持头部类别（大型货船）高准确率的同时，将尾部类别（小型快艇）的识别率从基准的54.3%提升至71.8%，验证了其在长尾分布处理中的有效性。

未来研究方向主要集中在三个方面：首先，探索动态高斯混合模型，使得校准过程能够根据训练进度自动调整组件数量和参数；其次，研究跨域知识迁移机制，在GMDC框架中整合多领域头部类别的知识；最后，将该方法与自监督学习结合，利用未标注数据进一步提升小样本场景下的鲁棒性。当前研究已证实，GMDC作为后处理模块与主流分类器（如ResNet、Transformer）结合时，能够在不增加计算成本的情况下显著提升模型性能，特别是在需要细粒度特征调整的实际应用场景中，其优势更为突出。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号