一种基于KNN和加权模糊粗糙集的噪声鲁棒特征选择方法,适用于不平衡的多尺度数据
《Applied Soft Computing》:A noise-robust feature selection using KNN and weighted fuzzy rough sets for imbalanced multi-scale data
【字体:
大
中
小
】
时间:2026年03月08日
来源:Applied Soft Computing 6.6
编辑推荐:
针对传统KNN模糊粗糙集模型在噪声敏感和类别不平衡场景中的局限性,本文提出加权KNN模糊粗糙集(WKNN-FNRS)模型,通过样本质量评估和自适应邻域权重调整增强鲁棒性,并嵌入多尺度决策框架,结合分层树约简算法和动态特征选择机制,实现多尺度数据的高效降维与增量式特征优化,在12个基准数据集上验证了其在噪声抑制、类别不平衡适应和计算效率上的优势。
张晓燕|王静文
中国重庆西南大学人工智能学院,400715
摘要
能够抵抗噪声并处理不平衡数据的特征选择方法对于提高分类准确性至关重要。尽管已经开发了多种抗噪声方法,但很少有方法能够在统一的框架内同时应对噪声和类别不平衡的挑战。KNN模糊邻域粗糙集(KNN-FNRS)模型将模糊集合理论与粗糙集近似相结合,在不确定环境中进行特征选择时非常有效。然而,它仍然容易受到噪声样本的影响,并且在类别分布高度不平衡的情况下表现不佳。为了解决这些问题,我们提出了一个加权KNN模糊邻域粗糙集(WKNN-FNRS)模型。引入了样本质量评估指标来量化实例的可靠性,并为噪声或低质量样本分配适应性邻居权重,从而提高了对噪声的容忍度并在不平衡数据集上的性能。WKNN-FNRS模型进一步嵌入到多尺度决策框架中,并开发了一种基于尺度的树缩减算法。该算法构建并修剪层次化尺度树,将多尺度数据转换为单尺度表示,同时保留了粗略和细粒度信息,提高了特征评估的准确性。随后设计了一种动态特征选择算法,根据加权粗糙集近似逐步优化特征子集,避免了样本或属性变化时进行耗时的重新训练。在评估中,我们在多达50%的样本中注入特定类别的高斯扰动,并在涵盖广泛不平衡比率的十二个基准数据集上进行了测试。所有实验均遵循分层嵌套交叉验证协议(外部10折,内部5折);特征选择和超参数调整严格在外部训练折叠内进行,以避免信息泄露。我们使用KNN、SVM和NB分类器与多个基线进行了比较,报告了外部折叠的平均标准差,并通过适当的统计测试验证了显著性。消融研究(无权重、无模糊、单尺度)和目标参数敏感性分析确认了每个模块的贡献以及方法的稳定性。结果表明,带有尺度缩减和DFS的WKNN-FNRS在分类准确性、抗噪声能力和计算效率方面始终优于竞争方法。
引言
能够抵抗噪声[1]并处理类别不平衡的特征选择方法对于在各种应用中保持高分类准确性[2]至关重要。这类鲁棒的特征选择方法具有广泛的应用性,潜在用途从医学诊断[3]到故障检测[4]不等。由于现实世界的数据集通常包含错误标记或损坏的实例,并且存在类别不平衡,因此开发既能过滤不可靠观测值又能保留罕见但有信息价值的模式的特征选择方法至关重要。
研究人员提出了许多策略来降低维度、去除冗余或不相关的特征[5]并提高泛化能力[6]、[7]。在这一研究领域中,粗糙集理论及其模糊扩展[8]因其能够在不需要了解底层数据分布的情况下处理不确定性[9]而引起了相当大的兴趣。例如,Yin等人[10]提出了一种参数化的模糊邻域相似性关系,并开发了一种抗噪声的多标签FNRS(NT-MLFNRS)以及两种多标签特征选择方法(NRFSFN和ENFSFN)来增强多标签学习中的抗噪声能力。Sang等人[11]引入了一种用于动态有序数据的模糊支配邻域粗糙集(FDNRS)。Wang等人[1]提出了一种基于FNRS的子集选择方法,该方法在提高分类准确性的同时减少了属性数量。Xu和Li[12]提出了一种基于KNN的多标签粗糙集理论,用于在不平衡数据上进行多标签特征选择。Xu和Tian[13]提出了一种基于偏好排序组织的区间值多源决策信息系统的特征选择和信息融合技术。Feng和Zhang[14]设计了一种算法,用于使用正则化向量处理动态多尺度区间值数据集的监督增量特征选择。最近,Zhang和Zhao[15]提出了一种使用复合熵的通用多粒度FNRS,以更好地处理异构数据集并加速学习过程。Zhang和Shen[16]提出了一种基于图驱动的区间值数据集的特征选择方法,使用粒度矩形邻域粗糙集。总的来说,这些研究在抗噪声、多尺度处理和增量更新等方面推进了模糊粗糙邻域方法的发展。然而,许多方法仍然依赖于固定的邻域结构,缺乏处理严重类别不平衡的明确机制,并且在高效整合多尺度信息方面面临困难。
在模糊邻域粗糙集理论的各种扩展中,基于KNN的公式由于其简单性、可解释性和强大的实证性能而受到了特别关注。随着研究的深入,KNN模糊邻域粗糙集(KNN-FNRS)框架[17]作为一种有效工具出现,它通过利用样本K最近邻居的模糊隶属函数来近似决策类的下界和上界[11]。这种方法即使在类别边界重叠或属性值不精确的情况下也能便于评估特征的重要性。尽管取得了成功,但标准的KNN-FNRS模型仍存在几个关键限制。首先,它平等对待所有邻居的贡献[18]。其次,该模型对近似运算符[19]、[20]以及错误标记的样本[21]、[22]敏感,这些都可能扭曲邻域结构并降低特征选择的质量。在多数类样本远多于少数类实例的不平衡情况下,模型的全局加权方案无法突出罕见模式,导致少数类实例的检测效果较差[23]、[24]。此外,新兴方法越来越多地涉及多尺度数据[25]、[26]表示,如层次信号变换、多分辨率成像和多粒度特征[27],在这些情况下选择最具信息量的尺度会引入额外的复杂性[28]。通用多尺度信息系统(GMIS)[29]提供了一个灵活的框架,可以在多个尺度上编码数据,但在基于粗糙集的特征选择背景下,GMIS内的系统化尺度缩减仍鲜有探索[30]。
为了解决上述缺点(如表1所总结的),我们开发了一个统一的框架,该框架结合了适应性邻居加权、高效的多尺度缩减和增量特征选择。首先,我们提出了一个加权KNN模糊邻域粗糙集(WKNN-FNRS)模型,该模型根据类内标准差和样本质量评估值自适应调整邻居贡献。前者衡量一个实例与其同类邻居的匹配程度,后者量化其与其它类样本的可分性。通过将这些指标整合到模糊隶属函数中,WKNN-FNRS降低了噪声或边缘点的权重,并强调了高质量观测值,从而增强了对外部异常值的鲁棒性并减轻了类别不平衡的影响。
此外,我们将WKNN-FNRS模型嵌入到通用多尺度信息系统(GMIS)框架中,并开发了一种基于尺度的树缩减算法来识别最具区分性的尺度。具体来说,我们构建了一个层次化尺度树,并通过信息增益和冲突检测标准进行深度优先搜索;这一过程有效地修剪了冗余或无信息的尺度。这种基于尺度的树方法不仅简化了跨尺度的特征空间,还保留了对复杂模式识别任务可能至关重要的多尺度信息。
最终,考虑到现代数据流的动态性质[37]、[38],我们设计了一种动态特征选择(DFS)算法,随着样本或属性的变化逐步更新选定的特征子集。与要求完全重新训练的传统静态方法不同,我们的DFS算法利用加权粗糙集近似重新评估特征相关性,大大减少了计算开销,并能够在不断变化的环境中实现实时适应。本文的主要贡献总结如下。
1)通过在单一基于模糊粗糙集的框架内同时解决噪声敏感性和类别不平衡问题,WKNN-FNRS填补了现有文献中的一个关键空白。
2)基于尺度的树缩减算法和DFS程序共同实现了在静态多尺度和动态流式场景中的鲁棒特征选择,从而将其适用性扩展到了广泛的现实世界用例。
3)动态特征选择算法能够根据样本组成或特征特征的变化不断调整,从而在不同条件下有效去除冗余特征。
本文的其余部分组织如下。第2节回顾了模糊邻域粗糙集和通用多尺度信息系统的理论基础。第3节详细介绍了提出的WKNN-FNRS模型和权重计算方法。第4节描述了基于尺度的树缩减算法以及静态和动态特征选择程序。第5节介绍了实验设置、评估指标和比较结果。最后,第6节总结了本文并指出了未来研究的方向。
节选
初步介绍
在本节中,我们回顾了模糊邻域粗糙集(FNRS)的理论基础,这是所提出的特征选择框架的基础。此外,我们介绍了通用多尺度决策系统(GMSDS),这是我们方法中用于建模多尺度数据表示的关键组件。
加权KNN模糊邻域粗糙集
模糊邻域粗糙集通常依赖于固定的半径或全局阈值,这使得它们容易受到噪声和类别不平衡的影响。为了提高局部适应性,我们提出了一种基于加权KNN的变体,用特定于样本的最近邻居(KNN)替换了全局半径。
加权KNN模糊邻域粗糙集中的特征选择
本节介绍了我们的主要贡献:一种用于通用多尺度表格的尺度缩减程序、基于加权KNN模糊邻域粗糙集框架(SWKNNFS)的静态特征选择算法,以及支持增量更新的高效动态特征选择机制。
实验分析
在本节中,进行了一系列实验来验证对噪声的鲁棒性、在类别不平衡下的有效性、多尺度缩减的好处以及在动态环境中的效率。
结论
我们提出了WKNN-FNRS特征,这是一种用于通用多尺度决策系统的加权KNN模糊特征选择框架,它结合了三项创新来提高鲁棒性、可扩展性和效率:一种基于类内标准差降低异常值权重的加权模糊邻域粗糙集;一种将多尺度表格转换为保留信息的单尺度表示的基于尺度的树缩减方法;以及一种动态特征选择(DFS)机制
CRediT作者贡献声明
张晓燕:验证、监督、项目管理、方法论、调查、资金获取、概念化。王静文:写作 – 审稿与编辑、写作 – 原稿撰写、可视化、软件开发、调查、形式分析、数据管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争财务利益或个人关系。
致谢
本工作得到了中国国家自然科学基金(项目编号12371465)和中国重庆市自然科学基金(项目编号CSTB2023NSCQ-MSX1063)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号