自适应邻域粗糙集模型中针对异构数据的区间值测试成本敏感特征选择

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Interval-valued test cost sensitive feature selection for heterogeneous data in adaptive-neighborhood rough set model

【字体：大中小】 时间：2026年03月16日 来源：Neurocomputing 6.5

编辑推荐：

　　针对异构数据中测试成本难以精确量化的问题，本文提出基于自适应邻域粗糙集的区间值测试成本敏感特征选择方法，通过数据驱动的参数自适应邻域半径设计解决传统方法固定半径的局限性，结合区间概率度排名方法量化不确定成本，构建特征重要性评估函数，设计启发式算法平衡分类性能与测试成本，并开发新评估指标验证效果，实验表明该方法在高风险场景中表现优异。

　　
论文聚焦于异构数据环境下不确定测试成本敏感特征选择的关键挑战，提出基于自适应邻域粗糙集的区间值测试成本优化方法。该方法突破传统固定邻域半径的局限性，通过构建动态调整的邻域结构，有效适配多源异构数据的分布特征。在成本量化方面，创新性地引入区间值测试成本概念，解决了实际场景中成本评估存在的不确定性问题。

研究首先建立异构数据自适应邻域粗糙集模型（ANRS）。该模型突破传统单特征邻域划分思路，通过跨特征距离度量构建动态邻域结构。具体而言，采用对象间多特征综合距离作为邻域划分基准，同时建立双向邻域交互机制：当两个样本在多特征空间中的距离同时小于各自设定的邻域半径时，才构成邻域关系。这种双向约束机制既避免了单一固定半径导致的过度聚类或欠聚类问题，又有效控制了异构数据中不同量纲特征对邻域划分的干扰。

在成本量化方面，研究提出区间概率度排名（PDR）方法。该方法将传统确定型成本转化为区间值表示，允许测试成本存在上下限的不确定性。通过构建区间值的概率分布模型，创新性地将模糊数学中的概率测度理论引入特征重要性评估，使算法能够自动适应不同风险偏好的应用场景。特别在医疗诊断等高风险领域，该机制能有效应对专家经验评估的区间波动。

核心算法设计融合了邻域粗糙集的特征约简原理和成本敏感优化思想。研究提出双权重特征评估指标，将信息熵与区间测试成本进行动态平衡。启发式算法采用贪心迭代策略，通过构建特征重要性优先级队列，逐步优化特征子集。关键创新在于设计自适应邻域半径调整机制，根据当前特征子集的分布密度自动调整邻域划分尺度，确保算法在稀疏数据区域能够保持足够分辨率，而在密集区域有效抑制噪声干扰。

为验证算法有效性，研究构建了包含两个维度的评估体系：成本-性能均衡指数（CEPI）和风险可控度（RCD）。CEPI通过特征子集的累计成本与分类准确率的比值量化平衡效果，RCD则从极端成本波动下的鲁棒性角度评估算法稳定性。实验选取UCI、Kaggle等12个异构数据集进行测试，其中包含3个高风险医疗数据集和2个工业设备故障数据集。

对比实验显示，提出的PDR-IVTCFS算法在以下方面显著优于基准方法：1）在保持95%以上分类精度的条件下，总测试成本平均降低42.7%；2）针对区间成本上下限波动（±15%），算法性能下降幅度仅为传统方法的1/3；3）在包含缺失值和异常值的工业数据集上，特征子集的泛化准确率提升19.3%。特别是在医疗诊断场景中，算法成功将误诊风险降低至传统方法的28%，同时实现检测成本降低37%。

研究还发现，传统基于固定邻域半径的NRS模型在处理多源异构数据时存在显著局限。例如，在金融风控数据集中，固定半径会导致20%以上的正常交易样本被错误归类为高风险邻域。而本文提出的自适应邻域机制，通过动态调整半径（范围在0.3-0.8倍特征标准差之间），使邻域划分准确率提升31.6%，且计算复杂度降低约40%。

未来研究计划包括：1）将该方法扩展至时序异构数据场景；2）开发基于强化学习的动态成本感知特征选择框架；3）构建多准则优化模型，整合能耗成本、时间成本等多元成本因素。这些扩展方向将进一步提升算法在智慧城市、工业物联网等复杂场景的应用价值。

该研究为处理高维异构数据中的不确定成本特征选择问题提供了新的方法论，特别是在医疗诊断、金融风控等高风险领域展现出重要应用价值。提出的动态邻域建模与区间概率评估机制，有效解决了传统方法在参数敏感性、成本量化模糊性等方面的固有缺陷，为构建成本-性能最优特征子集提供了可靠的理论基础和实践指导。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号