一种利用排列来表示类别偏差以生成排列质量函数的新方法

《Expert Systems with Applications》:A novel method for generating permutation mass functions using permutations to represent class bias

【字体: 时间:2026年03月14日 来源:Expert Systems with Applications 7.5

编辑推荐:

  随机排列集合理论(RPST)通过整合排列信息增强不确定性建模能力。本文提出基于样本偏斜的排列质量函数(PMF)直接生成方法,利用样本均值及上下界构建非支持因子,结合无重复选择机制实现排列事件概率分配,有效降低计算复杂度并避免传统扩展方法的信息损失。实验表明该方法在Iris、Wine等6个UCI数据集上分类准确率显著优于基线方法。

  
李美珠|李林山|张志轩|张琦
江苏大学计算机科学与通信工程学院,镇江,212013,中国

摘要

随机排列集理论(RPST)通过整合排列信息,扩展了Dempster-Shafer证据框架,从而增强了其表示不确定性的能力。在RPST中,排列质量函数(PMF)是量化的基本工具。虽然将基本概率分配(BPA)转换为PMF是一种可行的策略,但开发针对随机排列集(RPS)拓扑结构的直接生成方法在更好地捕获基于序列的信息方面具有巨大潜力。为此,本研究提出了一种基于排列表示中样本偏差的PMF生成方法。其核心创新在于仅对包含所有基本事件的排列事件分配非零值,而不是对所有排列事件都分配值。这种设计有两个显著优势:首先,通过为排列序列生成置信度分数,该方法即使在高冲突情况下也能保持相对类别偏差,避免了反直觉的结果。其次,通过专注于完整的排列事件来优化生成过程,与处理整个幂集相比,有效地减少了计算冗余。在六个不同的UCI机器学习数据集上进行了实验验证:Iris、Wine、Oil Spill、Seeds、Heart Disease和Australian。结果表明,与基于高斯分布的基线方法相比,所提出的方法实现了更高的分类准确性,证明了其在实际不确定性建模任务中的有效性和鲁棒性。

引言

在计算机科学和实际工程应用中,各种形式的不确定性普遍存在,并且往往难以消除(Su, Shang, Xu, Qian, & Pan (2024); Zhang, Li, Li, & Xiao (2024a); Zhang, Ruan, Li, & Zhang (2023))。为了应对这些挑战,已经开发了许多理论框架来在不确定性下进行建模和推理(Li, Chen, & Feng (2012); Zhang, Deng, Ding, & Li (2024b),包括概率论(Chen, Pan, & Yang (2025))、Dempster–Shafer证据理论(Li, Li, & Zhang (2024c)、模糊集(de Andrés-Sánchez (2023))、直觉模糊集(Alreshidi, Shah, & Khan (2024))等(Den?ux (2023); Su, Huang, Pan, & Meng (2026); Xiao (2023); Zhou, Pedrycz, & Deng (2024a))。在这些方法中,Dempster–Shafer证据理论的特点在于它能够在幂集上而不是直接在样本空间上分配信念度。这一特性使得证据理论能够明确区分“无知”和“不确定性”(Hu, Zhou, Li, Deng, & Cheong (2024)),从而提供了对认知模糊性的更富有表现力的表示。由于这一优势,证据理论已广泛应用于涉及不确定性建模的实际场景中,如风险评估(Sezer, Akyuz, & Arslan (2022))、故障诊断(Lin, Li, Yin, & Dou (2018)和信息融合(Deng & Jiang (2025); Fei, Li, & Ding (2024); Zhang, Li, & Xiao (2021); Zhang, Xue, Li, & Cotton (2025))。
然而,在构建幂集时,传统的证据理论(Dempster (2008); Shafer (1976) 忽略了集合内不同排列所传递的信息。因此,在Dempster–Shafer框架下的信念分配可能会遭受信息损失,这限制了其在排序信息有意义的场景中的区分能力。受组合原理的启发,并受到帕斯卡三角形的启发,Deng (2022) 提出了随机排列集(RPS)理论,该理论用排列替换了幂集中的组合,从而有效解决了上述信息损失问题。在RPS理论中(Wang, Zhou, & Deng (2025); Zhou, Pedrycz, & Deng (2024b)),证据理论的幂集被排列事件空间(PES)和排列质量函数(PMF)所取代,其中PES包含集合内所有可能的排列。PES中的每个排列都被视为一个独立的排列事件(Li, Li, & Zhang (2024b),并且PMF用于量化这些事件的可能性。值得注意的是,RPS理论与证据理论和概率论都兼容,同时继承了证据理论的几个有利属性(Chen, Deng, & Cheong (2023b); Zhao, Li, & Deng (2023))。
现有的关于RPS理论的研究主要集中在其基本定义和理论属性上。例如,提出了一种用于随机排列集的不确定性度量方法,称为随机排列集熵(Chen & Deng (2024),它是Deng熵和Shannon熵的泛化。当忽略排列事件中元素的顺序时,这种熵简化为Deng熵(Deng (2016);当排列事件只包含单个元素时,它退化为Shannon熵(Lin (1991))。此外,还研究了最大熵原理(Deng & Deng (2022)在RPS框架内的兼容性,证明当忽略排列顺序时,它简化为最大Deng熵。为了进一步提高RPS理论的适用性,提出了重复随机排列集及其相应的正交和规则(Wang, Li, & Deng (2024),以及关于一致性、伪Matthew效应(Chen et al. (2023b); Yang & Deng (2022)和结合性的研究,这些共同为决策支持系统建立了理论基础。RPS理论中辨别框架组成的变化也可以扩展到事件系统中配置的局部化,这也与不同物理系统中的局部熵相关(Li & Zhang (2025))。然而,专门针对排列质量函数的有效生成的研究仍然相对有限。
在RPS理论的实际应用中,生成可靠的PMF是一个关键问题,类似于在Dempster–Shafer证据理论中生成基本概率分配(BPAs)。到目前为止,已经开发了多种BPA生成方法,包括基于区间数模型的方法(Li, Xie, Jin, & Zhou (2024a))、冲突度量(Zhang & Deng (2017)、核心样本(Zhang, Hu, Chan, Sadiq, & Deng (2014))、高斯分布模型(Xu, Deng, Su, & Mahadevan (2013)和三角模糊数(Ma & Xiao (2019))。此外,还提出了用于开放世界识别的BPA生成方法,例如基于混淆矩阵的方法(Deng, Liu, Deng, & Mahadevan (2016)和模糊朴素贝叶斯模型(Liu, Pal, Marathe, & Lin (2017))。这些研究显著促进了BPA生成技术的发展,其基本思想可以扩展到RPS框架内的PMF生成。然而,将BPA生成模型直接扩展到RPS理论引入了一个根本的理论不一致性:BPA生成将信念分配给无序子集(例如,{A, B)来表示无知,而PMF生成必须将信念分配给有序序列(例如,(A, B) 对比 (B, A))来表征偏好或排名偏差。此外,许多传统的生成方法依赖于限制性假设,如高斯分布,这些假设在现实世界数据中可能不成立。因此,从数学上讲,有必要开发一种不受分布假设限制的数据驱动PMF生成方法,该方法明确模拟了类别之间的排名优先级。
在这项研究中,我们首次提出了一种基于数据均值以及上下界的有效PMF生成方法。与启发式或依赖分布的方法不同,所提出的方法基于特征空间的拓扑结构。具体来说,引入了一个“非支持因子”来量化样本属于特定类别的抵抗力,并采用了一种“不放回选择”机制将这些因子转换为排列序列的概率分布。这种策略不仅保留了在无序表示中会丢失的排序信息,还将计算复杂性从指数级降低到因子级。基于统计特性,构建了运算符来模拟排列事件的支持程度,并对结果值进行归一化以获得最终的PMF。
此外,还基于所提出的PMF生成方法设计了一种分类算法,并将其与基于RPS的融合框架集成。为了消除融合策略选择的影响,采用了四种融合方法进行比较:距离加权融合、排列JS散度加权融合、SRP散度加权融合和混合距离-熵加权融合方法。为了进一步验证所提出的PMF生成策略的有效性,与现有的基于高斯分布的PMF生成方法进行了比较。在六个具有不同规模和特征的UCI基准数据集上进行了广泛的实验,包括Iris、Wine、Oilspill、Seeds、Heart Disease和Australian,以确保结论的鲁棒性和普遍性。实验结果证明了所提出的分类算法的有效性,并确认了所提出的PMF生成方法的鲁棒性。
本研究的主要贡献总结如下:
  • 1.
    提出了一种新的直接PMF生成方法。与传统的BPA到PMF扩展策略不同,所提出的方法直接利用数据均值和边界来明确建模类别排名优先级,从而避免了严格的分布假设,如高斯性。
  • 2.
    建立了一个基于RPS的融合和分类框架。
    引入了一个“非支持因子”来衡量样本和类别之间的分离,并结合“不放回选择”机制来构建有效的PMF。这种设计在高冲突条件下减轻了反直觉的融合结果。
  • 3.
    进行了全面的实验验证。
    所提出的方法在六个具有不同规模和属性类型的基准数据集(Iris、Wine、Oilspill、Seeds、Heart Disease和Australian)上与最先进的方法进行了评估。统计分析显示分类准确性显著提高。
  • 本文的其余部分组织如下。第2节介绍了证据理论和随机排列集理论所需的背景知识。第3节详细介绍了所提出的PMF生成方法。第4节在多个基准数据集上进行了广泛的实验,以评估所提出方法的有效性。最后,第5节总结了本文并概述了未来研究的潜在方向。

    章节片段

    初步

    本节提供了理解本文所需的基础概念,主要是介绍D-S证据理论和随机排列集理论的一些概念。

    基于样本界限和样本均值生成排列质量函数

    在本节中,我们介绍了使用排列来表示样本偏差的动机。基于这一想法,我们详细解释了如何使用样本的下界和上界以及均值来构建排列质量函数。此外,还基于Iris数据集进行了数值计算,以帮助读者更清晰、更直观地理解所提出程序的每个步骤。

    实验

    在本节中,我们应用了之前详细介绍的排列质量函数生成方法,并结合了已建立的融合规则来解决分类问题。在包括Iris、Wine、Oilspill、Seeds、Heart Disease和Australian在内的多种UCI机器学习数据集上进行了实验验证。我们将我们的方法与基于高斯分布的生成方法进行了基准测试,以证明所提出框架的有效性和鲁棒性。

    结论

    本文提出了一种新颖的数据驱动框架,用于通过利用随机排列集(RPS)理论中的样本均值和上下界约束来生成排列质量函数(PMFs)。与依赖现有基本概率分配(BPA)生成方法扩展或严格参数假设的传统方法不同,我们的方法利用RPS的固有拓扑属性直接表示信任偏差。

    未引用参考文献

    图6、图10、图12、图14;表5;表10、表11、表15

    CRediT作者贡献声明

    李美珠:概念化、方法论、写作——审阅与编辑。李林山:方法论、写作——审阅与编辑、初稿撰写。张志轩:可视化。张琦:写作——审阅与编辑、监督、概念化、方法论。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号