基于亲缘特征空间的低可靠性特征增强与识别

【字体: 时间:2026年02月14日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对天文大数据中微弱、稀疏的低可靠性特征(LRCs)识别难题,提出基于亲属特征空间(KFS)和双间隔矩阵的增强方法。通过回归分析构建KFS,利用集成回归误差生成双间隔矩阵,从宏观误差分布提升模型鲁棒性,实验验证优于传统方法。

  
严婷何|海峰杨|江辉蔡|瑞王|玉清杨|晨辉石|梅红苏|旭军赵|雅玲迅
太原科技大学电子信息工程学院,中国山西省太原市030024

摘要

在大量的目标检测和搜索应用中,尤其是在天文大数据领域,特征识别的可靠性有限仍然是一个至关重要但极具挑战性的任务。对于具有微弱特征的对象、高维稀疏数据集以及新未知属性的识别来说,这一挑战尤为严峻。提高特征的可信度并挖掘潜在的相关特征以增强模型的区分能力是主要的切入点。在这项工作中,我们提出了一个专门用于增强特征可靠性和识别的模型,旨在全面探索和最大化利用其内在潜力和有效特征。首先,我们对低可靠性特征进行了正式描述,以便更好地理解和处理复杂数据场景中的低可靠性信息。其次,定义了亲缘特征来表征来自相似或相反起源的一组特征。这些特征总是表现出正相关或负相关,通过整合或叠加这些特征可以提高它们的可靠性。同时,通过回归分析提供了亲缘特征空间(KFS)提取方法。KFS在有效区分特征方面具有理论优势。第三,通过对KFS进行集成回归得到的双区间矩阵,将决策基础从不可靠的原始特征转移到稳定的宏观误差分布上。最后,在公共数据集和天文光谱中的实验结果验证了我们的方法优于基线方法。代码可在https://github.com/yanting-he/Low-reliability获取。

引言

稀有天体的识别是现代天文发现的基石,这得益于大规模天空调查产生的海量数据集(Li, Zhang, Cui, Shi, Ji, Huo, Gao, Zhang, Sun, 2024, Wu, Yuan, Wang, Niu, Zhang, 2024)。然而,这些天体的本质(通常很微弱且具有微妙的光谱特征)给自动化识别带来了重大挑战。一个典型的例子是Am星的光谱(Hou et al., 2015a)。它们的特征(用红线标出)不仅稀疏且弱,而且覆盖的像素数量极少。这导致了一个根本性问题:最具辨识度的特征本身可靠性较低,无法为模型的训练提供足够的信号。
我们可以通过三个关键属性来描述这些低可靠性特征(LRCs):(1)信噪比困境:数据中强烈、突出的特征往往不具备区分能力,而至关重要的弱特征则被噪声淹没;(2)稀疏性:可区分特征的轮廓覆盖的像素非常少,难以形成可靠的结构表示;(3)潜在相关性:尽管这些特征单独来看较弱,但它们数量众多,常常形成具有共同起源或对比特性的群体,暗示着隐藏和增强模式的存在。
这种LRCs的独特性质暴露了传统机器学习和深度学习方法的局限性。像支持向量机(SVM)(Cao, Liu, Hou, Fan, Zheng, Yin, 2020, Xu, Han, Nie, Li, 2019)、k-最近邻(KNN)(Deng, Zhu, Cheng, Zong, Zhang, 2016, Yu, Chen, Liu, You, Leung, Han, 2015, Zhang, Li, 2021)和决策树(Bian, Chung, Wang, 2022, Prokhorenkova, Gusev, Vorobev, Dorogush, Gulin, 2018, Xia, Wang, Chen, Duan, Liu, 2019)等传统模型难以建模定义LRCs的复杂高维关系和微妙相关性,从而限制了它们在这种复杂场景中的有效性。深度学习模型(Chang, Wang, Zhao, Li, Yuan, 2024, Zhang, Ye, Zhu, Liu, Guo, Yan, 2024)虽然在自动特征提取方面表现出强大能力,但需要大量标记数据才能有效收敛。这一要求与稀有天体识别的现实情况直接冲突,因为标记样本非常稀缺。
尽管一些结合深度学习和传统技术的混合方法显示出潜力(Ali, Mallaiah, 2022, Chen, Chen, Peng, Liu, Yang, Zhang, Liu, 2021, Okwuashi, Ndehedehe, 2020, Xiao, Liu, Wang, Si, 2022),但仍然存在显著的研究空白。具体来说,很少有研究专门建立用于增强、建模和利用LRCs的正式框架或方法。
总之,这项工作的主要动机可以归结为三个方面:(1)稀有天体的特征通常微弱、稀疏且噪声较大,使其本质上不可靠,难以实现自动化识别;(2)现有方法尚未为LRCs建立正式定义,对处理这些微妙模式的关注相对有限;(3)直接使用弱特征是不可靠的,而完全丢弃它们又可能丢失关键信息。为了解决这些问题,我们的研究通过利用特征之间的内在关系来增强它们的可靠性。
受这些动机的驱动,我们构建了一种方法,通过利用特征之间的亲缘关系和集体行为来提高LRCs的可靠性。我们首先正式定义了LRCs,并引入了亲缘特征来增强特征可靠性。随后通过回归分析确定了亲缘特征空间(KFS)。在此基础上,我们提出了基于KFS上集成回归误差的双区间矩阵,以探索特征空间内部和之间的有价值信息。这种创新方法将决策基础从直接的特征分析转移到稳定的宏观误差分布模式上,显著提高了识别的鲁棒性。最后,我们将这些组件整合到一个统一的LRCs识别模型中,有效克服了传统方法在处理弱、稀疏和噪声特征方面的局限性。本研究的主要贡献总结如下:
  • 为了更好地理解和处理复杂数据场景中的低可靠性信息,对低可靠性特征进行了正式描述。
  • 正式定义了亲缘特征的概念,用于表征来自相似或相反起源的一组特征。通过回归分析提供了亲缘特征空间提取方法。
  • 通过对KFS进行回归得到误差分布,构建了双区间矩阵。它通过区间成员比较实现了鲁棒的识别,将决策基础从不可靠的原始特征转移到稳定的宏观误差分布上。
  • 基于亲缘特征空间和双区间矩阵提出了一个低可靠性特征增强和识别模型。
  • 本文的其余部分组织如下:第2节描述了相关工作。第3节介绍了低可靠性特征增强和识别模型。第4节展示了实验结果,以评估我们提出模型的性能。最后,第5节提供了对本文的简要总结。

    章节片段

    低可靠性特征识别

    LRCs在许多场景中普遍存在,例如稀有天体识别、早期故障诊断(Jiang, Hu, Yang, Liu, & Du, 2025)和疾病诊断。单独的LRCs可能不适合准确识别目标。然而,大量LRCs组合在一起可以形成一个强大的识别器。一些研究使用信号处理方法(如小波变换和傅里叶变换)来分析LRCs(Jalayer, Orsenigo, Vercellis, 2021, Ribeiro Junior, dos Santos

    低可靠性特征增强和识别模型

    本节介绍了所提出的模型。如图2所示,我们的模型框架由两个模块组成:KFS和双区间矩阵。

    实验

    本节描述了数据集、评估指标和参数。展示了我们的方法与其他最先进方法之间的实验结果和比较分析。

    结论

    在本文中,我们提出了一个基于亲缘特征空间的低可靠性特征识别模型。首先,对低可靠性特征进行了正式描述。其次,引入了亲缘特征的概念以提高特征可靠性。然后,通过回归分析开发了KFS的提取方法。理论上证明了这个特征空间的竞争力。第三,我们从误差中获得了双区间矩阵

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号