稀有天体的识别是现代天文发现的基石,这得益于大规模天空调查产生的海量数据集(Li, Zhang, Cui, Shi, Ji, Huo, Gao, Zhang, Sun, 2024, Wu, Yuan, Wang, Niu, Zhang, 2024)。然而,这些天体的本质(通常很微弱且具有微妙的光谱特征)给自动化识别带来了重大挑战。一个典型的例子是Am星的光谱(Hou et al., 2015a)。它们的特征(用红线标出)不仅稀疏且弱,而且覆盖的像素数量极少。这导致了一个根本性问题:最具辨识度的特征本身可靠性较低,无法为模型的训练提供足够的信号。
我们可以通过三个关键属性来描述这些低可靠性特征(LRCs):(1)信噪比困境:数据中强烈、突出的特征往往不具备区分能力,而至关重要的弱特征则被噪声淹没;(2)稀疏性:可区分特征的轮廓覆盖的像素非常少,难以形成可靠的结构表示;(3)潜在相关性:尽管这些特征单独来看较弱,但它们数量众多,常常形成具有共同起源或对比特性的群体,暗示着隐藏和增强模式的存在。
这种LRCs的独特性质暴露了传统机器学习和深度学习方法的局限性。像支持向量机(SVM)(Cao, Liu, Hou, Fan, Zheng, Yin, 2020, Xu, Han, Nie, Li, 2019)、k-最近邻(KNN)(Deng, Zhu, Cheng, Zong, Zhang, 2016, Yu, Chen, Liu, You, Leung, Han, 2015, Zhang, Li, 2021)和决策树(Bian, Chung, Wang, 2022, Prokhorenkova, Gusev, Vorobev, Dorogush, Gulin, 2018, Xia, Wang, Chen, Duan, Liu, 2019)等传统模型难以建模定义LRCs的复杂高维关系和微妙相关性,从而限制了它们在这种复杂场景中的有效性。深度学习模型(Chang, Wang, Zhao, Li, Yuan, 2024, Zhang, Ye, Zhu, Liu, Guo, Yan, 2024)虽然在自动特征提取方面表现出强大能力,但需要大量标记数据才能有效收敛。这一要求与稀有天体识别的现实情况直接冲突,因为标记样本非常稀缺。
尽管一些结合深度学习和传统技术的混合方法显示出潜力(Ali, Mallaiah, 2022, Chen, Chen, Peng, Liu, Yang, Zhang, Liu, 2021, Okwuashi, Ndehedehe, 2020, Xiao, Liu, Wang, Si, 2022),但仍然存在显著的研究空白。具体来说,很少有研究专门建立用于增强、建模和利用LRCs的正式框架或方法。
总之,这项工作的主要动机可以归结为三个方面:(1)稀有天体的特征通常微弱、稀疏且噪声较大,使其本质上不可靠,难以实现自动化识别;(2)现有方法尚未为LRCs建立正式定义,对处理这些微妙模式的关注相对有限;(3)直接使用弱特征是不可靠的,而完全丢弃它们又可能丢失关键信息。为了解决这些问题,我们的研究通过利用特征之间的内在关系来增强它们的可靠性。
受这些动机的驱动,我们构建了一种方法,通过利用特征之间的亲缘关系和集体行为来提高LRCs的可靠性。我们首先正式定义了LRCs,并引入了亲缘特征来增强特征可靠性。随后通过回归分析确定了亲缘特征空间(KFS)。在此基础上,我们提出了基于KFS上集成回归误差的双区间矩阵,以探索特征空间内部和之间的有价值信息。这种创新方法将决策基础从直接的特征分析转移到稳定的宏观误差分布模式上,显著提高了识别的鲁棒性。最后,我们将这些组件整合到一个统一的LRCs识别模型中,有效克服了传统方法在处理弱、稀疏和噪声特征方面的局限性。本研究的主要贡献总结如下:
•为了更好地理解和处理复杂数据场景中的低可靠性信息,对低可靠性特征进行了正式描述。
•正式定义了亲缘特征的概念,用于表征来自相似或相反起源的一组特征。通过回归分析提供了亲缘特征空间提取方法。
•通过对KFS进行回归得到误差分布,构建了双区间矩阵。它通过区间成员比较实现了鲁棒的识别,将决策基础从不可靠的原始特征转移到稳定的宏观误差分布上。
•基于亲缘特征空间和双区间矩阵提出了一个低可靠性特征增强和识别模型。
本文的其余部分组织如下:第2节描述了相关工作。第3节介绍了低可靠性特征增强和识别模型。第4节展示了实验结果,以评估我们提出模型的性能。最后,第5节提供了对本文的简要总结。