探索天体分类:基于天体物理特征的机器学习方法,用于光谱和形态分析

《Astronomy and Computing》:Exploring celestial classification: Astrophysical features-guided machine learning for spectral and morphological analysis

【字体: 时间:2026年01月28日 来源:Astronomy and Computing 1.8

编辑推荐:

  天体分类研究基于光谱与形态分析,整合天文知识与机器学习方法优化特征,利用SDSS数据集训练随机森林(98%准确率)和YOLO系列深度学习模型(最高95.5%精度),系统提升分类效率与准确性,为宇宙演化研究提供新框架。

  
法鲁兹·西迪基博士(Md. Fairuz Siddiquee)| 梅赫迪·哈桑博士(Md Mehedi Hasan)| 西法特·E·阿尔曼(Shifat E. Arman)| 肖赫杜尔·伊斯兰博士(Md. Shahedul Islam)| AKM阿扎德(AKM Azad)
达卡大学机器人与机电一体化工程系,达卡,1000,孟加拉国

摘要

传统的天体分类方法基于光谱分析,有助于理解太阳辐射的特性和分布,从而有助于太阳帆技术的设计,并可能降低太空任务的能源成本。本研究通过将特征工程与天体物理学知识和原理相结合,利用机器学习(ML)方法对天体进行光谱和形态分类。这些见解使得特征集得到了精心改进,系统地消除了无关和非结构化数据,从而提高了模型的准确性和计算效率。通过对斯隆数字巡天(SDSS)数据集的分析,发现红移和近红外测量(i和z滤镜)是分类恒星、星系和类星体的关键光谱参数。特征选择将数据集从最初的17个特征简化为最相关的几个特征(u、g、r、i、z)和红移,从而提高了计算效率和模型准确性。随机森林分类器利用这些特征在所有类别中实现了最高的准确率(98%),超过了k最近邻(k-NN)和支持向量机(SVM)。对于形态分类,YOLOv5、YOLOv7和YOLOv8模型在定制的数据集上被训练用于将星系分为五种形态类别:椭圆星系、螺旋星系、不规则星系、合并星系和特殊星系。定量研究表明,YOLOv8在所有星系分类中实现了最高的性能,精确率为95.5%,总体召回率为73.7%,凸显了其在识别不同星系形态方面的有效性。这项全面的研究提高了模型的可解释性和准确性,强调了基于天体物理学的特征的有效性,并为天体物理学研究中的实时大数据分析建立了强大的框架,为工业应用提供了基于先进数据驱动方法的基准。

引言

天体分类是天体物理学的核心,对于理解宇宙的结构、演化和大尺度复杂性至关重要。天文对象包括可观测宇宙中任何自然存在的物理实体、群体或结构,如星系、行星系统、星团、星云、类星体、系外行星和脉冲星(Narlikar,1996)。现代观测技术的进步极大地增强了天文学家收集和分析数据的能力(Tyson,2010),从而催生了天体信息学(Borne,2010)这一领域,该领域专注于大规模天文数据集的有效分析,通常通过自动分类天文图像来实现(Ackermann等人,2018)。光谱分类通常用于根据天体的亮度、发射线和红移对其进行分类(Petrillo等人,2019),提供有关其组成、温度和相对速度的信息。光谱数据通常表示为不同波长下的光强度的数值测量。作为补充,形态分类基于望远镜成像得到的天体的视觉形状和结构特征(Zhu等人,2019)。特别是对于星系来说,天体的形态分类仍然是天文学中的一个核心问题,因为它对于限制宇宙结构形成和演化的模型至关重要(Zhu等人,2019)。
随着观测和计算技术的快速发展,迫切需要创新的分析方法来揭示天文数据中微妙且以前无法检测到的模式。本研究的一个核心目标是制定一个全面且方法论上稳健的天体光谱分类框架。在这个框架中,这些对象的空间坐标系统是一个关键的基础,能够检测到可能被掩盖的分布趋势和物理关系。如图1所示,天体的空间位置不仅决定了它们的分类,还增强了所得天体物理见解的可解释性。
在这一领域最具变革性的推动因素之一是斯隆数字巡天(SDSS),这一开创性的天文项目彻底改变了多波段观测数据的可用性和质量(Blanton等人,2017)。通过其广泛且精心校准的数据集,SDSS为详细研究各种天体物理实体的光谱和形态特性提供了前所未有的机会。然而,随着这些数据集的广度和复杂性的增加,传统分类方法在效率、可扩展性和准确性方面的局限性变得越来越明显。这促使先进计算范式(尤其是机器学习(ML)的应用融入天体物理学研究。其中,基于天体物理特征的机器学习方法作为一种特别有前景的方法出现,利用领域特定的物理原理来提高光谱和结构分类结果的可靠性和可解释性(Kotsiantis,2007;Ian H. Witten,2016)。
SDSS的贡献不仅限于其广泛的光谱目录;它还产生了迄今为止最详细的三维宇宙地图,为其第十七次数据发布(SDSS DR17)提供了观测基础(Blanton等人,2017)。在这个丰富的数据集范围内,星系被系统地分为五种主要的形态类别:螺旋星系、椭圆星系、特殊星系、不规则星系和合并星系,如图2所示。这些形态区分不仅仅是视觉分类,还与控制星系形成、演化和相互作用的物理过程密切相关。每个类别都包含独特的结构和动态特征,结合光谱特征进行分析,可以更全面地理解宇宙景观。这些类别如下:
  • 螺旋星系:这类星系具有平坦的旋转盘面,其中包含恒星、气体和尘埃,中心有一个由较老恒星组成的核球。螺旋臂从中心向外延伸,使其在视觉上非常独特(Hubble,1936;Kormendy和Kennicutt,2004)。
  • 椭圆星系:这些椭球形星系具有平滑、无特征的亮度轮廓。它们包含较老的恒星和较少的星际物质,因此几乎没有持续的恒星形成(Hubble,1936;Faber等人,1996)。
  • 特殊星系:这类星系无法整齐地归入其他类别,通常表现出不规则或不寻常的结构。它们可能是由星系之间的相互作用或合并形成的(Arp,1966)。
  • 不规则星系:这类星系没有像螺旋星系或椭圆星系那样的规则形状。它们具有活跃的恒星形成区域以及大量的气体和尘埃(Hubble,1936;Hunter和Elmegreen,2004)。
  • 合并星系:这些星系正在相互碰撞和合并过程中,常常形成复杂而混乱的结构(Barnes和Hernquist,1992)。
YOLO(You Only Look Once)系列以其实时对象检测能力而闻名,具有高准确性和效率。YOLOv5、YOLOv7和YOLOv8因其在处理大规模天文数据集时的稳健性而被选中,用于将星系分为五种形态类别。这些分类展示了星系形成和演化的多样性,利用了来自多个天区的优质数据以及先进技术,如光度滤镜、CCD相机和多目标光纤光谱仪,覆盖从紫外线到近红外的波长范围(Martinazzo等人,2020;Hasan等人,2022)。了解这些类别有助于解释星系的形成和发展过程,并揭示它们的过去、现在和未来。整合物理信息可以提高模型的解释能力,并提供对潜在天体物理过程的洞察(Ackermann等人,2018)。本研究的主要贡献包括:
  • 1.
    天体数据的探索性分析:本研究以SDSS数据集为起点,该数据集提供了关于类星体、恒星和星系等天体的光谱和形态数据。通过探索性数据分析(EDA)来识别模式并改进特征集,重点关注关键的光谱指标,如红移和近红外滤镜。
  • 2.
    预处理与特征优化:随后对数据进行预处理和特征选择,以发现关键变量并消除噪声,从而便于分类。光谱分析是使用KNN、SVM和RF等深度学习(ML)方法进行分类的基础,最终确定了用于分类恒星、星系和类星体的最佳模型。
  • 3.
    用于星系形态的深度学习(DL):接下来重点转移到前一步骤中执行的星系形态分析。在选定的数据集上训练DL模型(YOLOv5、YOLOv7、YOLOv8),根据性能评估将星系分类为螺旋星系、椭圆星系、特殊星系、不规则星系和合并星系。该框架结合了数据驱动的DL方法和天体物理学概念,建立了全面的天体分类系统。
本文的其余部分结构如下:相关工作部分回顾了该领域之前的研究,重点介绍了使用机器学习对天文对象进行分类的方法。方法论部分概述了利用SDSS数据进行光谱和形态分类的框架,包括使用随机森林(Random Forest)进行光谱分析和YOLO模型进行形态分类。结果与分析部分展示了这些模型的性能,并详细比较了它们的准确性和有效性。最后,结论部分总结了研究结果,并提出了利用更大数据集提高分类准确性的未来研究方向。

相关研究

相关研究

许多研究已经有效地在天文学中利用机器学习对对象进行分类和分割。卷积神经网络(CNN)在识别星系、恒星和其他天体方面取得了显著的成功。将这些方法与物理知识相结合显著提高了分类的准确性。然而,在将ML与天体分类的特征分析技术结合方面仍有许多值得探索的地方。González等人(2018)开发了

方法论

天体物理学研究依赖于天体的光谱和形态特征,以加深我们对宇宙学的理解。在这项工作中,我们利用斯隆数字巡天(SDSS)第17次数据发布的数据,结合广泛的探索性数据分析(EDA)、机器学习和深度学习技术,根据天体的光谱和形态特性对其进行分类。图3展示了所提出方法论的整体工作流程

结果与分析

结果部分包括三个部分。首先,我们将研究EDA的发现。将分析光谱分析的成果,并讨论EDA对数据集分层的影响,随后讨论形态分类并比较不同策略以确定最佳方案。

结论

本研究利用基于天体物理学的特征和先进的神经网络解决了天体分类这一具有挑战性的问题。传统的机器学习技术,如k-NN、SVM和随机森林,在使用SDSS光谱数据对恒星、星系和类星体进行分类方面是有效的,其中随机森林实现了最高的准确率。YOLOv5、YOLOv7和YOLOv8被用于星系形态分类,其中YOLOv8表现最为有效,提供了高

CRediT作者贡献声明

法鲁兹·西迪基博士(Md. Fairuz Siddiquee):撰写——原始草稿、可视化、验证、软件、正式分析、数据管理。梅赫迪·哈桑博士(Md Mehedi Hasan):撰写——审阅与编辑、撰写——原始草稿、可视化、验证、监督、软件、资源、概念化。西法特·E·阿尔曼(Shifat E. Arman):撰写——审阅与编辑、撰写——原始草稿、可视化、资源、方法论、调查、正式分析。肖赫杜尔·伊斯兰博士(Md. Shahedul Islam):项目管理、方法论、调查

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号