超新星评分在主动异常检测中的应用
《Astronomy and Computing》:Supernova scores for active anomaly detection
【字体:
大
中
小
】
时间:2026年05月11日
来源:Astronomy and Computing 1.8
编辑推荐:
T.A. Semenikhin | M.V. Kornilov | M.V. Pruzhinskaya | V.V. Krushinsky | K.L. Malanchev | A.V. Dodin
莫斯科罗蒙诺索夫国立大学,斯特恩伯格天文研究所,Universitetsky p
T.A. Semenikhin | M.V. Kornilov | M.V. Pruzhinskaya | V.V. Krushinsky | K.L. Malanchev | A.V. Dodin
莫斯科罗蒙诺索夫国立大学,斯特恩伯格天文研究所,Universitetsky pr. 13,莫斯科,119234,俄罗斯
摘要
大规模时间域天空调查生成了大量的多年光变曲线目录,其中科学价值高的瞬变现象(如超新星SNe)远远少于人工噪声和常规恒星变化。虽然监督式机器学习模型能够高效地过滤已知类别,但它们在处理极端类别不平衡时存在困难,并可能忽略罕见或新出现的事件。相反,无监督异常检测方法具有广泛的发现潜力,但缺乏针对性。我们提出了一种混合策略,将该策略中的监督式超新星概率得分(SN-score)整合到PineForest主动异常检测框架中,以提高Zwicky瞬变设施第23次数据发布中的超新星发现率。我们使用ZTF Bright Transient Survey中光谱学确认的超新星的光变曲线特征训练了一个二元分类器,达到了ROC-AUC ≈ 0.98的成绩。将SN-score作为额外特征,并结合一小部分标记的先验信息,显著加速了在十个外星系ZTF领域中发现类超新星事件的速度。该方法提高了发现效率,同时不影响识别各种天体物理异常的能力。应用这种组合方法后,发现了七个之前未报告的超新星候选体、一个活动星系核(AGN)候选体、一个不寻常的银河系变星SNAD283,以及两个多次出现超新星事件的宿主星系。这些结果证明了该方法在当前和未来的 surveys 中进行可扩展且专家指导的瞬变现象搜索中的价值,包括Vera C. Rubin天文台的空间与时间遗产调查。
引言
时间域天文学已经进入了数据量前所未有的时代。现代的大规模天空调查,例如Zwicky瞬变设施(ZTF,Bellm等人,2019年)和即将启动的Vera C. Rubin天文台空间与时间遗产调查(LSST,LSST科学合作组织等,2009年),每晚可产生数十万到数百万个警报,揭示了多种多样的变星和瞬变天体物理现象。在这种规模下,识别稀有且具有科学价值的瞬变现象变得极具挑战性。许多检测结果实际上是由仪器噪声、大气或观测条件引起的虚假信号,或是非天体性质的对象(Masci等人,2019年;Mahabal等人,2019年;Malanchev等人,2021年;Karpov和Peloton,2023年)。即使在真实信号中,也只有少数可能与特定科学目标相关,而其余的则是对特定研究项目而言兴趣不大的背景变化。数据量与科学价值之间的这种不平衡激发了开发高效自动方法的需求,以区分罕见的、高价值的瞬变事件和大量的常规检测结果。
传统的瞬变分类流程依赖于在标记数据集上训练的监督式机器学习模型(Richards等人,2011年;Bloom等人,2012年;Wright等人,2015年)。尽管这些模型在过滤天体物理事件和人工噪声(Aldering等人,2002年;Bailey等人,2007年;Duev等人,2019年)以及区分不同类型的瞬变现象方面取得了高性能,但它们本质上难以应对类别不平衡问题,也无法自然适应新的或罕见的事件。同时,纯粹的无监督异常检测方法已成为在大型未标记数据集中发现意外事件的强大工具(Pruzhinskaya等人,2019年;Webb等人,2020年;Malanchev等人,2021年;Villar等人,2021年)。然而,除非明确指导,否则这些方法往往缺乏对特定对象类别的敏感性(Majumder等人,2024年;Pruzhinskaya等人,2023年)。
主动异常检测框架结合了无监督学习的优势与专家反馈,使得能够在庞大的天文数据集中迭代探索罕见事件(例如Ishida等人,2021年;Kornilov等人,2025年;Gómez等人,2025年)。通过以人类标签或先例示例的形式整合领域知识,这些方法提供了一种灵活且可扩展的策略,以实现有针对性的发现,同时保留检测其他天体物理异常的能力。实际上,一个关键挑战在于如何利用关于已知稀有类别(如超新星)的可用信息,而不影响算法发现真正意外对象的能力。
本研究延续了我们基于以下理念的研究路线:监督式二元分类器的输出可以用作主动异常检测框架中的信息和有效特征。这种方法的核心概念是用编码特定对象类别先验知识的分类器得分来扩展特征空间。在之前的工作中(Semenikhin等人,2025年),我们实现了一个真实-虚假分类器,其中输出概率(人工噪声与天体物理对象)被用作异常检测流程中的额外特征。这种方法通过显著减少返回候选体中的人为噪声数量证明了其有效性。在这项工作中,我们将同一概念应用于超新星(SNe)。
我们开发了一个监督式二元分类器,用于区分超新星(SNe)和非超新星(non-SNe),使用来自Zwicky瞬变设施Bright Transient Survey(ZTF BTS,Perley等人,2020年)的SNe列表与ZTF第23次数据发布(DR23)进行交叉匹配。然后,计算出的近四百万个对象在ZTF DR23中的十个外星系场的SN概率得分(SN-score)被用作PineForest主动异常检测框架中的额外信息特征(Ishida等人正在准备中)。
文章的结构如下:第2节描述了本研究中使用的数据集;第3节概述了预处理流程;第4节介绍了二元超新星分类器;第5节介绍了主动异常检测框架,并探讨了整合提出的SN-score的影响;第6节提出了主要发现;第7节给出了结论;最后,附录A列出了所有特征,附录B讨论了特征的重要性及类别平衡。
**Zwicky瞬变设施**
在这项工作中,我们使用了Zwicky瞬变设施的数据。ZTF是在美国加利福尼亚州的帕洛玛天文台进行的,使用了一台1.26米的Samuel Oschin望远镜,视场约为47平方度。该调查在三个光度波段(zg、zr、zi,Bellm等人,2019年)进行。ZTF的数据以两种格式提供:警报和数据发布。警报实时发布,而数据发布包含光变曲线数据。
**特征提取**
在机器学习中,在将特定算法应用于数据之前,通常需要进行一个中间步骤——特征提取。在我们的案例中,这一步非常关键,因为ZTF数据集中的光变曲线在时间上的采样是不规则的,且长度各不相同。为了将数据转换为适合分析的表格格式,我们使用了Python库light-curve2(Malanchev等人,2021年),该库能够提取特征。
**二元超新星分类器**
我们采用了标准的监督式分类方法,每个对象都由一组初始特征表示。在训练期间,这些特征与类别标签一起提供给模型,使其能够学习特征空间与对象类型之间的映射。在推理过程中,模型只接收未标记对象的特征向量,并输出一个连续的SN-score,该分数可以解释为对象是超新星的概率。
**异常检测**
异常检测的概念是在未标记的数据集中识别不寻常的天体物理对象。在我们的案例中,我们在主数据集的一个小子集中寻找此类对象——具体来说,是在选定的10个字段中(见第2.1节)。一般来说,异常检测通过将对象表示在某个特征空间中(在我们的案例中是光变曲线特征),然后将其输入模型来估计该空间内对象的密度分布,并对它们进行排名。
**在ZTF DR23中发现的瞬变现象和特殊情况**
在开发二元分类器和随后的PineForest实验过程中,在ZTF DR23中发现了七个之前未报告的超新星候选体、一个活动星系核(AGN)候选体和一个不寻常的变星。尽管所有这些事件都出现在ZTF警报流中(由分配的ZTF ID标识),但它们没有被 broker 流程标记为值得注意的对象,因此未能及早被关注。所有发现的对象都已提交给Transient Name Server。
**结论**
在这项工作中,我们引入了一种SN-score,旨在增强宽场时间域天文调查中的主动异常检测。利用ZTF DR23的光变曲线和BTS的光谱学确认事件,我们构建了一个能够区分超新星和非超新星源的二元分类器。该分类器取得了高性能(ROC-AUC ≈ 0.98),并提供了一个可以作为异常检测算法额外特征的定量分数。
**作者贡献声明**
T.A. Semenikhin:撰写——原始草案、可视化、验证、监督、软件、方法论、研究、正式分析。
M.V. Kornilov:软件、概念化。
M.V. Pruzhinskaya:撰写——审阅与编辑、研究、正式分析。
V.V. Krushinsky:研究。
K.L. Malanchev:软件。
A.V. Dodin:研究。
**利益冲突声明**
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
**致谢**
T. Semenikhin、M. Kornilov和M. Pruzhinskaya感谢俄罗斯科学基金会(项目编号24-22-00233,https://rscf.ru/en/project/24-22-00233/)在概念化、提出的算法软件开发、实验进行以及结果分析方面的支持;T. Semenikhin还感谢理论物理与数学进步基金会“BASIS”在GitHub上将提出的方法形式化以及将数据发布在Zenodo上的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号