自适应局部对齐蚁群算法与流形模糊均值漂移技术在流形检测与去噪中的应用

【字体: 时间:2026年03月02日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出动态局部半径和动态信息素沉积的改进方法,用于检测和处理暗物质N体模拟中的噪声背景下的星系结构。实验表明,新方法减少了噪声干扰,提高了丝状结构检测的准确性和效率,并在合成数据集和真实天文数据上验证了其有效性。

  
Felipe Contreras | Reynier Peletier | Kerstin Bunte
格罗宁根大学天文研究所所长,荷兰格罗宁根,邮政信箱800,9700AV

摘要

从数据中检测和提取噪声流形具有多种应用,范围从降维、计算机图形学、信号处理和机器人技术到天文结构的建模。在天文学中,由于背景污染,检测微弱的流和丝状结构具有挑战性,因为这些结构会被噪声淹没和隐藏。受生物学启发的“局部对齐蚂蚁技术”(LAAT)以及随后的“流形模糊均值漂移”(MBMS)已被证明是一种高效且灵活的算法,可用于在噪声背景下检测和去噪各种结构。我们的贡献通过引入动态局部半径来扩展这两种方法,从而实现灵活的配置,并降低对关键超参数的敏感性。对于LAAT,我们还引入了局部可变的信息素沉积机制,以避免在噪声区域突出显示虚假模式,并在高度对齐的区域减少移动。我们在两个天文数据集中展示了这些新扩展的效果,分别是合成的水母星系和N体宇宙网模拟。

引言

非线性降维[1]和流形学习技术[2]被应用于许多领域,如医学科学[3]、感官活动识别[4],以在潜在的高维和大数据点云中找到低维结构。天文学家通过分析留下的结构来研究演化过程和宇宙相互作用的历史,通常使用大型N体模拟[5]。这些结构通常是非线性的、普遍存在的、分布广泛的、大小和密度各异的,并且被大量背景噪声所淹没,传统的流形学习技术在这种情况下无法有效处理[1],[2]。拓扑和Delaunay镶嵌用于提取中轴线在计算上代价高昂,对采样效应敏感,其结果很大程度上取决于所呈现的数据子集[6],[7]。其他方法包括结合马尔可夫链的图基方法[8],以及用于识别延长噪声簇的算法,如最长腿路径距离(LLPD)和基于噪声去除的分层聚类算法(HCBNR)[9],[10]。然而,这些方法需要大量的内存和计算时间,而且聚类技术通常需要提前设置簇的数量,并且难以应对普遍存在的噪声。
最近引入的“局部对齐蚂蚁技术”(LAAT)[11],[12]可以检测任意数量、不同维度和密度、嵌入在大量噪声和异常值中的扩散流形。该技术受到高效蚂蚁群体算法的启发[13],[14],它利用局部对齐信息和信息素动态来增强/放大弱或低对比度的(微弱的)结构。LAAT提取出作为底层流形拓扑元素的相关点,这是1D恢复、提取和分析流形(1-DREAM)[15]流程的第一步,该流程随后构建每个结构的稀疏表示。1-DREAM已在多种不同的天体物理场景中得到验证。在[16]中,对宇宙网内的不同密度范围的结构进行了提取。值得注意的是,与基于计算拓扑的流行开源拓扑结构检测器DisPerSE[17]相比,该流程在发现丝状结构方面表现出更高的鲁棒性,后者会产生更多的误报或漏报。除了大规模模拟数据外,1-DREAM还用于分析天文观测数据,包括对球状星团潮汐尾部的详细分析[18],以及对Jhelum流组件在位置和自行空间中的结构分析[19],从而提供了关于可能的前身情景的见解。此外,在[20]中,1-DREAM被用于研究Fornax-Eridanus复合体周围极其稀疏的丝状网络。虽然LAAT在其大多数参数方面相当稳健,但它会在高密度结构周围保留更多噪声,这可以通过避免选择全局阈值的局部后处理来缓解[21]。然而,可检测结构的大小和亮度取决于定义蚂蚁局部视界的半径,必须由用户提前指定。因此,需要一种自动策略来避免这种固定的、有影响力的选择,同时保留广泛的异构流形。
1-DREAM流程的第二步涉及对LAAT提取的流形点云进行去噪,以便后续建模。已经提出了不同的降噪方法,例如一系列基于子空间的均值漂移算法[22],[23],或者将数据投影到流形上[2],[24],[25],[26]。特别是“流形模糊均值漂移”(MBMS)[25]是一种非参数的、寻找模式的算法,旨在去除噪声并揭示高维数据中的底层流形结构。MBMS扩展了传统的均值漂移框架,通过沿流形的估计切空间迭代平滑数据来纳入局部几何信息,这通常是通过局部主成分分析(PCA)获得的,类似于LAAT。该方法采用迭代程序,通过投影标准均值漂移向量来移动数据点,从而抑制垂直于局部近似结构的噪声。MBMS在处理涉及噪声或稀疏采样数据的应用中特别有效,这些数据集中在低维流形附近,包括矩阵完成[27]、识别构造断层结构[28]和表面网格重建[29]等任务。与LAAT类似,MBMS依赖于固定的邻域半径,这对局部几何估计以及随后的逐渐增强和中心轴提取有重要影响。
在本文中,我们提出了对LAAT算法的两项扩展,即动态局部半径和动态信息素沉积。这些新策略允许在微弱结构中沉积更多的信息素,并在高密度区域和背景中保留更少的噪声。为了证明该策略的有效性,我们在合成数据集上进行了敏感性分析,最后,我们使用它来分析一个大规模的天文宇宙N体模拟。在1-DREAM流程中,检测不同维度流形的LAAT步骤之后是MBMS,用于确定一维和二维结构的中心轴,从而有效地对其进行去噪,以便后续建模。与LAAT类似,MBMS的结果也受到局部半径选择的强烈影响。因此,我们还用动态半径扩展了MBMS,证明了在丝状结构中心轴的一致性和位置方面的几个好处。通过比较原始和新的MBMS实现来去噪宇宙网N体模拟,展示了这种效果。
本文的结构如下。第2节介绍了方法和新的扩展。然后,第3节展示了实验和讨论,第4节给出了结论和未来的工作。

方法论

“局部对齐蚂蚁技术”(LAAT)[11]是一种基于蚂蚁群体的算法,它在高效检测和提取任意数量、不同维度和密度差异的噪声流形方面越来越受欢迎,特别是在天体信息学[15],[16],[20],[30]中取得了显著的成功。该算法考虑一个维点的数据集,其中表示维度数。在以为中心、半径为的邻域内,有

实验和讨论

在本节中,我们使用在[15]中引入的合成水母星系,对LAAT中的新动态半径和信息素沉积进行了参数敏感性分析。此外,我们在一个从仅包含暗物质的N体宇宙模拟中选取的Mpc3/h的立方体上展示了改进效果,该模拟包含个粒子。我们始终使用100个时代和个半径。在第一个(第二个)实验中,我们使用了只蚂蚁(),进行了2500(12000)步,半径范围为[1,4](0.05至1.5 Mpc/h),并设定了最小数量

结论和未来工作

本文描述了对局部对齐蚂蚁技术(LAAT)的两项改进,用于在存在大量噪声和异常值的情况下高效检测和提取多个扩散流形。该技术是称为1-DREAM的天文信息学流程的第一步,允许分析大规模数据集,如N体模拟和天文观测。这些扩展引入并比较了几种实现动态半径的策略

CRediT作者贡献声明

Felipe Contreras:撰写——原始草稿、可视化、验证、软件、项目管理、方法论、调查、形式分析、数据管理、概念化。Reynier Peletier:监督、项目管理、方法论、形式分析、概念化。Kerstin Bunte:撰写——原始草稿、验证、监督、项目管理、方法论、调查、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。

致谢

Felipe Contreras感谢国家研究与发展机构(ANID)/奖学金计划/DOCTORADO NACIONAL/2020-21200114的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号