对火星表面的原位探索对于理解这颗红色星球的地质历史、气候演变和潜在宜居性至关重要。在各种有效载荷中,由于激光诱导击穿光谱(LIBS)能够对表面材料进行定量元素分析,因此在火星任务中广泛部署了这类仪器。迄今为止,已有三种LIBS仪器在火星上成功进行了原位测量[1]:美国国家航空航天局(NASA)“好奇号”火星车上的ChemCam[2]、[3]、“毅力号”火星车上的SuperCam[4],以及中国国家航天局(CNSA)“祝融”火星车上的火星表面成分探测器(MarSCoDe[6]。目前,ChemCam和SuperCam已经共同收集了超过30,000个LIBS观测数据,并且仍在持续收集新数据,而MarScoDe在“祝融”号进入休眠状态之前获得了94个原位LIBS观测数据。
针对火星原位LIBS数据的定量分析方法已经从单变量方法发展到复杂的多变量技术。早期研究主要采用线性拟合方法,包括内标校准[7]、[8]和多变量线性校准方法[9]。这些方法基于LIBS定量分析的基本原理,即假设目标元素的特征光谱线强度与其在样品中的浓度之间存在线性关系[10]、[11]。然而,这些线性方法的定量精度常常受到LIBS物理特性的复杂性的限制,主要是偏离局部热力学平衡(LTE)条件以及地质样品中的显著矩阵效应。此外,不同的仪器响应和特定的实验条件进一步复杂化了光谱-成分关系,需要采用更复杂的非线性解决方案。
随后,研究人员引入了各种机器学习方法。例如,基于ChemCam校准数据集并使用独立成分分析(ICA)和偏最小二乘(PLS)方法训练的多变量氧化物成分(MOC)模型,对主要氧化物实现了平均2.31 wt%的均方根误差(RMSE)[12]。其他方法,包括支持向量回归(SVR)[13]和反向传播神经网络(BPNN)[14]也得到了研究。最近,深度学习技术在LIBS分析中展现了巨大潜力[15]。曹等人[16]优化了卷积神经网络(CNN)模型,将ChemCam校准数据集的主要元素平均RMSE降低到了1.71 wt%。刘等人[17]进一步推进了这一领域,使用LIBSFormer模型实现了相同数据集的平均RMSE为1.25 wt%,比MOC基准提高了45.9%。然而,深度学习方法的有效性严重依赖于足够的训练数据。由于NASA在行星数据系统(PDS)平台上发布的ChemCam数据集是最大的公开可用资源(包含超过20,000个标记观测数据),目前使用深度学习模型进行火星原位分析的研究主要依赖于ChemCam数据集。
由于火星探索任务的限制,MarScoDe仅收集了94个原位LIBS光谱[18],其中只有34个光谱适合用于模型训练。这个有限的数据集不足以开发可靠的定量模型,因为通常需要更大的样本量来学习复杂的光谱-成分关系。为了解决这一少样本挑战,通过迁移学习利用其他LIBS仪器的数据已成为一种关键策略。这些方法的实际实现差异很大,从数据级别的光谱对齐到模型级别的领域适应都有。
传统的跨仪器迁移方法主要集中在光谱对齐上。ChemCam和SuperCam团队已经成功实现了此类数据级别的迁移,以弥合地球工程模型和火星飞行模型之间的差距[12]、[19]、[20]。对于包括MarScoDe在内的异构仪器,刘等人[21]使用共享的橄榄石校准目标将ChemCam的光谱线强度转换为MarScoDe的光谱强度,从而能够将为ChemCam数据建立的多变量模型应用于MarScoDe数据集。金等人[22]提出了一种四步光谱转换方法,将山东大学开发的SDU-LIBS系统和MarScoDe-LIBS数据转换为ChemCam格式。
深度迁移学习在捕捉非线性关系和跨领域知识转移方面展现了显著的能力。特别是端到端迁移学习,能够直接从数据中自动学习最优的领域适应,无需手动特征工程或显式建模仪器差异。因此,最近的研究越来越多地关注端到端方法。王等人[23]使用了领域自适应全连接网络(DAFCN)来弥合MarScoDe和其他LIBS仪器之间的光谱领域,并在SDU-LIBS数据集上验证了该方法。崔等人[24]引入了一种迁移学习方法,使用预训练的卷积神经网络(CNN)代替数据转移进行知识转移,证明了其在ChemCam原位光谱上的泛化性能。
除了这些方法,一些研究还使用火星模拟环境作为直接迁移的替代方案。万等人[25]和刘等人[26]在地球实验室的模拟火星条件下使用复制品/类似仪器收集了更多数据。然后使用这些来自实验室的LIBS数据为MarScoDe原位数据集开发了定量分析模型。
然而,
MarScoDe数据集的少样本问题对现有的跨仪器定量分析方法提出了三个主要挑战:
1)端到端迁移学习方法通常试图从头开始学习光谱特征映射(例如,线位置和强度)。这个过程非常耗数据,使得在没有显式光谱对齐的情况下很难为MarScoDe数据实现高定量精度。
2)在少样本限制下,迁移模型经常对有限的MarScoDe训练数据表现出严重的过拟合,使其不适合分析未知的火星目标。
3)依赖地球实验室数据集作为源域存在挑战,因为实验室设置与MarScoDe飞行模型之间存在显著的仪器差异(例如,激光参数和光学设计)。这些硬件差异使得建立校准一致性变得困难,从而影响了领域转移的有效性。
为了解决上述挑战,本研究提出了两阶段迁移学习(TTL)框架,旨在促进火星原位光谱对齐和定量建模的跨仪器数据迁移。该框架能够在少样本场景下对
MarScoDe LIBS数据集中的主要氧化物进行高精度定量分析。主要创新和贡献总结如下:
1)TTL框架在传统的端到端迁移学习之前引入了光谱对齐阶段,减少了原位数据集之间的领域差异。通过结合逐层微调,它将大规模ChemCam数据集的光谱知识转移到MarScoDe的少样本数据集。这种方法提高了MarScoDe校准数据在少样本场景下的氧化物浓度预测精度,减少了过拟合,并改善了对未见数据的泛化性能。
2)新颖的TTL框架仅使用火星LIBS数据实现了完全的原位跨仪器模型迁移,显著减少了对新的地球校准数据或MarScoDe参考光谱库的依赖。通过利用直接在火星上获取的数据集,迁移模型受益于具有相似环境背景的源域,从而有效弥合了领域差异,缓解了仪器不匹配的挑战。
本文的其余部分结构如下:第2节介绍了本研究中使用的LIBS数据集。第3节详细介绍了提出的TTL框架。第4节展示了实验结果和分析。最后,第5节总结了本研究。