利用高分辨率连续光源石墨炉分子吸收技术进行单同位素和双同位素分析。数据选取、处理及建模的策略
《Journal of Analytical Atomic Spectrometry》:Single- and dual-isotopic analysis using high-resolution continuum-source graphite-furnace molecular absorption. Strategies for data selection, processing, and modeling
【字体:
大
中
小
】
时间:2026年05月02日
来源:Journal of Analytical Atomic Spectrometry 3.1
编辑推荐:
本研究评估了不同的数据处理策略,旨在通过高分辨率连续光源石墨炉分子吸收技术获得同位素信息。为此,研究了两种不同的分子:CaF和CaCl。在第一种情况下,仅测量44Ca和40Ca;而在第二种情况下,同位素变化影响了分子中存在的两种元素(44Ca和40Ca,以及37Cl和35Cl)。
本研究评估了不同的数据处理策略,旨在通过高分辨率连续光源石墨炉分子吸收技术获得同位素信息。为此,研究了两种不同的分子:CaF和CaCl。在第一种情况下,仅测量44Ca和40Ca;而在第二种情况下,同位素变化影响了分子中存在的两种元素(44Ca和40Ca,以及37Cl和35Cl)。因此,提出了两种不同的方法。对于通过监测CaF进行Ca同位素分析,讨论了选择检测像素数量和分子光谱数量的影响,以及使用回归方法处理时间数据的效果。总体而言,在信号可以从两个独立峰中获取的情况下,使用三个检测像素并采用这种回归方法可以获得最佳结果(0.5–1.0%的相对标准偏差RSD)。另一方面,为了通过监测CaCl同时进行Ca和Cl的同位素分析,提出了一种机器学习策略。该模型的性能对于至少10%的同位素丰度是有希望的(中位数绝对百分比误差为1.21%),而当其中一个同位素的丰度较低时,误差会增加。为了在实际应用中检测到这种性能不佳的情况,建议监测预测不确定性以设定阈值并标记可靠性较差的结果。
1 引言
高分辨率仪器的使用使得能够用传统的原子源监测到分辨率良好的分子光谱。这为监测使用原子技术难以测量的元素(例如非金属)开辟了新的可能性。关于使用高分辨率连续光源分子吸收光谱法(HR CS MAS)在火焰(F)或石墨炉(GF)原子化器中的文献非常丰富,但其他技术,如激光诱导击穿光谱法(LIBS)也从中受益。具有足够分辨率的分子光谱监测还提供了获取同位素信息的新机会,因为分子光谱中的同位素位移明显大于其原子对应物中的位移。这种方法最初是为LIBS探索的,从而产生了激光烧蚀分子同位素光谱法(LAMIS),后来也被用于HR CS GFMAS的评估,后者在某些方面可能提供更高的灵敏度,尽管多元素分析潜力有限。尽管人们对获取传统上仅限于元素分析的技术的新类型信息(同位素信息)表现出明显的兴趣,但对于那些同位素原子跃迁足够分辨的少数元素(例如B或Li),迄今为止只有少数论文利用HR CS GFMAS进行了同位素分析。我们的研究小组在2015年首次报道了这一领域的工作,展示了Al35Cl和Al37Cl跃迁的单独监测,从而实现了Cl的同位素监测。在优化条件下观察到了这两种物种的两个不同峰,并报告了Cl含量在mg L?1水平上的精度值约为2% RSD。此外,还展示了使用同位素稀释来减轻测定矿泉水中Cl时化学干扰的潜力。在后续工作中,采用了类似的策略来获取Br的同位素信息。在评估了各种分子形成剂后,选择了Ca,从而能够选择性地监测Ca79Br和Ca81Br跃迁。对于10 mg L?1的Br水溶液,获得的精度约为2.5% RSD。研究表明,该方法也可以直接应用于固体样品,其中使用同位素稀释允许直接测定PVC和番茄叶参考材料中的Br,尽管检测到了化学干扰。Abad等人通过监测433.1 nm和437.1 nm波长附近的跃迁,展示了基于10BH和11BH跃迁的B的同位素分析。通过构建具有不同同位素比率的光谱库并进行偏最小二乘回归(PLSR),实现了出色的精度(不确定性范围在0.015–0.044%之间),但仅适用于至少1 g L?1的浓度。这表明,使用更先进的化学计量工具可以帮助提高HR CS GFMAS同位素分析的精度,就像在LAMIS中常见的那样。可以假设,这些工具对于从复杂、丰富的光谱中获取信息尤为重要。尤其是因为在LAMIS中用于提高精度的其他常见策略(如光谱累积)几乎无法应用于HR CS GFMAS。Zanatta等人报告了40CaF和44CaF的选择性监测。这项工作不是测量同位素比率,而是专注于在用草酸铵沉淀去除Cl干扰后,确定尿样中的40Ca和44Ca同位素。值得一提的是,最近通过激光诱导荧光光谱法详细研究了CaF同位素体的A2Π–X2Σ+带。Bazo等人通过测量88SrF、87SrF、86SrF和84SrF跃迁,扩展了研究领域,而不仅仅是之前的两项研究中的两项。为了克服光谱重叠,使用了反卷积方法。报告的同位素比率精度相对较高(6–11% RSD),但该方法展示了将84Sr作为自来水示踪剂的潜力。Aramendía等人探索了BF的形成,具有双重目的:(i)使用较低的温度程序确定B,从而提高在石墨炉中测量这种难熔元素的潜力;(ii)获取同位素信息。在这方面,通过分别监测11BF和10BF分子吸收跃迁,可以计算11B/10B比率,但在最佳条件下,RSD值仅提高到3–4%。最后,Abad等人监测了14NO和15NO跃迁,并开发了一种基于同位素稀释的方法来确定天然水中的总硝酸盐+亚硝酸盐。由于同位素体的跃迁部分重叠,因此需要非线性多变量分析(PLSR)进行光谱反卷积。扩展的不确定性达到了2–4% RSD。因此,过去十年发表的关于这一主题的文章数量仍然相当有限。这可能是因为光学界不熟悉同位素分析的概念、其潜力以及最大化其所能提供信息的方法。但也许最重要的是,对于基本原理的理解仍然不足,包括不确定性的主要来源。在这方面,可能难以区分一些潜在的不确定性来源(例如,可能叠加在噪声上的时间变化)。尽管如此,从实际角度来看,至少可以研究提高数据质量所需的最优数据处理方法。此外,如上所述,通过HR CS GFMAS报告的RSD值在大多数情况下只有几个百分点。这可能对某些应用(例如同位素稀释或示踪实验)来说已经足够,但对其他应用(例如监测自然变化)来说则不够,还有改进的空间。本研究进一步探索了新的数据处理方法,以获得最高分析质量的结果。为此,通过HR CS GFMAS研究了两种不同的分子,即CaF和CaCl。选择这些分子是因为它们代表了两种非常不同的情况。CaF提供了一个相对简单的同位素系统,其中唯一的潜在同位素变化来自组成分子的一种元素(Ca)。将研究通过HR CS GFMAS生成的三维信号中最具代表性的部分的选择策略。将特别关注将最初为多收集器电感耦合等离子体质谱仪(MC-ICP-MS)中的瞬态同位素信号处理开发的回归方法转化为HR CS GFMAS同位素分析的方法。应当注意的是,由于目标与Zanatta等人的示踪实验不同,因此将监测不同的跃迁。另一方面,选择CaCl是为了代表一个更复杂的情况,其中两种元素都显示出潜在的同位素变化。由此产生的光谱在线条方面要复杂得多,并测试了一种基于机器学习的新方法来同时预测Ca和Cl的同位素组成。最后,我们认为有必要澄清,这是一项概念验证研究,旨在从模型解决方案中获得最佳的分析性能,与之前展示的实际样品分析不同。
2.1 仪器
吸收实验使用的是ContrAA 800G高分辨率连续光源原子吸收光谱仪(Analytik Jena,德国),配备了横向加热的石墨管、Xe短弧灯和用于溶液样品的自动采样器。Ca同位素组成使用NexION 5000电感耦合等离子体质谱仪(PerkinElmer,美国)在ICP-MS/MS模式下进行验证,反应气体为NH3(Nippon Gases,西班牙)。
2.2 溶液和试剂
工作中使用的所有试剂均为分析级或更高级别。整个实验过程中使用的是来自Milli-Q水系统(Millipore,法国)的去离子水(18 MΩ cm),必要时使用硝酸(Merck,德国)进行稀释。对于CaF分子研究,使用了不同同位素组成的钙标准品。使用了1000 mg L?1的钙标准溶液(Merck,德国)作为天然样品(40Ca丰度为96.9%)。从CaCO3盐(Neonest AB,瑞典)制备了1000 mg L?1的44Ca富集溶液(认证的44Ca原子丰度为99.2%),溶解在1% HNO3(v v?1)溶液中。作为氟化剂,准备了5%(m v?1)的NaF(Merck,德国)溶液。对于CaCl研究,除了之前提到的钙标准品外,还使用了1000 mg L?1的Cl标准溶液(Merck,德国)作为天然丰度的参考(35Cl为75.8%,37Cl为24.2%)。将35Cl富集的NaCl盐(CortecNet,法国)溶解在1% HNO3(v v?1)溶液中,最终Cl浓度约为200 mg L?1。最后,还测量了164.6 mg L?1的37Cl富集标准品(ERM,比利时),其认证的37Cl原子丰度为98.1%。
2.3 通过HR CS GFMAS监测CaF的程序
通过其B2Σ–X2Σ(ν′ = 2和ν″ = 1)跃迁观察CaF分子,该跃迁位于515.3 nm附近,光谱中心位于515.350 nm,像素101处,光谱窗口覆盖515.023-515.673 nm的范围,包含200个像素。如图1所示,这个光谱窗口有四个峰型:两个40CaF峰分别位于像素52和81(515.190和515.284 nm),另外两个44CaF峰分别位于像素119和149(515.408和515.503 nm)。基线信号使用IBC-m模式固定。最终选择了像素52和119处的峰,每个峰都由最多19个检测像素(光谱分辨率)和20个数据点(时间分辨率)进行表征。图1
使用表1中显示的条件,通过HR CS GFMAS监测含有大约5 μg 40Ca和5 μg 44Ca的溶液(存在过量的F(0.5 mg NaF)时获得的波长和时间分辨信号。还显示了Z轴上的2D投影,以显示波长积分和时间积分信号。吸光度被归一化为最大值2,以保持所有值在同一尺度上。每次测量时,将10 μL不同浓度的钙溶液(浓度从200到1000 mg L?1,相应的总钙量为2到10 μg)放入炉中,同时加入10 μL 5%(m v?1)的NaF溶液作为氟化剂。钙的同位素组成也有所不同:测量了44Ca/40Ca比为4?:?1、1?:?1和1?:?4。测量使用液体自动采样器进行,没有使用化学修饰剂。使用的炉程序改编自之前的工作,并在表1中呈现。对于每种钙浓度和同位素组成,进行了15次测量。此外,还进行了10次仅含有氟化剂的空白溶液的测量。每次测量的最终光谱都通过10个空白光谱的平均值进行了校正。表1
使用HR CS GFMAS进行CaF测量的仪器参数
电子跃迁
B2Σ–X2Σ
波长
515.350 nm(中心像素101)
515.190 nm(40CaF)
515.408 nm(44CaF)
氟化剂
10 μL的NaF,浓度为5% m v?1
水样体积
10 μL
引入的钙质量
2–10 μg
44Ca/40Ca同位素比
4?:?1, 1?:?1 和 1?:?4
测量时间
6 s
温度程序
步骤
温度(°C)
升温速率(°C s?1)
保持时间(s)
Ar气体流量(L min?1)
干燥
90
3
20
2.0
干燥
110
5
20
2.0
热解
800
300
10
2.0
气体适应
800
0
5
0
蒸发
2200
3000
6
0
清洗
2400
1500
4
2.0
通过HR CS GFMAS监测CaCl的程序
CaCl分子在其A2Π–X2Σ跃迁处被测量,该跃迁位于605.1 nm区域(ν″ = 0和ν′ = 1)。24 200像素的光谱以604.970 nm(探测器像素101)为中心,光谱窗口覆盖了604.583至605.353 nm的范围。测量了最终浓度为180 mg L?1的Ca和Cl标准溶液,每种溶液向炉中引入10 μL(每种分析物1.8 μg)。对于这种分子,两种元素都存在多种同位素,生成了四种主要组合:44Ca35Cl、40Ca35Cl、44Ca37Cl和40Ca37Cl。本研究不关注其他次要钙同位素的影响,也未对其进行考虑。为了观察Ca和Cl混合时的光谱变化,44Ca/40Ca和37Cl/35Cl的同位素比从0?:?1变化到1?:?0,以10%的增量进行,共得到了121种不同的组合。每种组合的溶液分析了5次,并且测量了10次1% HNO3(v v?1)的空白溶液。也使用了IBC-m背景校正方法来处理这种分子的数据。这些测量数据用于构建第3.3节讨论的机器学习模型,并在四个不同的全天会话中获得。在实验后的四周,另一天进行了额外的未知样品验证实验。每次测量都生成了一个2D(波长 vs. 吸光度)光谱,选择了提供最高吸光度值的时间光谱(或者,最高光谱加上之前和之后的两个光谱;或者最高光谱加上之前和之后的两个光谱),并且始终通过空白光谱进行了校正。最后,所有光谱都归一化到它们的最大吸光度,以减少不同测量日之间的变异性。表2显示了从先前工作中调整得到的仪器测量条件。25
表2
使用HR CS GFMAS进行CaCl测量的仪器参数
电子跃迁
A2Π–X2Σ
波长
604.970 nm(中心像素101)
标准量
Ca:10 μL,180 mg L?1
Cl:10 μL,180 mg L?1
监测的同位素组成
44Ca/40Ca:0?:?1.0, 0.1?:?0.9, 0.2?:?0.8, 0.3?:?0.7, 0.4?:?0.6, 0.5?:?0.5, 0.6?:?0.4, 0.7?:?0.3, 0.8?:?0.2, 0.9?:?0.1, 1.0?:?0
37Cl/35Cl:0?:?1.0, 0.1?:?0.9, 0.2?:?0.8, 0.3?:?0.7, 0.4?:?0.6, 0.5?:?0.5, 0.6?:?0.4, 0.7?:?0.3, 0.8?:?0.2, 0.9?:?0.1, 1.0?:?0
测量时间
5 s
温度程序
步骤
温度(°C)
升温速率(°C s?1)
保持时间(s)
Ar气体流量(L min?1)
干燥
90
30
20
2.0
干燥
110
30
20
2.0
热解
700
50
5
2.0
气体适应
700
0
5
0
蒸发
2200
3000
5
0
清洗
2600
100
4
2.0
通过ICP-MS进行钙同位素分析的程序
使用ICP-MS/MS测量了理论同位素组成为4?:?1、1?:?1和1?:?4的Ca标准样品,以评估实际的44Ca/40Ca比值。溶液被稀释到最终浓度为200 μg L?1,并在以下参数下进行分析:16 L min?1的等离子体Ar气体流量,1.1 L min?1的雾化器Ar气体流量,1.01 L min?1的辅助Ar气体流量,1.2 mL min?1的反应气体流量(NH3),以及1600 W的射频功率。监测的核素是40Ca+和44Ca+,两个四极杆(Q1和Q3)分别设置为传输m/z值39.9626和43.9555。每个同位素的停留时间为50 ms。使用天然Ca标准样品校正了仪器质量偏差。还测量了1% HNO3(v v?1)的空白溶液。
每种同位素组成进行了5次重复实验,得到的不确定性(以RSD表示)分别为:44Ca/40Ca 4?:?1(0.58%),44Ca/40Ca 1?:?1(0.29%),以及44Ca/40Ca 1?:?4(0.57%)。
结果与讨论
3.1
CaF:选择和处理信号部分
本工作评估的第一个案例是CaF分子,该分子可以在石墨炉中相对容易地以气相形式形成。为此,如第2.3节所述,添加了过量的氟化剂,并应用了表1中显示的温度程序。在这些条件下,可以监测到不同的CaF跃迁,这些跃迁能选择性地响应不同的钙同位素,因为F是单同位素,不会影响观察到的位移。选择了B2Σ–X2Σ跃迁(ν′ = 2,ν″ = 1),其主峰位于大约515.3 nm处,24 因为它提供了低噪声的清晰光谱。为了简化,只考虑了两种主要的钙同位素40Ca和44Ca(对于这两种同位素使用了脉冲信号),因为其他钙同位素的丰度太低,无法在测量中显示出显著的信号。图1展示了在这些条件下获得的信号类型。正如HR CS GFMAS的典型特征,这是一个3D信号,其中每个探测器像素(X轴)监测一个特定的波长(在这个光谱范围内分辨率大约为3.25 pm)。信号显然是瞬态的(Y轴),整个光谱的吸光度(Z轴)大约每0.073秒记录一次。2D信号(归一化吸光度与波长;归一化吸光度与时间)也被投影到图的侧面,以便更好地理解时间和波长对信号的影响。如图所示,实际上有两个双峰对40CaF和44CaF有选择性响应。它们的灵敏度非常相似,因此从现在开始结果将主要关注前者。这两个40CaF和44CaF信号之间的位移相当大(218 pm,对应于67个探测器像素)。使用其他地方详细讨论的理论方程预测的该跃迁的位移为203.8 pm。与元素分析的情况不同,没有明确的协议可以从这些信号中获得最佳质量的同位素信息。然而,正如其他使用瞬态信号的高精度同位素技术所知(例如,当激光烧蚀(LA)设备与MC-ICP-MS耦合时),选择整个信号可能会降低精度。这种情况也可以在HR CS GFMAS信号中推断出来,如图2和图3所示。图2显示了所选探测器像素数量(因此,覆盖的波长范围)的影响。如图所示,对于40CaF(图2a)和44CaF(图2b),信号的不精确度(以15次测量的RSD评估)对于吸收较低的像素显著增加,这是预期和之前描述的。27 这直接影响了44Ca/40Ca比值的测量(见图2c),因为只有通过比较四个中心像素才能获得最佳精度(以及接近该实验预期值的比值,即1)。显然,增加更多像素会由于较低的吸光度信号而增加噪声,从而降低数据质量。因此,在这方面,情况与通过HR CS GFMAS/AAS进行痕量元素分析时的情况类似,最佳像素数量通常推荐在3–5之间。27,28
图2
使用HR CS GFMAS在含有过量F(0.5 mg的NaF)的溶液中监测大约5 μg的40Ca和5 μg的44Ca时获得的基于时间积分的信号。(A)第一个40CaF峰(大约515.2 nm)的吸光度信号和每个探测器像素获得的RSD值(n = 15);(B)第一个44CaF峰(大约515.4 nm)的吸光度信号和每个探测器像素获得的RSD值(n = 15);(C)使用A和B中每对探测器像素得到的信号比值及其相应的RSD值。误差条代表标准偏差。图3
使用HR CS GFMAS在含有过量F(0.5 mg的NaF)的溶液中监测大约5 μg的40Ca和5 μg的44Ca时获得的基于波长积分的信号(1个探测器像素)。(A)第一个40CaF峰(大约515.2 nm)的吸光度时间轮廓和每个收集的光谱的RSD值(n = 15);(B)第一个44CaF峰(大约515.4 nm)的吸光度时间轮廓和每个收集的光谱的RSD值(n = 15);(C)使用A和B中每个光谱得到的信号比值及其相应的RSD值。误差条代表标准偏差。然而,在HR CS GFMAS/AAS测量中,另一个维度(时间)的影响尚未系统地评估。对于元素分析,通常会对整个信号进行时间积分,对于同位素分析更是如此。尽管如此,对结果质量的影响与探测器像素的影响非常相似。如图3所示,对于40CaF(图3a)和44CaF(图3b),当考虑信号的开始或尾部时,信号的RSD值显著增加。这种不精确性最终影响了44Ca/40Ca比值的测量(见图3c)。只有考虑信号的中间部分才能获得良好的精度,因为这样可以获得更好的信噪比。现在,确定要考虑的光谱数量并不像探测器像素那样简单。讨论HR CS GFMAS信号的瞬态性质时,很难进行概括,因为不同分子的尾部对总信号的贡献各不相同。非常易挥发的分子几乎不会显示出任何尾部,而难挥发的分子则会。因此,建立规则并不简单,理想情况下需要找到一种方法来使用所有光谱,以避免主观性,同时避免由低吸光度信号部分引入的额外不确定性。这种情况已经在使用产生瞬态信号的样品引入系统的MC-ICP-MS中进行了探讨,如引言中所述。提出的优雅解决方案是利用线性回归的属性。22,23 如果使用所有光谱点来计算比值,然后进行最小二乘线性回归,那么图表的斜率将对应于估计的比值。然而,在这样的回归中,并非所有点对结果方程的贡献都是相同的,因为众所周知,较高的值具有更大的权重。因此,这种方法也可能适用于HR CS GFMAS。图4展示了这种方法在实践中的工作原理,并证明了可以为40CaF和44CaF信号获得高质量的光谱回归模型,从而提供了一种新的数据处理方法。图4
(A)使用表1中显示的条件,HR CS GFMAS在含有过量F(0.5 mg的NaF)的溶液中监测大约5 μg的40Ca和5 μg的44Ca时获得的基于波长积分的信号,显示了第一个40CaF峰(大约515.2 nm)的吸光度时间轮廓和第一个44CaF峰(大约515.4 nm)的吸光度时间轮廓。中央的10个峰值被突出显示。(B) 使用A中获取的所有点进行回归分析的示例,其中44Ca/40Ca比率对应于校准曲线估计的斜率。
3.2
CaF:影响同位素分析数据质量的关键因素
为了进一步研究影响同位素信息质量的主要参数,并考虑到前一节讨论的观点,进行了一项系统研究,改变了所使用的探测器像素数量、考虑的瞬态信号部分(包括完全使用回归分析的方法),以及改变了40Ca和44Ca比率以及总Ca浓度。所得结果如图5所示。
通过HR GFMAS获得的精确度,以RSD%表示,这些数据是针对用不同44Ca/40Ca比率、不同总Ca含量制备的CaCO3溶液,并使用1、3或5个探测器像素以及不同的方法来评估峰值时间轮廓(如图4所示的回归方法,表示为斜率,或者峰值像素数量为1、3、5或10)。(A) 44Ca/40Ca比率约为1;(B) 44Ca/40Ca比率约为0.25;(C) 44Ca/40Ca比率约为4。从图5a可以看出,当比率为1:1时,精确度最高,这是预期的结果。对于这样的比率,大多数情况下可以实现的精确度值为0.5%到1.0%的RSD。在这种最有利的情况下,选择的数据处理方法似乎不太相关。尽管如此,进行的一些双因素(探测器像素数量、瞬态信号处理方式)方差分析(ANOVA)显示出了统计学上的显著差异(瞬态信号处理方式:对于400 mg L?1和600 mg L?1;探测器像素数量:对于600、800和1000 mg L?1)。总体上,使用3个探测器像素(平均值±标准差,0.59 ± 0.06%)和回归方法(0.60 ± 0.57%)可以获得最好的精确度值。然而,关于瞬态信号的处理方式,当使用最大值时,结果明显更差(0.82 ± 0.78%)。当比率不那么有利时,精确度会降低,这是可以预期的。通常,较低水平下的同位素测量可能更容易受到噪声变化的影响,特别是因为基线的定义主要受最高信号的影响。在这些情况下(见图5b和c),浓度的作用变得非常明显,当Ca含量为200和400 mg L?1时,精确度显著降低,这表明较少丰富的同位素的信噪比较低。高信号的非线性潜在影响似乎不会影响精确度。然而,这种影响可能会影响比率的准确性,这将在后面讨论。特别是对于44CaF/40CaF比率约为0.25的情况,方差分析发现与探测器像素数量有关的所有情况下都存在显著差异,也与400和1000 mg L?1的信号处理方式有关。实际上,选择每个峰值3个或5个探测器像素之间的差异很小(3个像素为1.09 ± 0.55%;5个像素为1.13 ± 0.60%),但再次强调,只使用一个像素(2.24 ± 0.66%)是不推荐的。使用回归方法或3个或5个峰值点之间的差异几乎可以忽略不计(回归为1.42 ± 1.24%;3个点为1.43 ± 1.27%;5个点为1.40 ± 1.25%),但无论是使用最大峰值点(1.56 ± 1.37%)还是表征整个信号峰值的10个峰值点(1.63 ± 1.40%)都可能增加不确定性。另一方面,对于接近4的44CaF/40CaF比率,趋势更加明显。方差分析在所有情况下都发现了统计差异,除了一个(600 mg L?1的信号处理方式)。使用1个(1.04 ± 0.49%)或3个探测器像素可以获得最佳精确度,而使用5个像素时精确度会降低(1.45% ± 0.76%)。关于信号处理,回归方法在大多数情况下表现最好(1.02 ± 0.90%),并且随着峰值数量的增加,精确度会降低,当考虑10个峰值点时达到最差值(1.50 ± 1.19%)。总的来说,基于这些精确度值,最佳条件(或非常接近这些条件的)总是使用3个探测器像素和回归方法获得的,提供的值约为1% RSD或更好,在最有利的情况下约为0.5%(比率接近1)。虽然这些值可能仍然不足以监测Ca的自然变化,但它们代表了相对于之前通过HR CS GFMAS进行的同位素分析报告的结果的改进(见引言),那些结果的RSD通常在2–3%或更高。最后,虽然这项工作的主要目标是确定处理数据以减少不确定性的最佳方法,但显然提供尽可能准确的比率也很重要。为了进一步评估这一点,按照第2节描述的方法制备的溶液通过ICP-MS分析了它们的实际44Ca/40Ca比率,作为参考。图6显示了使用HR CS GFMAS获得的实验44Ca/40Ca比率与使用ICP-MS测量的参考44Ca/40Ca比率之间的比值,这些溶液具有不同的44Ca/40Ca比率、不同的总Ca含量,并使用1、3或5个探测器像素以及不同的方法来评估峰值时间轮廓(如图4所示的回归方法,或峰值像素数量为1、3、5或10)。(A) 44Ca/40Ca比率约为1;(B) 44Ca/40Ca比率约为0.25;(C) 44Ca/40Ca比率约为4。再次明显的是,总浓度显著影响结果。尽管如此,对于大约1或0.25的44Ca/40Ca比率,通常可以在没有校正方法的情况下获得接近预期值的2%范围内的结果,而其他技术则需要校正方法。例如,使用ICP-MS时,44Ca/40Ca的仪器质量偏差非常高(在我们的工作条件下为?23%),并且是使用一个假设了自然丰度的标准进行校正的。另一方面,对于大约4的44Ca/40Ca比率,结果的准确性较低,并且随着浓度的增加而呈现下降趋势,在较高浓度时接近正确值。这种趋势(较高浓度时比率较低)与44Ca/40Ca比率约为0.25时观察到的趋势相反,至少部分可以通过受限的线性范围来解释,这在通过吸收技术估计比率时始终是一个需要考虑的因素。再次,对于接近4的44Ca/40Ca比率,使用回归方法可以获得较低的偏差,而且随着信号中包含的峰值点数量的增加,偏差(以及不精确度)也会增加。因此,总体而言,建议使用3个探测器像素和回归方法是部署HR CS GFMAS进行同位素分析的最有前景的方法,适用于可以从两个独立峰值中得出信号的情况。
3.3
CaCl:双同位素分析的数据建模
如第2.4节所述,CaCl分子在其A2Π–X2Σ跃迁(ν″ = 0, ν′ = 1.24)下被测量。如图7所示,在这种情况下,峰值的位置取决于CaCl分子的同位素组成。例如,40Ca35Cl的峰值1位于探测器像素27(604.683 nm),而44Ca37Cl的峰值1位于像素151(605.163 nm)。可以监测到多种CaCl峰值,但考虑到可用的200个探测器像素,对于每种可能的同位素组合,只有前五个峰值(在图7中突出显示)可以同时检测到。图7
使用HR CS GFMAS获得的具有不同同位素组成的CaCl的时间积分和2D波长分辨光谱,归一化到最高光谱值,使用表2中显示的条件。每个光谱中Ca和Cl的总质量为1.8 μg。每个纯光谱的前五个峰值,其值接近每个存在的Ca和Cl同位素的100%,被标识为1到5。这种情况显然比之前研究的CaF复杂得多,因为有这么多峰值可能出现在不同的光谱波长上。因此,在这种情况下,需要更强大的数据处理方法来提取同位素信息。因此,研究了机器学习的使用。选择了一个人工神经网络(ANN)。ANN是解决回归问题的优秀选择,因为它们可以建模输入和连续输出之间的复杂、非线性关系。此外,它们在不同机器学习环境和框架中的实现高度便携,使得模型可以在不同的平台上进行训练、部署和一致地再现。为了测试所开发模型的有效性,准备了具有不同丰度同位素40Ca和44Ca的组合,以及同位素35Cl和37Cl,并进行了测量,如第2.4节所述。总共在四个不同的日子里对121种同位素组合进行了五次重复测量。由于数据的变异性,每个光谱都进行了空白校正并归一化到最大峰值高度。从每次测量中获得的不同光谱中(大约每0.073秒一个),只考虑了产生最大信号的光谱(1、3或5个光谱),以最小化噪声的影响。当改变选定的光谱数量时观察到的差异很小,但使用5个光谱时结果似乎略好;因此,只报告这种情景的结果。鉴于训练数据集的大小较小,也选择了一个小型模型以防止过拟合。模型是使用sklearn.neural_network库中的MLPRegressor开发的,超参数如下:
(1)预处理:每个光谱都进行了空白校正并归一化到最大峰值高度。
(2)ANN架构:输入:605。隐藏层:[64, 32, 32, 16],求解器 = ‘adam’,学习率 = ‘constant’,learning_rate_init = 0.005,alpha = 10 × 10?3,early_stopping = true,激活函数 = 'relu',最大迭代次数 = 10?000,alpha = 10 × 10?3。其他超参数使用库的默认值。为了进一步减少过拟合并提高准确性和鲁棒性,使用了50个ANN的集成。通过这种方法,集成结合了多个视角,从而比任何单个模型都产生更准确和可靠的预测。此外,模型预测之间的差异可以用来估计生成输出的不确定性。在回归问题中,可以通过检查模型集成产生的预测分布来衡量不确定性:平均值代表最终预测,而集合中的标准差量化了预测的不确定性,较大的偏差表示对预测的信心较低。包括不确定性估计可以增加机器学习模型的信任度和透明度。如果对于给定的输入,所有模型得到的预测非常相似,这表明不确定性非常低,因此预测是可靠和稳健的;相反,高不确定性表示预测并不可靠。训练过程采用了交叉验证方法。通过在不同的数据分割上反复训练和评估模型,交叉验证减少了对于单一训练-测试分割的依赖,并有助于检测过拟合。它还更好地利用了有限的数据,并产生了对模型在未见数据上的性能估计,这些估计更少偏差且更具代表性。由于我们有121个不同的实验,我们训练了121个由50个ANN组成的集成,每个集成在121个实验中的120个上进行训练,并在未见实验上进行测试。这是一个具有挑战性的场景,因为每个输入数据点对应于不同的同位素丰度组合,因此,当其中一个被移除时,ANN模型对该输入值区域没有信息。这种方法的目的是评估模型是否能够泛化训练期间学到的信息,并将其应用于在未知区域进行准确预测。神经网络通常在学习模式方面非常有效,当这些模式与训练集中的数据具有相似的分布和潜在规则时,它们能够很好地泛化到未见的数据上。然而,当新数据噪声很大或受到与训练期间学习到的机制不同的因素影响时,它们的性能可能会下降。通过我们的实验设置,我们将能够识别出分析输入数据中哪些区域表现出规律性行为,因此能够被我们的模型很好地预测,以及哪些区域表现出异常,从而降低我们预测的质量。由于每个实验都重复了五次,因此有五个预测值,分别由它们的平均值和标准差表示。这些值可以通过计算它们的平均值来轻松组合,但如果结合标准差所代表的不确定性来计算加权平均值,可以获得稍微更好的结果。从5个测量值开始,每个测量值都有其平均值(μ)和标准差(σ),使用以下公式计算加权平均值(μfinal)和组合标准差(σfinal):
表3总结了我们的MLP(多层感知器)模型的几个相关性能指标。回归模型表现出强大的整体性能,决定系数(R2 = 0.9974)非常高,表明它几乎解释了目标变量中的所有方差。低平均绝对误差(MAE = 0.0092)表明,平均而言,模型的预测值在绝对意义上非常接近观测值。虽然平均绝对百分比误差(MAPE = 22.7%)看起来相对较高,但较低的中位绝对百分比误差(MdAPE = 1.21%)表明,这种较高的MAPE很可能是由少数相对误差较大的观测值造成的,而不是大多数数据的性能不佳。总体而言,这些指标表明模型在大多数情况下都是准确的,只有少数异常值导致了基于百分比的误差测量结果的偏斜。如果分别分析Ca和Cl的预测,所有指标的结果质量都非常相似,但对于MAPE来说(MAPE_Ca = 12.1%,MAPE_Cl = 33.2%),Cl的MAPE较高。尽管MdAPE值相似,但Cl的MAPE较高,这表明少数Cl的异常值具有较大的相对误差,这不成比例地夸大了平均百分比误差,而没有影响典型的(中位数)性能。
图8展示了最终结果,将预期值与模型预测值进行了比较。正如较小的MAE所示,预期值和预测值之间通常有很好的一致性。然而,预测并不均匀。极端值,即那些丰度较低的同位素,因此出现在图8a的四个边缘,更难以有效预测。通常情况下,当同位素的丰度为10%或更低时,预测能力会显著下降。这并不奇怪,因为次要同位素对整体信号的贡献变得不那么明显,并可能被其他不确定性来源(例如,空白贡献、噪声水平)所掩盖。这就是为什么异常值会产生较高的平均MAPE值的原因。
(A)使用第3.3节中描述的MLP模型,通过HR CS GFMAS测量的不同Cl和Ca同位素组成的混合物的预期值和预测值。(B)A中显示的预测值的平均绝对百分比误差与变异系数之间的相关性。如果一个模型大多数时间都能很好地工作,但在某些情况下误差非常大,那么模型本身必须能够检测到这些情况并在其预测不可靠时发出警告。如前所述,我们的模型包括50个不同的MLP,每个实验都进行了五次。因此,我们的预测是由5 × 50个预测值构建的,这使我们能够计算模型和实验的标准差,并用它来检测具有高不确定性的预测。实际上,变异系数(CV,定义为标准差与平均值的比率)与MAPE之间存在高相关性(r2 = 0.882)。这可以在图8b中观察到,该图为每个预测值展示了这两个指标。这种相关性很有用,因为它可以用来设定限制,例如,超过某个CV值的可以被认为是不可靠的,并需要进一步详细调查和/或重新测量。例如,如果使用0.05的CV阈值来选择最可靠的预测,那么121个预测中有100个将被选中,它们的MAPE将从原来的22.7%降低到2.5%。这展示了用不确定性度量(如标准差或CV)丰富预测的有用性,尽管在现实世界的应用中,这个阈值必须通过独立的验证集来确定,以避免过于乐观的结果。为了进一步测试开发后的模型,还评估了在不同日期测量的额外样本。这些样本从未被模型见过,提供了关于其在绝对未知情况下性能的更多信息。结果显示在图9a中。再次得出了相同的结论。平均MAE非常小,平均为0.0098,但由于异常值的存在,MAPE再次很高,平均为35.0%,尤其是在右下角。由于测量次数较少,这些异常值的权重较大。然而,如图9b所示,MAPE和CV之间的强相关性可以识别出这些异常情况。
结论
本研究探讨了通过HR CS GFMAS选择和处理同位素数据的不同方法,使用了两种非常不同的分子系统作为概念验证:CaF和CaCl。研究表明,在简单情况下(CaF:两个不同的Ca同位素总是在相同的波长下被监测到,因此有两个独立的峰),通过使用回归方法,可以改进性能,使得RSD值在0.5–1.0%的范围内。另一方面,也表明更复杂的情况(CaCl:由于Ca和Cl的不同同位素组成,各种峰出现在不同的波长下)也可以通过使用机器学习来解决,从而实现对构成目标分子的两种元素的双重同位素分析,尽管当其中一个同位素的丰度较低时,准确性会受到影响。同样值得注意的是,计算预测不确定性可以帮助标记潜在的不准确结果,从而提高模型的鲁棒性。还需要指出的是,尽管先前的文献表明通过HR CS GFMAS进行同位素分析适用于各种样本(生物、环境、聚合物),但当前工作没有研究这一方面,因此应该进一步测试。
作者声明没有竞争性财务利益。
数据可通过Zenodo获取(https://doi.org/10.5281/zenodo.19485273)。使用的MLP模型可通过Zaragoza大学的GitHub仓库获取:https://github.com/universidad-zaragoza/Ca-isotopic-analysis-via-ICP-MS-with-ML。补充信息(SI)也可获取。详见DOI:https://doi.org/10.1039/d6ja00062b。
作者感谢PID2024-156411NB-I00、PID2022-136454NB-C22和PID2021-122455NB-I00项目(由MICIU/AEI/10.13039/501100011033和ERDF资助)以及Aragon政府(Grupo E43_20R)的支持。André L. M. de Souza还感谢MCIN/AEI/10.13039/501100011033提供的博士前资助(PRE2019-091118)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号