一种结合 gramian 角场和时空注意力机制的双模型框架，用于快速识别气体类型并预测气体浓度何文彦，辛文，王庆峰

《Sensors》：A Dual-Model Framework with Gramian Angular Field and Spatio-Temporal Attention for Rapid Gas Identification and Concentration Prediction Wenyan He, Wen Xin and Qingfeng Wang

【字体：大中小】 时间：2026年05月10日 来源：Sensors 3.5

编辑推荐：

　　**摘要** 快速准确的气体识别和浓度预测对工业安全、医学诊断和环境监测至关重要。然而，在复杂环境中信号的失真以及数据处理过程中的特征丢失往往会降低预测的准确性和响应速度。为了解决这些挑战，本研究提出了一种用于电子鼻系统的双模型框架。一种气体分类模型利用复合格拉姆角场（Com

　　**摘要**
快速准确的气体识别和浓度预测对工业安全、医学诊断和环境监测至关重要。然而，在复杂环境中信号的失真以及数据处理过程中的特征丢失往往会降低预测的准确性和响应速度。为了解决这些挑战，本研究提出了一种用于电子鼻系统的双模型框架。一种气体分类模型利用复合格拉姆角场（Composite Gramian Angular Field）表示将时间序列传感器数据转换为二维特征图，并通过卷积神经网络（Convolutional Neural Network, CNN）进行端到端的分类。另一种气体浓度预测模型集成了一种多分支注意力机制（multi-branch attention mechanism）、CNN和双向门控循环单元（bidirectional gated recurrent unit），以捕捉空间-时间依赖性。进一步开发了一种级联识别-预测方案，以减轻数据分布的异质性并提高模型的鲁棒性。所提出的方法支持单标签和多标签任务，并在包括低浓度、不同湿度以及气体混合物在内的复杂条件下表现出强大的适应性。在公开数据和实验室收集的数据集上的验证表明，仅使用初始响应阶段的数据，分类模型即可实现100%的识别准确率，而预测模型对于大多数目标气体的R2值超过0.99。这些结果证实，所提出的框架为电子鼻系统的快速定性识别和定量预测提供了一个高效且鲁棒的解决方案。

**1. 引言**
气体分析在环境监测[1]、工业安全[2]、疾病诊断[3,4]和食品质量控制[5]中越来越重要。例如，实时监测可燃气体对于预防工业事故[6]至关重要，而大气污染物的预测为环境治理和政策制定提供了科学支持[7,8,9]。在医疗领域，呼出气体分析也被用来评估生理状况并辅助临床诊断。
传统的气体检测技术，如气相色谱-质谱（Gas Chromatography–Mass Spectrometry, GC–MS），通过化学电离诱导的离子-分子反应实现准确的定性和定量分析。然而，它们的性能严重依赖于样品制备和实验条件[10]，并且检测周期长、操作复杂且成本高昂，这限制了它们在实时和便携式场景中的应用[11]。相比之下，金属氧化物半导体（Metal Oxide Semiconductor, MOS）气体传感器因其低成本、简单的传感机制和易于集成而受到越来越多的关注[12,13]。为了克服单个传感器的局限性，例如选择性和对环境变化（如温度和湿度）的敏感性差，开发了基于传感器阵列的系统[12,13]。这些系统（通常称为电子鼻）由传感器阵列、信号采集模块和模式识别算法组成[14,15]，其中模式识别算法在整体系统性能中起着关键作用。
早期在气体识别和浓度预测方面的努力主要使用统计分析和传统机器学习方法。主成分分析（Principal Component Analysis, PCA）通过保留主导方差来降低数据维度[16]，而线性判别分析（Linear Discriminant Analysis, LDA）通过最大化类间散布与类内散布的比率来提高类别可分性[17]。K近邻（K-nearest Neighbor, KNN）和支持向量机（Support Vector Machine, SVM）被广泛用于气体分类[18,19]。多元线性回归（Multiple Linear Regression, MLR）、偏最小二乘回归（Partial Least Squares Regression, PLSR）和支持向量回归（Support Vector Regression, SVR）常用于浓度估计[20]。然而，这些传统方法通常依赖于手工制作的特征，如稳态响应、峰值和响应区域，这些特征无法充分捕捉传感器响应的非线性和时间动态性，从而限制了模型的性能。
深度学习的最新进展显著提高了气体传感性能。卷积神经网络（Convolutional Neural Networks, CNN）凭借其端到端的特征学习能力，已成功应用于一维、二维和三维数据表示[21,22]。例如，在[23]中提出的小型CNN模型无需复杂预处理即可实现有效的气体分类。同样，在[24]中的方法将离散小波变换（Discrete Wavelet Transform, DWT）与CNN结合，构建了动态小波CNN，从而实现了高分类准确率。然而，这些方法通常依赖于预定义的信号变换技术，并且主要关注气体分类，对浓度预测的关注较少。此外，大多数现有研究集中在单组分气体识别或多组分混合物的定性分析上[25,26,27]，而高精度定量预测的研究还不够充分[28]。
为了模拟传感器响应的时间动态性，循环神经网络（Recurrent Neural Networks, RNN）及其变体被广泛用于气体浓度估计。带有注意力机制的基于变压器的架构在序列建模方面表现出优越的性能[29,30,31]。还提出了混合CNN-RNN框架，以联合执行分类和回归任务。例如，在[32]中的方法使用WCCNN-BiLSTM进行气体分类，然后使用GRU进行浓度预测，而在[24]中引入了多对多LSTM结构以提高预测准确率。尽管取得了这些进展，但仍存在一些挑战。首先，大多数现有方法需要完整的传感器响应序列，导致计算成本高和识别速度慢。其次，通常为分类和回归任务分别设计独立的模型，增加了系统复杂性和预处理开销。第三，由异质来源引起的数据分布差异会降低单气体场景下模型的泛化能力。
为了解决这些限制，本研究提出了一种统一的深度学习框架，用于气体识别和浓度预测，该框架高效利用动态响应信息。具体来说，仅使用从初始反应到稳态阶段的传感器响应关键部分进行建模，这减少了数据冗余并保留了区分特征。此外，为了减轻单气体场景中数据分布异质性的影响，我们开发了一种级联识别-预测系统，以提高鲁棒性和泛化能力。本研究的主要贡献总结如下：
(1) 提出了一种复合格拉姆角场（Composite Gramian Angular Field, GAF）表示方法，该方法融合了求和和差分模式，将时间序列传感器数据转换为二维特征图，捕捉协方差结构和动态变化。然后使用基于CNN的模型进行端到端的气体分类。
(2) 设计了一个具有位置编码和多分支注意力机制的特征提取框架。进一步结合了通道级双向门控循环单元（Channel-wise Bidirectional Gated Recurrent Unit, Bi-GRU），以捕捉空间-时间依赖性，提高浓度预测的准确性。
(3) 开发了一种用于单气体感应场景的级联识别-预测系统，该系统减轻了数据分布的异质性并提高了模型鲁棒性。
(4) 所提出的方法支持单标签和多标签分类，并在包括低浓度、不同湿度和混合气体浓度预测在内的复杂条件下表现出强大的适应性。

**2. 数据集和预处理**
**2.1. 数据集**
本节描述了四个用于模型验证的数据集，包括三个公开可用的数据集和一个使用我们设计的电子鼻系统收集的数据集。选择这些数据集是为了建立一个全面的验证流程，涵盖多组分气体混合物、低浓度和湿度干扰场景、跨设备 variability以及实际实验室部署，从而确保所提出方法的有效性和泛化能力。

**2.1.1. 数据集I**
数据集I来自UCI机器学习库（UCI Machine Learning Repository），由Fonollosa等人收集[33]。在本研究中，它用于评估气体分类和浓度预测的模型性能。数据采集平台集成了八个金属氧化物（Metal Oxide, MOX）气体传感器和温度湿度监测模块，在受控风洞环境中进行动态气体混合物测量。使用了两个独立控制的气体源：源1释放乙烯（C2H4），而源2释放甲烷（CH4）或一氧化碳（CO）。通过精密流量调节生成二元气体混合物（C2H4/CH4或C2H4/CO）。每种气体组分在四个浓度水平（零、低、中和高）下进行调节；详细信息见表1。共构建了30种不同的混合物（15种C2H4/CH4组合和15种C2H4/CO组合），每种浓度比例重复六次，共获得180个样本。每次采样持续300秒，包括60秒的无气体流入时间，接着是180秒的预定气体混合物暴露时间，最后是60秒的逐渐气体排放时间。传感器响应以50 Hz的频率采样。

**2.1.2. 数据集II**
数据集II在UCI上公开可用，来自Javier Burgués团队[34]。我们使用它来评估在不同湿度水平下的低浓度条件下的浓度预测模型。在250立方厘米的测试室内，通过质量流量控制器（EL-FLOW Select, Bronkhorst）混合三种气体流来生成动态气体混合物：一氧化碳（CO，浓度为1600 ppm）的合成空气、潮湿的合成空气和干燥的合成空气。Sensirion公司的SHT75传感器每5秒记录一次内部温度和相对湿度。该数据集包含在10个浓度水平（0–20 ppm）下测量的1300个样本，相对湿度随机变化（15–75%）。每个测量周期包括15分钟的合成空气清洁时间，然后是15分钟的一氧化碳暴露时间，流量恒定为240 mL/分钟。传感单元是由Figaro Engineering提供的14个温度调节MOX气体传感器阵列（7个TGS 3870-A04和7个SB-500-12）。每个传感器的操作温度通过内置加热器按照重复电压序列循环调节：0.9 V持续5秒，0.2 V持续20秒，0.9 V持续5秒，0.2 V持续25秒。传感器输出电压以50 Hz的频率采样。

**2.1.3. 数据集III**
数据集III也来自UCI库，由J. Fonollosa等人提供[35]。我们使用它来评估所提出的识别-预测系统在设备间变异性和传感器漂移下的性能。实验设置包括五个相同的检测单元。每个单元包含八个MOX气体传感器阵列，每个传感器的加热电压单独控制，安装在一个60毫升的腔室中。四种目标气体——乙烯、乙醇、一氧化碳和甲烷——从标准气体 cylinders供应。每种气体都与合成空气混合，产生十个不同浓度水平的单组分气体流，如表2所示。每次测量的实验程序如下：先引入清洁空气50秒，然后是100秒的目标气体暴露时间，最后是450秒的清洁空气吹扫时间以恢复传感器。传感器响应信号以100 Hz的频率连续采集22天，共获得640个时间序列样本。

**2.1.4. 数据集IV**
为了评估所提出的多气体识别-预测方法，我们开发了一种E-nose实验装置并收集了实时数据集作为数据集IV。实验设置如图1所示，由传感器阵列、气体路径系统和信号采集单元组成。图1展示了我们实验室设计的气体传感实验装置。气体传感器阵列包括九个MOX传感器，包括三个WSP1110（来自中国郑州的Winsen Electronics Technology Co. Ltd.）和三个MQ136传感器（来自中国）。该阵列设计用于检测三种目标气体：二氧化氮（NO2）、苯（C6H6）和二氧化硫（SO2）。为了获得不同的响应特性，每种类型的三个传感器在不同的加热电压下工作：4.5 V、5.0 V和5.5 V。腔室湿度和温度分别使用DHT11传感器和DS18B20传感器（均来自中国）实时监测。气体输送系统包括气体 cylinders、质量流量控制器（MFCs）、气体腔室和排气导管。cylinders供应目标气体，而MFCs精确调节目标气体与空气的比例，实现受控的浓度水平并保持腔室内的连续气体流动。每个实验过程遵循空气吹扫、目标气体暴露和空气吹扫的循环顺序。每个实验持续660秒，包括360秒的气体暴露阶段和300秒的空气清洁阶段，采样频率为15 Hz。结果数据集涵盖了三种气体的20个浓度梯度。详细信息见表3。表3显示了数据集IV中三种气体的样本数量、类别标签和浓度值。信号采集模块基于STM32F103C8T6微控制器（由位于瑞士日内瓦的STMicroelectronics公司制造），包括电压分压、RC滤波和电压跟随器的信号调节电路。模拟-数字转换使用芯片内置的12位ADC完成，数据通过串行接口传输到上位计算机。软件采用上下位计算机协调的架构。下位计算机运行FreeRTOS实时操作系统，管理并行任务，包括传感器数据采集和转换、温度和湿度读取、OLED显示以及串行通信。上层计算机使用LabVIEW开发，提供了串行端口配置、实时波形显示、数据存储和交互式控制的图形用户界面。图2显示了传感器的测试电路。加热电压（VB）施加在传感器内的集成加热器上，使气体敏感元件能够在特定温度下与目标气体充分反应，从而确保输出检测信号的一致性。工作电压VC施加在由传感器和负载电阻组成的串联电路上，将传感器电阻的变化转换为电压变化。主要输出信号由以下公式表示：其中RS是传感器电阻，Vc是施加的工作电压。图2. 传感器测试电路。图3显示了传感器阵列在暴露于7.5 ppm C6H6时的实际响应曲线，所有传感器都显示出可测量的电阻变化。由于C6H6是一种还原性气体，它与吸附在传感器表面的氧物种发生反应，导致传感器电阻（Rs）降低，因此负载电阻上的电压分压（VRL）增加。这种电压变化直接记录了发生在传感器表面的化学吸附-解吸过程的动力学。以15 Hz的频率采集数据，在360秒的暴露时间和300秒的清洗阶段，每个传感器分别获得了5400点和4500点的数据。因此，每个实验样本包含来自九个传感器的89,100个点，捕捉了整个响应-恢复周期的丰富时间细节。图3. 传感器阵列在暴露于7.5 ppm C6H6时的响应曲线。

2.2. 数据预处理
为了解决高维数据、环境噪声以及原始传感器阵列时间序列数据冗余带来的挑战，我们采用了一种预处理程序，包括数据段提取、指数加权移动平均（EWMA）平滑、下采样和数据增强。首先，提取从气体暴露开始到传感器响应稳定阶段的段。这个阶段包含对气体识别和定量具有鉴别性的瞬态特征。仅使用这个阶段就可以实现快速分析，因为它避免了完全稳态监测的延迟，并减少了数据维度，从而提高了计算效率。随后，应用EWMA平滑来抑制环境和电路噪声。时间t处传感器s的EWMA输出xs,t递归计算如下：
(1)
其中是时间t处传感器s的原始观测值，是前一个时间步的平滑值。平滑因子α由跨度参数确定，在本研究中被设置为10，即α=10。图4展示了EWMA（跨度=10）对代表性传感器响应的平滑效果。与原始信号（蓝色）相比，处理后的曲线（红色）抑制了随机波动和尖峰，清晰地显示了基线、响应和恢复过程中的整体趋势。对瞬态阶段的放大视图确认，关键动态特征（开始时间和斜率）得到了很好的保留，没有明显的延迟或失真。因此，EWMA在保留对气体浓度估计相关的瞬态信息的同时，提高了信号质量。图4. 数据集I中TGS2602传感器的原始信号和EWMA平滑（跨度=10）信号的比较，展示了全局响应概况及瞬态阶段的放大视图。最后，应用下采样结合基于滑动窗口的数据增强来减少数据维度并解决数据集样本量有限的问题。考虑一个从单个传感器以100 Hz的频率采样的原始序列，包含1000个时间点，表示为，其中表示第s个传感器在第i个采样时刻的响应值。通过每十个点提取一个数据点进行下采样，形成一个维度为100 × S的数据矩阵，构成一个数据样本。每个原始浓度样本通过滑动窗口方法进一步划分为10个这样的样本，生成增强的实例。这种方法有效地将样本量扩大了十倍，同时保留了数据的关键动态特征。由于数据集II已经包含足够的样本数，因此没有进一步进行增强处理。应用上述程序后，数据集I–IV的样本量分别为1800、1300、6400和1200。

分类任务的标签编码策略如下：对于纯的单种气体，采用单一标签编码方案，其中每个气体类别由一个唯一的整数表示（即0、1、2等），如表2和表3的标签列所示。对于气体混合物，采用多标签编码方案，其中特定气体的存在编码为1，其缺失编码为0，如表4所示。表4. 数据集I中气体类型的多标签编码方案。

3. 方法
为了满足实际应用中气体检测的多样化需求，本文提出了一种新颖的神经网络架构，如图5a所示。该框架包括两个模型：气体分类器和气体浓度预测器。分类器集成了一种Gramian角场变换模块和一个多分支卷积神经网络模块。预测器由多模态注意力融合（MAF）模块、一个CNN模块和一个Bi-GRU模块组成。分类器和预测器都配备了MLP模块用于输出维度转换。这些组件共同提高了气体识别的准确性和浓度预测性能，形成了一个能够适应复杂环境中多种任务的多功能且稳健的检测系统。利用预处理的传感器阵列数据，系统根据任务目标动态激活相应的功能分支，如图5b所示。具体来说：

(1) 气体种类识别：对于仅需要区分气体类型的任务，预处理后的数据被输入到分类器中（数据流对应于图5a中的路径(A-1)和(B-1)）。这种分类器支持单类和多类模式，能够准确识别样本中存在的所有气体成分。
(2) 混合气体和单一气体的浓度预测：预处理后的数据被输入到预测器中（数据流对应于图5a中的路径(A-2)和(B-2)）。输出单元的数量等于气体种类的数量，每个单元负责估计特定气体的浓度。所提出的模型即使在低浓度下也能实现高预测准确性。
(3) 单一气体的识别和浓度预测：在只知道存在一种气体但需要确定其类型和浓度的场景中，系统采用分类器-预测器级联架构（如图5a中的蓝色路径(A-1)–(C)–(A-2)所示）。在这种架构中，前端分类器识别气体类型并将数据路由到专门针对该气体类别的回归子网络进行浓度预测。这种针对气体的设计减少了统一模型中不同气体数据分布引起的干扰，从而提高了预测准确性和稳健性。

3.1. 气体分类器
如图6所示，所提出的气体分类器框架包括三个主要模块：一个GAF变换器，将来自传感器阵列的原始时间序列信号转换为全局图像表示；一个多阶段CNN，作为多尺度和多维表示的层次特征提取器；以及一个MLP输出模块，将高维特征映射到目标分类空间。该架构结合了时间序列图像编码和深度卷积特征学习，增强了分类的稳健性。图6. 气体分类器框架。首先，使用Gramian角和场（GASF）和Gramian角差场（GADF）独立变换每个传感器的原始时间序列信号。这个过程将一维时间序列转换为具有明确空间结构的二维图像，使得时间依赖性和动态变化可以直观表示。然后，将两个图像融合成一个统一的复合图像。通过结合GASF对全局信号趋势的敏感性和GADF编码时间差异的能力，融合后的表示具有更强的描述性和可区分性。最后，所有传感器的复合图像沿通道维度连接起来，输入到CNN中，CNN执行多尺度特征学习以捕捉非线性交互和跨传感器依赖性。MLP然后将提取的嵌入映射到分类空间，从而能够精确识别单个气体种类和气体混合物。

3.1.1. GAF
为了改进传感器时间序列特征表示，引入了Gramian角场方法。该方法通过极坐标映射保留时间依赖性，并使用三角函数量化数据点之间的相关性，形成一个Gramian矩阵，将动态的一维时间序列编码为二维图像特征[36]。GAF包括GASF和GADF。用表示第s个传感器的一维样本数据，n是采样点的数量，S是阵列中传感器的总数。首先，使用以下公式将转换为标准化值：
(2)
然后，对于每个传感器s，使用角度编码和半径编码将标准化时间序列映射到极坐标，i表示第i个采样编号。接下来，通过GASF和GADF将极坐标中的重构序列转换为两种类型的二维特征图像（和），如方程（3）所示：
(3)
GASF编码角和的余弦，保留时间相关性和整体趋势，而GADF编码角差的正弦，擅长捕捉局部变化和异常模式[34]。为了整合这两种互补的表示，首先将来自每个传感器的GASF和GADF映射逐元素求和，然后连接起来，形成一个维度为S × n × n的3D特征图：
(4)
具体来说，GASF利用余弦属性反映相似时间点值之间的协调变化，而GADF利用正弦属性突出局部波动模式。GASF和GADF图像的逐元素融合结合了它们的互补角度关系，将两种表示合并为一个统一的输入。这使得CNN能够同时捕捉时间序列的全局趋势和局部细节，为后续学习阶段丰富了特征表示，而不会引入计算开销。结果融合表示提供了更具信息性的特征空间，从而提高了整体分类性能。

3.1.2. CNN和MLP
卷积神经网络旨在自动且高效地从GAF融合的特征图中提取线性和非线性特征。MLP然后聚合这些特征并生成最终预测。CNN的核心由三个卷积模块组成，每个模块都遵循相同的操作顺序：3 × 3卷积、批量归一化、ReLU激活函数和2 × 2最大池化层。最后，应用概率为0.1的Dropout策略进行轻微的正则化。因此，第l层卷积层的输出可以表示为：
(5)
其中表示卷积核，xl?1是前一层的输出特征图，表示偏置项，l = 1, 2, 3。最后一个卷积层的输出被展平为一维特征向量，然后输入到MLP中。MLP包含两个全连接（FC）层和一个输出层。MLP的输出由以下公式计算：
(6)
对于单标签分类，通过Softmax输出层产生一个标准化的类别概率分布（即），具有最高概率的类别是最终预测。对于多标签分类，Sigmoid输出层为每个类别生成[0, 1]范围内的独立置信度分数（即）。如果样本的对应分数超过0.5的决策阈值，则将其分配给相应的类别。相应层的权重表示为和；偏置表示为和。

3.2. 气体浓度预测器
为了提高复杂环境中气体浓度预测的准确性，本研究提出了一个结合多模态注意力融合与时空解耦学习的气体浓度预测器。如图7所示，模型架构包括两个模块：(1)一个编码器，它结合了三种异构注意力机制从原始输入序列中提取多维增强特征；(2)一个解码器，它结合了CNN和双向GRU来捕获空间交互模式和双向时间依赖性。图7. 气体浓度预测器框架。由于注意力机制的并行计算特性，在设计三方分支注意力处理之前，必须对输入数据应用位置嵌入。然后构建三个并行的注意力分支：单头自注意力分支捕获全局上下文化的时间依赖关系；多头自注意力分支从多个子空间中提取复杂的相互作用；线性注意力分支直接作用于原始数据，提高数值稳定性同时减少信息损失。这三个分支的输出被连接起来形成一个统一的多表示特征立方体，使解码器能够进行全面分析。随后，这个特征立方体通过CNN处理以提取传感器间的空间特征，这些特征被 flattened 成时间序列并输入到Bi-GRU中以模拟深度双向依赖关系。最后，一个线性层将抽象特征映射到不同气体的浓度值。通过将注意力机制、CNN和RNN集成到一个混合架构中，模型有效地实现了多模态特征融合和在空间和时间维度上的解耦学习。它同时捕捉长期和短期依赖关系、空间相关性以及动态时间演变，使其特别适用于低浓度和混合气体场景中的高精度浓度预测。

3.2.1 基于多分支注意力融合的编码器
在注意力处理之前，一个正弦-余弦嵌入模块将位置信息注入输入序列以保持时间顺序。对于序列长度为n和特征维度为S的传感器响应，生成一个位置编码矩阵并添加到输入中。位置i和维度j的编码由以下公式计算：这里省略了具体的计算公式。选择这种编码方式是因为它通过线性变换构建了一个能够表达相对位置信息的统一编码空间。编码后的输入被投影到查询（Q）、键（K）和值（V）矩阵中以进行并行处理。单头自注意力分支计算缩放后的点积注意力：（公式省略）其中，缩放因子用于防止梯度极小。该机制捕捉了传感器序列中的全局时间依赖关系，提供了气体响应动态的上下文化表示。为了进一步增强模型捕捉多样依赖模式的能力，引入了多头注意力（MHA）机制。MHA将输入投影到h个不同的表示子空间中。对于每个头，（公式省略）。所有头的输出被连接并线性投影以整合多子空间特征：（公式省略）。为了减轻训练过程中可能的梯度消失或爆炸问题，加入了一个线性注意力模块以从原始数据中提取时间特征：（公式省略）。在上述注意力机制中，投影矩阵（公式省略）都是可学习的参数。三个分支的输出被连接起来形成一个统一的特征张量En：（公式省略）。这个统一张华为解码器提供了丰富的、多视角的特征集以进行全面分析。

3.2.2 基于CNN、Bi-GRU和MLP的解码器
CNN的输入是由注意力机制生成的特征立方体，而卷积块架构（200 → 32 → 64 → 128通道）与分类器中使用的结构相同。CNN产生的特征张量随后沿着通道维度被平坦化成一个一维特征向量，然后输入到Bi-GRU中进行时间建模。

（2）Bi-GRU和MLP
在本研究中，Bi-GRU作用于CNN主干网络提取的空间增强特征序列，实现联合时空建模并提高对复杂气体响应模式的区分能力。图8a中展示的GRU单元通过门控机制更新其隐藏状态：（公式省略），其中Rt和U分别表示重置门和更新门；w1, w2, w3, w4, w5是权重参数；b1, b2, b3是偏置参数；x_t是当前时间步的输入；h_t是当前和时间步之前的隐藏状态；σ是Sigmoid函数。图8展示了（a）GRU和（b）Bi-GRU的示意图。为了利用完整的数据段，我们采用了Bi-GRU网络来捕捉双向时间依赖性，从而获得更丰富的序列表示。如图8b所示，它由两个GRU层组成，分别朝相反方向处理输入序列：一个正向GRU将信息从t = 1传播到t = t，另一个反向GRU将信息从t = t传播到t = 1。对于任意时间步t，正向和反向的隐藏状态分别表示为h_t^f和h_t^b，并根据GRU单元的更新机制进行更新。然后连接这两个方向的隐藏表示以获得最终的隐藏状态：（公式省略）。这种表示整合了过去和未来时间步的上下文信息，为后续的预测任务提供了更全面的特征表示。解码器其后端采用了一个五层全连接MLP作为输出模块。前四层使用ReLU激活函数来模拟提取特征与气体浓度之间的非线性关系，而输出层是线性的，其神经元数量等于目标气体种类数量。

3.3 参数设置
数据集根据其特征和任务目标进行了划分。仅用于回归任务的混合气体数据集（数据集I）和低浓度数据集（数据集II）被分为训练集和测试集，比例为8:2。单标签分类和预测数据集（数据集III和IV）同时涉及分类和浓度预测任务。由于这些双任务场景的训练复杂性增加，这些数据集进一步被分为训练集、验证集和测试集，比例为8:1:1，其中验证集用于模型选择和提前停止以提高泛化性能。气体分类器包括三个分别具有32、64和128通道的卷积块。每个块都配备了2 × 2的最大池化和批量归一化。然后应用一个具有256个单元的FC层，输出维度设置为气体种类数量（数据集I、III和IV分别为3、4和3）。在气体浓度预测器中，三个注意力分支的输出被投影到200维度。随后的卷积模块包含三个具有32、64和128通道的卷积块。采用了一个隐藏大小为65的Bi-GRU进行时间特征建模。得到的特征通过一个四层FC网络进行变换，维度分别为198、355、168和43。输出层预测气体浓度，输出维度分别为数据集I–IV的3、1、1和1。两个模型都使用Adamax优化器进行训练，分类任务使用交叉熵损失，回归任务使用平均绝对误差（MAE）。学习率始终设置为0.001。

3.4 评估指标
3.4.1 分类任务的评估指标
对于分类任务，选择准确性、精确度、召回率和F1分数作为评估指标。考虑到在多标签分类中每个样本可能同时属于多个类别，每个类别C_j被视为一个独立的二元分类问题。这些指标的公式定义如下：
准确率：在多标签设置中，通常使用精确匹配准确率。它定义为所有标签都正确预测的样本比例：（公式省略），其中N是样本总数；y_i^*和y_i是第i个样本的预测标签和真实标签；I(*)是指示函数（如果条件为真则等于1，否则为0）。
精确度：类别C_j的精确度是所有预测为正的样本中真正例的比例：（公式省略）。
召回率：类别C_j的召回率是所有实际为正的样本中真正例的比例：（公式省略）。
F1分数：类别C_j的F1分数是精确度和召回率的调和平均值：（公式省略）。
在上述公式中，y_i^+表示正确预测为类别C_j的样本数量，y_i^-表示错误预测为类别C_j的样本数量，y_i^?表示属于类别C_j但未正确预测为C_j的样本数量。然后通过对类别进行加权平均来获得整体精确度、召回率和F1分数：（公式省略）

3.4.2 回归任务的评估指标
回归性能使用决定系数（R2）、均方根误差（RMSE）和平均绝对误差（MAE）进行评估。较高的R2值和较低的RMSE和MAE值表示更好的预测性能。通过对每种气体计算的相应指标进行平均，获得C类气体物种的整体R2、RMSE和MAE：（公式省略）

4 结果与分析
在本节中，对四个气体数据集进行了广泛的实验以评估所提出的方法。实验在运行Windows 10的工作台上进行，配备了Intel Core i7-13700处理器、64 GB RAM和NVIDIA GeForce RTX 4080 GPU。代码使用Python 3.11.4在Jupyter Notebook 6.5.4中执行，并且在Anaconda 3环境中运行。

4.1 数据集
数据集I用于评估模型在气体分类和浓度预测方面的性能。图9显示了C2H4、CO和CH4在测试集上的损失趋势和单类别分类的混淆矩阵。如图9a所示，模型在前30个周期内迅速收敛，之后持续稳定下降。第68个周期时测试损失达到最小值0.0005，并且之后保持稳定。训练和测试损失之间的紧密对齐表明了强大的泛化能力，没有明显的过拟合现象。这种稳定性可以归因于GAF融合策略，它将一维传感器动态转换为结构化的二维表示，减少了模型拟合虚假噪声的倾向。

4.1.1 数据集I
数据集I用于评估模型在气体分类和浓度预测方面的性能。图9展示了C2H4、CO和CH4在测试集上的损失趋势和单类别分类的混淆矩阵。如图9a所示，模型在前30个周期内迅速收敛，之后损失持续稳定下降。第68个周期时测试损失达到最小值0.0005，并且之后保持稳定。训练和测试损失之间的紧密对齐表明了强大的泛化能力，没有明显的过拟合现象。这种稳定性可以归因于GAF融合策略，它将一维传感器动态转换为结构化的二维表示，减少了模型拟合虚假噪声的倾向。

4.1.2 多气体分类任务
在多气体分类任务中，模型可能在预测过程中为单个样本分配多个气体标签，这本质上是一个多标签分类问题。由于传统的混淆矩阵假设每个样本只属于一个类别，因此它无法准确反映这种场景下的类别性能。因此，我们采用一对多策略，为每个气体类别构建一个单独的混淆矩阵。具体来说，对于第i种气体，它被视为正类，而所有其他气体被视为负类。根据预测标签和实际标签之间的对应关系，获得四种结果（真正例、假正例、真负例和假负例）来形成该气体的混淆矩阵。混淆矩阵（图9b）显示所有来自三种气体类别（CO、CH4和C2H4）的样本都被正确分类，实现了100%的分类准确率。这一结果表明，所提出的带有Sigmoid输出层的多标签分类框架完全能够区分复杂混合环境中的不同气体种类。

4.2.1 C2H4、CO和CH4的浓度预测
数据集I中C2H4、CO和CH4的浓度预测性能在图10中进行了评估。图10a–c显示了每种气体的预测浓度与实际浓度之间的线性回归拟合以及误差指标（RMSE、MAE和R2）。绿色点代表样本，红色区域表示95%的预测区间。图10d–f显示了预测浓度与实际浓度的步长变化图。如图所示，所有三种目标气体的决定系数（R2）都超过了0.997，表明拟合效果非常好。RMSE和MAE相对于每种气体的浓度范围来说较低。值得注意的是，CO的RMSE和MAE值高于C2H4和CH4，这可以归因于其更宽的浓度范围。值得注意的是，数据点紧密聚集在回归线周围，95%的预测区间较窄。这表明该模型能够准确地拟合广泛的浓度范围内的实际浓度值。阶跃变化图进一步显示，该模型可以实时跟踪每种组分的浓度波动。此外，当某种特定气体成分缺失时，预测值仍然接近零，这证实了该模型具备双重能力：气体识别和高精度量化。图10显示了测试集上C2H4、CO和CH4的预测浓度与实际浓度的比较：(a–c) 带有95%预测区间的回归拟合；(d–f) 浓度的阶跃变化图。我们将每个输出神经元的预测浓度值二值化：如果预测值大于0，则记录为1，表示存在该气体种类；否则记录为0。然后将二值化的预测标签与测试集的真实标签进行比较，并使用精确度、召回率、F1分数和支持度来评估模型性能。结果如表5所示。从表中可以看出，所提出的预测模型也表现出有效的气体识别能力。表5显示了基于测试集预测结果的气体浓度二分类性能指标。这种最佳性能可以归因于两个因素。首先，预测模型中的每个输出神经元都与特定的气体种类相关联，实现了清晰的多标签映射。其次，A–CNN–GRU架构通过注意力机制有效地捕捉了传感器之间的依赖性，通过卷积层提取了区分性特征，并使用Bi-GRU模块对通道级依赖性进行了建模。4.2. 数据集I为了评估模型在低浓度条件下的预测性能，我们在仅包含低浓度单一气体的数据集II上进行了回归测试。图11展示了结果，包括随时间变化的MAE损失以及预测浓度与实际浓度之间的拟合曲线和误差指标。图11a中快速的稳定收敛以及训练和测试损失的紧密匹配，得益于MAF编码器和CNN–Bi-GRU解码器共同在弱信号条件下强制学习物理气体响应动态。因此，该模型在0–20 ppm范围内对CO的预测非常准确，RMSE为0.779，MAE为0.460，R2为0.986。4.3. 数据集III为了减轻由于气体浓度分布不均而导致的跨类别预测偏差，我们提出了一种识别-预测级联架构。该框架构建了一个针对特定气体的专家系统，其中每个气体类别都关联到一个独立的回归子网络。在训练过程中，分类和回归模块分别进行优化。与传统方法不同，回归模块结合了一个分类感知的掩蔽机制，将同一气体类别的样例路由到相应的回归器。图12展示了训练和测试集上随着训练周期变化的分类损失和准确度，以及四种气体类型的混淆矩阵。如图12a,b所示，训练和验证损失都迅速下降，到第11个周期时验证损失降至0.00，并在随后几个周期内收敛到接近零的值，同时相应的准确度在第六个周期迅速达到1.00并保持稳定。这一行为表明分类器有效地捕获了数据集的区分模式而没有过拟合。图12c中的混淆矩阵进一步证实了分类性能。四种气体类别（CO、C2H5OH、C2H4和CH4）之间没有误分类，所有样本都位于矩阵的对角线元素上。这种完美的分类结果为后续的回归阶段的类别特定路由提供了可靠的基础。基于此架构，回归网络对所有气体的浓度预测性能都非常出色，如图13所示。预测浓度与真实值表现出强烈的线性一致性，CO、C2H5OH、C2H4和CH4的R2值分别为0.996、0.998、0.997和0.996。得益于这种识别-预测框架，所有测试样本都被正确分类并路由到各自的回归分支，从而证实了分类掩蔽机制的必要性。从架构上看，这种方法减轻了处理异构气体时统一模型性能下降的问题，从广泛的泛化能力转向了针对性的精确度。4.4. 数据集IV为了进一步验证所提出的专家架构的有效性并避免潜在的数据集特定偏差，还在一个自建的实验室数据集上评估了该识别-预测框架。该数据集使用包括商业MOX传感器（WSP1110、WSP2110和MQ136）的传感器阵列进行记录，证明了该框架可移植到独立设计的硬件上，而不仅仅是公共基准数据集。如图14a,b所示，模型在训练期间表现出快速稳定的收敛。训练和验证损失在早期阶段迅速下降，并在第三个周期时接近零，同时相应的准确度迅速增加到1.000并在之后保持稳定。训练和验证损失之间的密切一致性表明模型有效地捕获了区分模式并保持了强大的泛化能力。图14显示了数据集IV的分类和浓度预测性能。(a) 训练和验证集的分类准确度曲线比较；(b) 随训练周期变化的分类损失趋势；(c) NO2、SO2和C6H6的混淆矩阵；(d–f) NO2、SO2和C6H6的预测浓度与实际浓度的拟合曲线。图14c中的混淆矩阵进一步验证了分类性能。所有NO2、SO2和C6H6的样本在多个独立测试集上都被正确分类，所有样本都位于矩阵的对角线元素上。这种完美的分类准确性为后续的浓度回归阶段提供了可靠的基础。关于浓度预测任务，模型展示了预测浓度与实际浓度之间的强线性相关性，如图14d–f所示。回归结果分别获得了NO2、SO2和C6H6的R2值为0.998、0.973和0.996，相应的RMSE值为0.132、0.476和0.911，MAE值为0.083、0.313和0.623。SO2相对较宽的预测区间可能归因于SO2传感单元的交叉敏感性，而C6H6的略微较大误差可能与它的较宽浓度范围有关。尽管如此，高R2值表明在不同浓度水平上预测性能稳定。与数据集III的发现一致，这些结果表明所提出的识别-预测框架减轻了多类气体检测任务中由于数据分布不一致而导致的模型特异性损失。这进一步支持了其在实际应用中的可行性。5. 讨论5.1. 对比实验为了评估所提模型的分类和预测性能，考虑了12种方法进行对比实验。经典的机器学习方法包括支持向量机（SVM）、k最近邻（KNN）、极限学习机（ELM）和回归模型（RM），而最近报道的方法包括2L-ARNN [37]、PMH-TCN [38]、A-GRU [39]、1D-CNN [40]、3D-CNN [41] 和 DWCNN-LSTM [24]。为了提高实验结果的可靠性，选择了包含气体分类和浓度预测信息的数据集I进行对比评估。我们对所有模型应用了5折交叉验证方案。具体来说，预处理后的数据集被随机划分为五个相等大小且互斥的子集。每次迭代中，四个子集用于训练模型，而剩余的子集作为独立测试集。这个过程重复五次，确保每个数据点恰好被测试一次。对于经典的机器学习方法，首先使用Z分数对原始传感器时间序列数据进行归一化以消除尺度差异。随后，提取了五个统计特征（最大值、最小值、平均值、标准差和方差），将每个样本转换为40维的特征向量作为模型输入。相比之下，深度学习方法在响应阶段直接使用预处理后的传感器响应序列作为输入，从而充分利用了它们的端到端特征学习能力。为了确保公平比较，对某些基线模型进行了几次调整，包括根据气体类别数量调整输出神经元的数量，并修改输出层的激活函数以支持浓度预测任务。所有其他超参数都与原始研究中报告的保持一致，确保每个模型在其接近最优条件下运行。表6展示了所有比较方法的分类和预测性能。报告的推理时间代表1000个单样本预测的中位数。从结果中可以得出以下观察：(1) 在气体分类任务中，KNN和SVC的准确度分别为81.67%和91.11%，而ELM(C)仅达到47.78%。在浓度预测任务中，SVR和ELM(R)的总体R2值分别为0.9520和0.9593，伴随着相对较高的RMSE和MAE。这些结果表明它们在建模复杂非线性关系方面能力有限，因为传统方法依赖于手工制作的特征和静态映射，不足以捕捉气体传感器响应的动态特性。(2) 由于大多数深度学习模型在分类方面已经达到性能饱和，因此预测任务提供了更具区分性的评估。就回归性能而言，基于循环的模型如2L-ARNN、PMH-TCN和A-GRU的总体R2值分别为0.9582、0.9699和0.9632，RMSE值均超过10。这可能是由于它们提取关键特征的能力有限以及对长序列信息衰减的敏感性。相比之下，基于卷积的模型，包括1D-CNN和3D-CNN，获得了更高的总体R2值，分别为0.9877和0.9942，RMSE降低到7.4834和5.7612，MAE显著降低，表明它们在局部特征提取方面具有较强能力。混合型DWCNN-LSTM模型的总体R2值为0.9793，RMSE和MAE值也优于几种竞争方法。相比之下，所提出的模型在所有评估指标上均表现最佳，总体R2值为0.9897，C2H4的R2值为0.9720，CO为0.9979，CH4为0.9897。此外，它获得了最低的RMSE和MAE，表明预测精度更高，错误分布更集中，稳定性更好。这种优越性能归功于其有效整合了多尺度特征提取与时序动态建模，从而捕捉了气体响应过程中的复杂关系。(3) 尽管传统方法和高效卷积模型（如3D-CNN）的推理速度非常快（0.017 ms），但所提模型的推理时间为2.8885 ms，仍处于毫秒范围内。所提方法的端到端延迟量化为，其中（60–180 s）是传感器的内在响应时间，（0.2–0.5 s）是稳态确认窗口，（2.89 ms）是模型执行时间。由于算法延迟（<3 ms）与物理响应相比可以忽略不计，总延迟主要由传感器动力学控制，而不是计算复杂性，通过消除延长的稳态保持和恢复阶段，测量周期时间相比传统方法（300–600 s）减少了50%以上。5.2.**消融实验**
为了验证所提出的模型组合策略的有效性，我们对分类和预测模型进行了系统的消融实验，结果分别展示在图15和表7中。
- **图15**：不同分类模型在数据集I上的测试损失随训练次数的变化情况。
- **表7**：在数据集II上的气体浓度预测实验中的性能指标。

对于分类模型，系统地比较了原始CNN、GADF-CNN、GASF-CNN以及融合模型（GASF+GADF-CNN）的性能。与直接处理原始时间序列数据的传统CNN相比，引入GADF或GASF变换后，模型在早期训练阶段的收敛速度更快，损失显著降低。这表明基于GAF的表示方法增强了输入数据的结构信息，从而提高了特征的可区分性并加速了优化过程。此外，整合了GADF和GASF的融合模型在整个训练过程中实现了最快的收敛速度，并在大约30个训练周期后趋于稳定。在收敛稳定性方面，原始CNN在中间和后期训练阶段表现出明显的波动，包括偶尔出现的损失峰值，表明其优化过程不够稳定；而GADF-CNN和GASF-CNN则表现出更平稳的损失曲线，融合模型几乎没有波动。这证实了特征融合有效提高了模型的鲁棒性。

为了进一步评估所提出的预测框架中每个关键模块的贡献，我们在具有挑战性的低浓度数据集II上进行了消融实验，涉及A-CNN、CNN-GRU以及混合模型A-CNN-GRU。实验结果总结在表7中。所有单独模型都实现了相对较高的预测准确性，但在不同评估指标上存在权衡。A-CNN模型获得了最低的MAE（0.4225），表明其在控制平均误差方面表现优异；然而，其较低的R2（0.9618）表明其在捕捉整体数据分布方面的能力有限。通过结合时间建模，CNN-GRU模型的R2提升至0.9771，显示出更好的表征气体信号动态响应的能力。尽管如此，其RMSE和MAE仍略高于最优值，反映出预测的可变性。相比之下，所提出的A-CNN-GRU模型在整体性能上表现最佳，RMSE显著降低至0.7794，R2提升至0.9860，表明其在拟合精度和误差控制之间取得了良好的平衡。虽然其MAE略高于A-CNN，但整体误差更低且更稳定，显示出更强的泛化能力。这种改进归功于卷积特征提取与基于GRU的时间建模的有效结合，使得能够全面捕捉气体传感器响应中的复杂动态模式。实验结果证实，所提出框架中引入的模块是互补的而非冗余的，它们的整合提升了模型在不同任务复杂性和环境条件下的性能，为电子鼻系统中的气体识别和浓度预测提供了坚实的基础。

**5.3 数据长度对模型性能的影响**
为了研究可靠气体识别和量化所需的最小数据量，我们使用数据集I评估了输入序列长度对模型性能的影响。将完整的上升阶段（从暴露开始到上升过渡期直至初始稳态建立）分为四个相等的部分，分别作为模型的输入部分。所有预处理参数和模型架构均与第2.2节和第4.1节保持一致。
图16a显示了在不同输入长度下，气体分类器的测试损失随训练次数的变化情况。当仅使用上升阶段的初始1/4部分时，由于缺乏判别性特征，模型无法实现数值收敛，导致整个训练过程中的损失值不稳定。对于长度为2/4和3/4的部分，虽然最终能够收敛，但收敛开始时间比全长度模型延迟了约20个训练周期，并且训练过程中损失波动较大。而使用完整上升阶段的预测模型在前200个训练周期内迅速收敛，之后保持稳定的低损失值。这表明过度缩短数据长度会以牺牲模型的鲁棒性为代价。
图16b展示了在不同数据长度下，测试损失随训练次数的变化情况（a）气体分类器；图16c显示了不同输入长度下的浓度预测性能，并在表8中进行了量化。随着输入长度的减少，所有气体的预测准确性均下降。以CO为例，2/4长度下的RMSE为全长度的9.4倍（27.22 vs 2.90）。不同气体对采样长度的敏感度各不相同：例如，CH4在2/4长度下仍具有一定的预测能力（R2 = 0.9618），而C2H4的性能明显较差（R2 = 0.7665）。这种差异反映了不同气体分子的吸附动力学特性；过早截断采样会导致响应速度较慢的气体出现识别盲点。实验确认，使用完整的上升数据段是确保在复杂气体混合物场景中成功完成识别和预测任务所需的长度。

**6. 结论**
本研究提出了一种用于电子鼻系统中快速气体识别和浓度估计的双模型框架。该框架引入了结合GASF和GADF的复合Gramian Angular Field表示方法，将时间序列传感器数据转换为具有判别性的二维特征图，从而实现基于CNN的分类器进行端到端的气体分类。对于浓度预测，开发了一种基于注意力机制的CNN-Bi-GRU架构，以捕获多尺度空间特征和双向时间依赖性。此外，提出了一个级联的识别-预测方案，以缓解单气体场景中由于数据分布不均匀导致的跨类别预测偏差。该框架的一个关键优势是它无需完整的传感器响应周期，而是利用从初始暴露到早期稳态的上升阶段来实现快速准确的识别和量化。所提方法的有效性已在三个公开可用的数据集以及我们实验室收集的数据集上得到了验证。实验结果表明，分类模型在所有评估场景中实现了100%的准确率，而浓度预测器在多样化的气体和浓度范围内表现出出色的定量可靠性。

在未来的工作中，我们将将该框架扩展到复杂的多组分混合物，通过早期过渡特征分析和轻量级架构设计进一步减少感知延迟，并在实际操作约束下推进嵌入式系统的部署和实际测试。

热点排行