利用二维卷积神经网络(2D-CNN)结合SMOTE数据和阈值移动算法进行化学成分成像及类别不平衡处理,用于烟草来源的分类
《Talanta》:Chemical Composition Imaging and Class Imbalance Handling Using a 2D-CNN with SMOTE and Threshold Moving for Tobacco Origin Classification
【字体:
大
中
小
】
时间:2026年05月07日
来源:Talanta 6.1
编辑推荐:
李文婷|陈 Hexin|万里|王冰|严全平|李珊|王志才|王洪波|刘克健|于静静|杨松|王聪|郭俊伟|赵乐|谢富伟|聂聪中国烟草总公司郑州烟草研究所,郑州 450001摘要为了解决烟草产地分类中复杂的化学关系和地理样本不平衡问题,提出了一种结合化学成分成像与二维卷积神经网络(2D
李文婷|陈 Hexin|万里|王冰|严全平|李珊|王志才|王洪波|刘克健|于静静|杨松|王聪|郭俊伟|赵乐|谢富伟|聂聪
中国烟草总公司郑州烟草研究所,郑州 450001
摘要
为了解决烟草产地分类中复杂的化学关系和地理样本不平衡问题,提出了一种结合化学成分成像与二维卷积神经网络(2D-CNN)以及带有阈值移动的合成少数样本过采样技术(SMOTE)的方法。在该方法中,多维化学成分被转换为结构化的二维图像。然后构建一个2D-CNN深度学习模型,通过二维卷积来捕捉化学指标之间的复杂关联。通过将SMOTE与阈值移动技术相结合,减轻了由于类别不平衡引起的分类器偏差。结果显示,2D-CNN分类模型在测试集上的总体准确率为0.9764,平均精确率为0.9477,召回率为0.9511,F1分数为0.9492,表明模型性能优异。在相同的处理不平衡的情况下,2D-CNN的平均F1分数比一维CNN(1D-CNN)高出2.51%,这证实了化学成分成像能够有效提取复杂的指标间关系。SMOTE和阈值移动的结合有效缓解了类别不平衡的影响,显著提高了少数区域的识别率。此外,为了独立验证这种不平衡处理策略的有效性,将其应用于一个公开的图像数据集(Niphad葡萄叶病数据集)。与未采用任何不平衡处理的基线模型相比,少数类的绝对召回率提高了40个百分点。
引言
数据分布不平衡是分类任务中常见但关键的问题,不同类别之间的样本数量差异导致模型偏向多数类别,往往以牺牲少数类别的识别为代价[1]。这个问题在许多应用中普遍存在,包括医学诊断[2]、欺诈检测[3]和缺陷识别[4],尤其是在农产品分类中尤为突出。许多高价值作物(如水果[5]、[6]、咖啡[7]、[8]、茶叶[9]、[10]和烟草[12]、[13])的质量和市场价值与特定的生长区域密切相关。由于不同生产地区的气候、土壤条件和地形差异,种植面积和作物产量存在显著差异,从而导致地理来源的样本分布本质上是不平衡的。基于这种不平衡数据构建的模型可能会偏向高产量地区,从而降低对低产量地区的区分能力,从而影响分类的总体可靠性[14]。
为了解决数据不平衡问题并提高分类性能,现有算法主要分为两类:基于采样的方法[15]、[16]、[18]和阈值移动方法[19]、[20]、[21]。在基于采样的方法中,合成少数样本过采样技术(SMOTE)被证明非常有效。例如,张等人[18]和刘等人[4]使用了SMOTE来处理不平衡样本,分别在苹果核霉病检测和燃气轮机不平衡故障诊断中取得了有效的区分效果。El Moutaouakil等人[22]和张等人[17]通过各种改进进一步提高了SMOTE的效果。然而,SMOTE主要通过在数据层面平衡类别样本大小来解决不平衡问题。阈值移动是一种通过调整决策阈值来缓解类别不平衡的技术,而不改变模型训练过程。这种方法通常应用于二元分类任务,其最优阈值可以使用接收者操作特征(ROC)曲线来确定。通过采用一对余(OVR)策略,阈值移动可以扩展到多类分类问题。因此,将优化的阈值移动应用于SMOTE训练的模型可以使模型更接近真实决策边界,并有效缓解由类别不平衡引起的决策函数固有偏差。
在作物产地分类领域,常用的两种方法学方法是:基于光谱的方法和基于化学成分结合算法模型的方法。对于基于光谱的方法,Dalal等人[23]和刘等人[24]应用了近红外光谱(NIR),结合偏最小二乘判别分析(PLS-DA)和卷积神经网络(CNNs)等算法来研究作物产地,取得了较高的区分准确率。然而,基于光谱的判别模型的化学基础尚不清楚,导致可解释性有限。对于基于化学成分的方法,韩等人[25]、Mu?oz-Redondo等人[5]和苏等人[26]使用多种化学指标(包括香气化合物、稳定同位素和矿物元素)结合PLS-DA和线性判别分析(LDA)等算法开发了产地判别模型。这些模型能够准确区分不同来源的样本,具有明确的化学基础,并表现出很强的可解释性[13]。
然而,作物的化学成分往往表现出复杂的非线性关系,捕捉这些关系对于稳健的分类至关重要。CNN是一种广泛用于图像建模的深度学习架构,通过堆叠的卷积和池化层在自动特征提取和表示学习方面表现出色[27]、[28]。基于将连续光谱数据转换为图像数据的概念(例如,刘等人[27]和唐等人[29]的研究所示),我们将多样化的、非顺序的化学类别(如离子、多酚、氨基酸)映射到结构化的二维图像中。在这些图像中,像素强度对应于每种化学成分的数值。然后使用这些化学成分图像作为输入,基于CNN的深度学习模型构建基于化学成分成像的分类模型。这种方法旨在实现准确的分类和区分,同时为每个类别提供化学成分特征的初步描述。
以烟草作为研究对象,本研究结合了SMOTE和阈值移动来处理不平衡的烟草样本数据,并使用2D-CNN对化学成分图像进行处理,以捕捉化学成分之间的复杂非线性关系,从而在不平衡条件下实现多产地区分。
部分摘录
烤烟产地数据集
本研究使用了来自中国八个主要烤烟种植区(I-VIII)的9,745个烤烟样本的数据集。分类依据包括烟草的生态基础、独特香气、代谢特征和化学成分[30]。样本来源数据(表1)和63种化学成分数据(表2)来自烟草NIR分析平台[31],其中收集了高质量的光谱数据
化学特征的统计分析
为了评估分割数据集的代表性,计算了训练集、验证集和测试集每个化学指标的平均值、标准差(Std)和变异系数(CV)。结果见表S1。例如,对于“总生物碱”指标,训练集的平均值、标准差和变异系数分别为2.572、0.8943和0.3477;验证集的相应值为2.535、0.8788和0.3467;测试集的相应值分别为...
结论
本研究建立了一种新颖的SMOTE+TM-2D-CNN框架,用于农产品的分类。核心创新在于化学成分成像技术,它将一维化学谱转换为结构化的二维图像,使2D-CNN能够有效捕捉化学成分之间的复杂非线性关系。SMOTE过采样技术和阈值移动的协同整合有效解决了关键问题
CRediT作者贡献声明
王聪:方法论。李文婷:撰写——初稿、方法论、研究、正式分析、概念化。郭俊伟:撰写——审阅与编辑、监督、资源获取、概念化。陈 Hexin:数据整理。赵乐:撰写——审阅与编辑、监督、资源获取、概念化。万里:方法论。谢富伟:撰写——审阅与编辑、可视化。王冰:资源。聂聪:撰写——审阅与编辑
资助
本研究没有获得公共部门、商业部门或非营利部门的任何特定资助。
利益冲突声明
? 作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号