利用深度学习和光谱信息来提高红花种子的品种识别能力
《Food Chemistry》:Leveraging deep learning and spectral information for enhanced variety identification of safflower seeds
【字体:
大
中
小
】
时间:2026年02月20日
来源:Food Chemistry 9.8
编辑推荐:
本研究采用近红外光谱(NIRS)结合主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)、反向传播神经网络(BPNN)和卷积神经网络(CNN),构建了向日葵种子快速非破坏性鉴别模型。实验表明,基于原始光谱的BPNN模型分类准确率达100%,优于其他模型,为农业质量控制提供新方法。
黄浩|李文霞|贾超川|严慧|易善勇|高蕾蕾|陈存武|韩邦兴|王芳
安徽中医药大学药学院,安徽230012,中国
摘要
为了实现红花种子的快速、无损鉴定,本研究基于近红外光谱(NIRS)结合化学计量方法(包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)、反向传播神经网络(BPNN)和卷积神经网络(CNN)构建了一个定性鉴定模型。结果表明:结合原始红花种子光谱和BPNN的模型在品种区分方面表现最佳,在训练集和测试集上的预测准确率均为100%。结合原始光谱和CNN的模型排名第二,预测准确率分别为100%和97.235%。神经网络的深度学习能力与近红外光谱的固有优势的协同整合,为红花种子种质鉴定建立了一个稳健的分析框架。这种方法作为食品和制药领域来源验证和质量监控的先进手段具有巨大潜力。
引言
红花(Carthamus tinctorius L.)是一种在全球广泛种植的油料作物。红花种子的含油量为23%–36%,提取的红花籽油(SSO)富含多种生物活性化合物,如酚类、生育酚、甾醇和类胡萝卜素(Hou等人,2024;Lee,2004)。这些成分在治疗神经病变、调节血液参数、维护皮肤健康和增强免疫系统方面显示出显著的效果(Gün? Erg?nül & Aksoylu ?zbek,2018;Qin等人,2025)。同时,红花种子是一种富含不饱和脂肪酸(亚油酸)的特殊油料作物(Tan等人,2025;Yeilaghi等人,2012)。其脂肪酸组成以多不饱和脂肪酸为主,其中亚油酸占油量的55.1%–77.0%(平均为70.66%)(Matthaus等人,2015)。它是重要的不饱和脂肪酸来源,具有营养和经济价值。近年来,由于红花籽油(SSO)独特的化学性质和多样的应用,其产量不断增长,应用潜力巨大(Khalid等人,2017;Zemour等人,2019)。根据粮农组织统计,2023年全球红花籽产量达到724,000公吨(Wang等人,2023),占世界总油料产量的0.12%。生产主要分布在亚洲、非洲和美洲的18个国家。哈萨克斯坦、俄罗斯和印度是全球主要生产区,合计贡献了超过80%的产量,美国和中国也是重要生产国(粮农组织Wang等人,2023)。中国拥有丰富的国内遗传资源,新疆是主要生产区,云南和吉林为次要生产区(Zhou等人,2022)。
红花种子中的特征化合物(如酚类和脂肪酸)的形成和积累是遗传特性与生长环境(土壤、气候、光照等)协同作用的结果(Zhao等人,2025)。不同红花品种的活性成分和种子特性存在显著差异,从而导致不同的应用场景和经济价值(例如,用于食用油加工的油用品种,作为中药原料的药用品种)。作为环境因素的集合载体,产地可以影响特征化合物的类型、含量和比例,形成特定的区域特征(Chen等人,2024)。从医学角度来看,产地通过调节环境因素影响活性成分的结构-活性关系,从而决定其药效。从经济角度看,成分的差异导致药用级和食用级红花种子之间的价格差异。未能及时准确鉴定种子品种可能导致误用(例如,种植油用品种而非药用品种),从而影响产量和产品质量,最终给行业带来经济损失。精确的可追溯性使高品质产品能够获得溢价定价,遏制产地虚假标注行为,并支持特色生产区的地理标志品牌发展。
以中国新疆地区为例,红花种子品种的混杂导致某些生产区的产量变异系数超过20%。在伊犁和塔城等主要生产区,品种误用(例如,种植油用品种而非药用品种)导致花丝产量减少了15%–20%。药材中的羟基红花色素A含量波动了0.86个百分点(范围1.00%–1.86%)(Jing-yi等人,2024)。伊犁河谷地区的红花产量下降到每平方米干燥花朵7公斤和每平方米种子40公斤,因为品种纯度仅为3.8%至63.2%。药用和加工品质均显著下降,红花黄酮含量明显低于塔城等地区。在塔城的榆木县,自留种子的主要种植方式导致品种严重退化,花丝长度比优质品种短15%–20%(Peng,2015)。同时,品种混杂导致红花籽油中挥发性成分(如壬醛和己醛)的含量波动了15%至20%,显著影响产品的风味和市场价值(L. Wang等人,2020)。从质量控制的角度来看,Luo等人对Ruta graveolens L.的综述研究表明,建立植物化学谱型对于验证药用作物的治疗效果一致性至关重要(Luo等人,2024)。此外,Gong等人证明植物多糖的特定结构特征与免疫活性直接相关,强调了准确鉴定品种以确保药效的重要性(Gong等人,2024)。因此,快速准确地鉴定品种对于确保原材料质量、规范市场秩序和促进特定发展具有重要意义,对提升行业精细化管理水平具有重大意义。
目前,确定食品来源和成分依赖于多种分析策略,包括色谱和质谱技术,以及稳定同位素和多元素分析,还有阐明特定性状调控机制的遗传鉴定方法(Boonpangrak等人,2016;Cardin等人,2024;Parastar等人,2025;Yang等人,2019)。使用近红外反射光谱和气相色谱等互补分析技术对全球红花籽样本的油特性进行了评估(Sharma等人,2025);基于同位素比质谱技术确定了Panax quinquefolius L.及其制剂的地理来源(Tian等人,2016)。尽管这些方法可靠且稳健,但它们本质上是破坏性分析技术,操作过程复杂且耗时。此外,设备和化学试剂的高成本进一步限制了其在大规模实际应用中的使用。
近红外光谱(NIRS)能够快速、无损且准确地测量复杂的成分谱型,因此在食品和化学分析中得到了广泛应用,其分析能力尤为突出。在现代应用中,研究范围广泛,包括咖啡和猕猴桃等食品的保质期研究(De Araújo等人,2024;H. Li, Zhu等人,2024)、羊驼肉和山羊奶等食品的掺假研究(Cruz-Tirado等人,2024;Pereira等人,2020),以及龙果和芒果等水果的成分含量研究(Da Silva Ferreira等人,2023;Lamptey等人,2023;Paz等人,2025)。在草药领域,研究包括Gastrodia elata Blume(G. Li等人,2025)和Gentianae radix et rhizoma(Lafarge等人,2025)的地理可追溯性研究,以及Acanthopanax senticosus(Rupr. et Maxim.)的掺假鉴定(Zhang等人,2025)。值得注意的是,Fatmeh等人(Hashemi-Nasab & Parastar,2022)使用近红外高光谱成像结合化学计量分析进行藏红花的鉴定、分类和掺假分析。Aliyan等人(Amirvaresi等人,2021)比较了近红外和中红外技术在藏红花鉴定和分类中的应用,建议将近红外或中红外与化学计量分析结合使用。然而,关于NIRS结合化学计量分析或深度学习模型用于红花种子分类、鉴定和地理追踪的系统报告仍然较少。
基于NIRS的优势,我们的团队使用手持式近红外光谱仪建立了Polygonatum odoratum(Mill.)Druce和Polygonatum cyrtonema Hua的快速、环保的定性分类方法,并使用NIRS技术建立了Dendrobium huoshanense C.Z. Tang & S.J. Cheng(Fengdou)的定性分类方法。这为本研究奠定了坚实的基础,确保了其可行性和可靠性(Han等人,2020;Hui等人,2020;Sedjoah等人,2020;F. Wang等人,2022;Wang, Yu等人,2023)。鉴于迫切需要建立一种快速、无损的方法来鉴定红花种子,以满足资源评估和质量控制的实际需求,本研究旨在利用NIRS技术结合主成分分析(PCA)、特征波长选择、偏最小二乘判别分析(PLS-DA)和反向传播神经网络(BPNN)以及卷积神经网络(CNN)进行多变量统计分析,构建红花种子鉴定分类模型。本研究的具体目标包括:(1)比较PCA和PLS-DA的分类性能,重点研究特征波长选择策略对PLS-DA判别模型性能的影响;(2)将BPNN和CNN纳入建模分析,最终建立适合红花种子鉴定的分类模型。
部分内容
样品制备
为了确保捕获的光谱差异主要反映品种的遗传特性,而不是特定收获批次或地块的生长条件,本研究中的每个品种样本均来自同一地理区域内的多个独立地块,而不是来自单一批次或地点。表1显示了9批红花种子的类别标签。所有样本均被鉴定为菊科植物中的红花种子。
近红外光谱分析和预处理
红花种子作为固体颗粒材料,容易受到由颗粒大小不均匀和堆积密度差异引起的高频随机噪声的影响。这种噪声会掩盖目标成分(如油脂和蛋白质)的特征吸收峰。相比之下,Savitzky-Golay(SG)平滑处理可以有选择地过滤掉这类噪声,而不会对特征峰的强度或位置造成显著扭曲(Schmid结论
本研究利用红花种子的NIRS数据构建了单光谱分析和深度学习模型用于分类和鉴别。通过系统比较不同模型的分类性能,得出以下结论:(1)PCA在本研究中的分类性能较差。这主要是因为PCA作为一种无监督的降维算法,缺乏先验类别的指导
CRediT作者贡献声明
黄浩:撰写——原始草稿、验证、方法学、调查、正式分析。李文霞:验证、调查、正式分析。贾超川:验证、调查。严慧:资源、方法学、资金获取、概念化。易善勇:撰写——审阅与编辑、监督、方法学。高蕾蕾:撰写——审阅与编辑、监督、方法学。陈存武:撰写——原始草稿、验证、监督、方法学、资金获取
未引用参考文献
Li, Jiang, Yang, Gong and Wen, 2024
Li, Wang and Wei, 2024
V.L., S. R. and D. N., 2024
2023年世界粮食及农业统计年鉴
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了国家重点研发计划(2023YFC3503804)、中国农业部和农业农村部的农业研究体系(CARS-21)、新疆红花产业发展基金、安徽大别山中医科学院开放基金(TCMADM-2023-04)、安徽高校科学工程教师实践培训计划(2024jsqygz78)以及国内青年骨干教师访问与研究资助项目的支持
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号