基于高光谱成像与任务增量学习的杭白菊多组分快速定量分析研究

《Journal of Food Composition and Analysis》：Determination of Multiple Bioactive Components in Chrysanthemum morifolium (Hangbaiju) Using Hyperspectral Imaging and Task-Incremental Learning

【字体：大中小】 时间：2026年01月09日 来源：Journal of Food Composition and Analysis 4.6

编辑推荐：

　　本研究针对杭白菊等花茶中多种活性成分快速定量检测的难题，创新性地将高光谱成像（HSI）技术与任务增量学习（Task-IL）相结合。研究人员开发了基于CNN-Transformer的深度学习模型，成功实现了对28种杭白菊活性成分（如黄酮类、绿原酸类）的同时预测，并具备动态添加新检测任务的能力，无需重新训练整个模型。该方法为花茶质量控制的智能化、动态化发展提供了高效技术框架，展现了深度学习在复杂天然产物分析领域的巨大潜力。

花茶，尤其是被誉为“药食同源”佳品的杭白菊（Chrysanthemum morifolium），因其丰富的生物活性成分（如黄酮类、绿原酸类）和多种药理功效（如抗氧化、抗炎）而备受青睐。然而，这些活性成分的含量会受到品种、产地、储存方式等多种因素的影响，从而直接影响其品质和药效。因此，建立一种能够快速、准确、无损地检测花茶中多种活性成分的方法，对于保障其质量、实现标准化生产以及推动其在现代健康产业中的应用至关重要。传统的化学成分分析方法，如超高效液相色谱-三重四极杆串联质谱（UPLC-TQ-MS/MS），虽然精确，但存在操作复杂、成本高、效率低且具有破坏性等局限，难以满足大规模、实时质量监控的需求。高光谱成像（HSI）技术作为一种结合了成像技术和光谱技术优势的无损检测方法，能够同时获取被测物体的空间信息和光谱信息，在农产品质量检测领域展现出巨大潜力。但如何利用HSI数据高效、准确地预测多种成分，尤其是当需要检测的成分种类动态增加时，如何避免模型重复训练的巨大开销，是当前面临的主要挑战。机器学习（ML），特别是深度学习（DL）方法，为处理高维、复杂的HSI数据提供了可能，但传统的DL模型往往缺乏灵活性，难以适应新任务的增加。

为了应对这些挑战，一项发表在《Journal of Food Composition and Analysis》上的研究进行了一项创新性的探索。研究人员主要运用了几项关键技术：首先，利用高光谱成像系统（SPECIM FX17）在900-1700 nm近红外波段采集了来自中国四个不同产地（北京、贵州、浙江、辽宁）的共640组杭白菊干燥样本的高光谱图像，并从中提取光谱曲线。其次，采用UPLC-TQ-MS/MS作为标准方法，精确测定了每份样本中28种代表性活性成分（涵盖黄酮类、绿原酸类和有机酸）的含量，为模型建立提供了真实值标签。在建模方面，研究比较了偏最小二乘回归（PLSR）、卷积神经网络（CNN）以及研究者自行设计的CNN-Transformer混合架构在单成分预测上的性能。进而，构建了多任务学习（MTL）模型以同时预测所有28种成分。最关键的是，研究者引入了任务增量学习（Task-IL）框架，通过在预训练好的基础网络（CNN-Transformer）上动态添加和训练针对新成分的任务特定模块，实现了在不遗忘旧任务的前提下快速适应新检测任务的能力。

3.1. 单指标生物活性成分模型的预测结果

研究人员首先为28种活性成分分别建立了PLSR、EfficientNet-B4和CNN-Transformer模型。结果表明，PLSR模型在预测大多数单个成分时表现出色且稳定，例如在预测金合欢素（acacetin）、绿原酸（chlorogenic acid）和异绿原酸A（isochlorogenic acid A）时，测试集的RPD值分别达到了8.727、10.154和11.423，显示出优异的预测能力。相比之下，两种深度学习模型在某些成分上表现更优（如新绿原酸neochlorogenic acid，CNN-Transformer的RPD达6.484），但在另一些成分上（如富马酸fumaric acid）则不如PLSR。总体而言，PLSR在单成分预测上展现了更好的整体性能，而深度学习模型在捕捉特定成分的复杂非线性关系上具有潜力。CNN-Transformer在训练速度和拟合难易度上优于EfficientNet-B4。

3.2. 用于回归预测的多任务学习方法

接着，研究尝试构建同时预测28种成分的MTL模型。使用PLSR的“MultiOutputRegressor”和基于CNN-Transformer的MTL模型，其整体预测性能均逊于为每个成分单独建立的PLSR模型。分析认为，这可能是由于同时优化一个共享底层网络来应对28个不同的回归任务非常困难，加之数据集规模有限，导致深度学习模型难以学习到鲁棒的共享表征。

3.3. 任务增量学习方法

为了克服MTL的局限性并实现模型的动态扩展，研究重点考察了Task-IL的性能。研究者选择了在单成分预测中表现最佳（Kaempferol， Label 15）、中等（Luteolin， Label 5）和最差（Fumaric Acid， Label 22）的三个CNN-Transformer模型作为基础网络，然后依次将其他27个成分的预测任务作为新任务添加到框架中。结果显示，Task-IL模型的表现显著优于传统的MTL模型。一个有趣的发现是，Task-IL模型的性能与其基础网络在单成分预测中的性能呈负相关趋势。即，以单成分预测表现最差的基础网络构建的Task-IL模型，反而在其他多数新任务上取得了最好的预测效果，甚至在某些成分（如芹菜素-7-O-葡萄糖苷Apigenin 7-O-glucoside， Label 4）上的预测性能（RPD从1.688提升至8.399）超过了为其单独建立的模型。这表明，在更具挑战性的预测任务中训练出的基础网络，可能获得了更强的特征提取和跨任务泛化能力。此外，Task-IL训练速度极快，大多数新任务在30-80个训练周期内即可接近最优性能。

3.4. 讨论

研究讨论部分深入分析了不同模型的优劣。PLSR的成功归因于其能有效处理高维、共线性的HSI数据，通过将大量相关波长投影到少数潜在变量上，在样本量有限的情况下避免了过拟合，特别适用于活性成分与光谱特征间主要为线性关系的情形。深度学习则擅长捕捉微弱的非线性模式。多任务学习性能不佳凸显了在花茶活性成分分析这种数据量有限的专业领域，深度学习面临挑战。而任务增量学习的成功应用表明，它为花茶质量检测提供了一种极具前景的解决方案。该方法使模型能够灵活适应不断增长的检测需求，而无需耗费大量资源重新训练，这对于成分复杂且研究不断深入的花茶产业具有重要意义。研究也指出，Task-IL的性能依赖于基础网络的特征提取能力，未来需要更多样本和任务来进一步验证其泛化能力。

综上所述，该研究成功地将高光谱成像与任务增量学习相结合，为杭白菊等多种活性成分的快速、无损、动态定量分析提供了创新方法。研究表明，PLSR在多数单成分预测任务上表现稳健，而基于CNN-Transformer的Task-IL框架则展现出在持续学习新任务方面的巨大优势和灵活性，为人工智能技术在花茶乃至更广泛的天然产物质量检测领域的持续学习和应用提供了重要的技术参考和理论依据。

热点排行

新闻专题