《Chemometrics and Intelligent Laboratory Systems》:Gradient boosting applied to PTR-ToF-MS analysis of agrifood samples
编辑推荐:
食品挥发性有机物(VOCs)分析中,XGBoost在分类任务表现最佳,但需耗时调参以应对高维、噪声数据,其效果与其它方法相当但需针对性优化。
Pablo M. Granitto | Maria Mazzucotelli | Michele Pedrotti | Iuliia Khomenko | Franco Biasioli
研究与创新中心,Edmund Mach基金会,Via E. Mach 1,San Michele all’Adige(特伦托),意大利
摘要
在农业食品行业中,对食品产品的快速、无创分析对于确保质量、安全和真实性至关重要。在此背景下,挥发性有机化合物(VOC)分析发挥着关键作用,尤其是质子转移反应质谱法(PTR-ToF-MS),由于其速度快和灵敏度高,成为了一种理想的工具。这些分析产生的数据通常使用分类、回归和峰值选择方法进行建模。在这些任务中,梯度提升方法,特别是XGBoost,表现出了出色的性能,经常超越了传统的机器学习技术和深度学习方法。在这项工作中,我们详细研究了XGBoost在食品VOC PTR-ToF-MS数据集中的应用。我们发现,XGBoost需要仔细(且耗时)的优化才能在这个特定领域取得有竞争力的结果。我们的结果表明,XGBoost在食品分类任务中的性能优于其他分析任务,在回归和峰值选择任务中,当所有方法都得到适当调整时,其性能与其他最先进的方法相当。鉴于对小型和噪声较大的实际数据集进行建模的固有难度,我们的工作强调了在每个特定领域内仔细评估方法的重要性,而不是将其性能视为理所当然。
引言
质子转移反应飞行时间质谱法(PTR-ToF-MS)[1]是一种广泛用于分析挥发性有机化合物(VOC)的分析技术,具有高灵敏度和时间分辨率。其应用范围从疾病检测[2]到空气质量监测[3]不等。在食品工业中,PTR-ToF-MS在表征食品产品的化学成分方面发挥了重要作用,有助于评估其质量、来源和保质期[4]。然而,PTR-ToF-MS数据的高维性和复杂性(通常包含数百个峰值)给数据解释和预测建模带来了重大挑战。
机器学习(ML)方法作为强大的工具出现,能够处理这些挑战,能够对复杂且往往是非线性的关系进行建模,即使数据量有限且维度较高[5]。在过去十年中,深度学习方法[6]在机器学习领域占据主导地位。尽管深度学习在几乎所有类型的数据中都取得了成功,但在表格数据集中,它并未明显优于传统方法[7],因此核方法或集成方法的应用更为常见。在这些方法中,极端梯度提升(XGBoost或XGB)[8]作为一种多功能且高效的算法脱颖而出,它结合了梯度提升和正则化,以提高预测准确性并减少过拟合。
XGB已成功用于建模一些PTR-ToF-MS数据集。Liu等人[9]使用了一组机器学习方法(包括XGB)来预测教室中两种典型人类相关VOC在五天内的浓度。Li等人[10]应用XGB来识别和验证用于肺癌筛查的生物标志物。Temerdashev等人[11]进行了另一项关于肺癌早期检测的研究。仅有最近的一项工作将XGBoost用于食品产品的分析。Kan等人[12]使用PTR-ToF-MS和其他两种分析方法研究了酱油在发酵过程中的性质。作为研究的一部分,他们应用了一组机器学习方法来预测发酵阶段,包括XGB,但没有对分类器的性能进行特别分析或调整。
在这项研究中,我们深入探讨了XGBoost在食品VOC PTR-ToF-MS数据建模中的应用。这一背景特别具有挑战性,因为通常可用的样本非常少,且样本之间存在显著差异。此外,测量数据往往含有噪声,这进一步复杂化了建模过程。目前尚不清楚XGB在其他领域表现出色的特性是否也适用于此场景。通过使用多个不同的示例数据集,我们分析了XGBoost的性能,并将其与其他ML方法在分类和回归任务上的表现进行了比较。我们还评估了超参数选择对方法性能的影响。
本文的结构如下:第2节描述了所有方法和数据集,第3节展示了相应结果并进行了分析,最后一部分则得出了结论并描述了未来的工作方向。
章节片段
XGBoost
XGB是一种集成机器学习方法,它通过结合多个简单模型的预测来创建一个更强大、更准确的模型。具体来说,XGBoost是一种梯度提升算法[13],其中集成是逐步构建的,每个单独的模型都通过最小化特定的成本函数来纠正前一个模型的错误。这种逐步过程使XGB能够专注于难点,从而整体提升性能,使其在广泛的应用中都非常有效。
调优过程
如2.1节所讨论的,XGB需要选择多个超参数。在这种情况下可以应用各种优化策略[25]。在这项研究中,我们采用了一种简单的网格搜索方法,在参数空间内考虑了一组有限的值。选择这种方法是因为它的可解释性,以及XGB对这些参数的性能依赖性相对平滑。为了支持这一决定,我们将这种方法与随机搜索方法进行了比较
结论
在这项工作中,我们评估了梯度提升方法XGBoost在食品相关样本的PTR-ToF-MS数据上的应用。首先,我们讨论了正确设置XGB的必要性,表明正确的设置可以改善结果,但同时也需要注意其较高的计算成本。
总体而言,在我们的实验中,XGB在分类问题上的表现优于回归问题,并且在信息量更大的问题上也表现更好,即那些具有更高复杂性的问题
CRediT作者贡献声明
Pablo M. Granitto:撰写 – 审稿与编辑,撰写 – 原稿,软件开发,方法论,研究,形式分析,概念化。
Maria Mazzucotelli:撰写 – 审稿与编辑,数据管理。
Michele Pedrotti:撰写 – 审稿与编辑,数据管理。
Iuliia Khomenko:撰写 – 审稿与编辑,数据管理。
Franco Biasioli:撰写 – 审稿与编辑,项目监督,资金获取,概念化。
写作过程中使用生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用了ChatGPT和Gemini来提高手稿的可读性和语言表达。使用这些工具/服务后,作者根据需要审查和编辑了内容,并对发表文章的内容承担全部责任。
致谢
本研究中部分结果是通过使用CCT-Rosario计算中心的设施获得的,该中心是阿根廷高性能计算国家系统(SNCAD)的成员。PMG感谢“Visiting in Trentino 2024”项目的资助。这项工作还得到了SISTERS项目的部分支持,该项目获得了欧盟“Horizon 2020”研究与创新计划的资助,资助协议编号为101037796。