人工智能在化学计量学中的一个新颖应用:生成用于构建定量光谱分析预测模型的R代码

《Microchemical Journal》:A novel application of artificial intelligence for chemometrics: Generating R code to build predictive model for quantitative spectrometric analysis

【字体: 时间:2026年02月18日 来源:Microchemical Journal 5.1

编辑推荐:

  定量光谱分析因高效便捷而受关注,但建模依赖编程能力成为瓶颈。本研究创新性地将生成式AI应用于Raman光谱数据建模,通过LLMs自动生成R代码构建PLS回归模型分析回收PP中PE污染。测试ChatGPT、Gemini等商业平台及LLaMA、Phi等开源模型,发现商业系统能完整实现数据预处理、模型优化及预测,其中ChatGPT 4.5结合SNV预处理使RMSEP降至0.394 wt%。模型解释性分析显示X-载荷与特征峰匹配,回归系数合理。证实生成式AI可有效降低R语言使用门槛,为非专业人员提供可复现的化学计量建模方案。

  
作者:刘少阳(Shaoyang Liu)、凯莱布·查特菲尔德(Caleb Chatfield)、约翰·T·朗(John T. Long)
美国阿拉巴马州特洛伊市特洛伊大学(Troy University)材料与制造科学中心(Center for Materials and Manufacturing Sciences),化学与物理系(Departments of Chemistry and Physics),邮编36082

摘要

定量光谱分析因其高分析性能、操作便捷性和成本效益而受到越来越多的关注。然而,其更广泛的应用往往受到构建预测模型所需的高级编程技能的阻碍。本研究探讨了生成式人工智能(AI),特别是大型语言模型(LLMs),在回收塑料分析中的拉曼光谱数据化学计量建模方面的新型应用。使用拉曼光谱分析了含有不同水平聚乙烯(PE)的聚丙烯(PP)样品,并通过完全由AI生成的R代码开发了偏最小二乘(PLS)预测模型来确定PE污染程度。评估了几种广泛可用的LLMs,包括开源模型和商业平台,如ChatGPT、Gemini和Claude,这些模型在多个任务上进行了测试:生成用于PLS建模的可执行R代码、使用独立验证选择最佳潜在变量数量,以及应用各种光谱预处理方法以提高预测准确性。模型性能通过独立验证进行评估,并通过预测均方根误差(RMSEP)进行量化。在测试的平台中,商业生成式AI系统完成了整个建模流程并产生了准确的预测模型,而大多数开源模型未能完成该流程。最佳性能是在标准正态变量(SNV)预处理下获得的,对于回收的PP样品,RMSEP为0.394 wt% PE。为了支持模型的可解释性,检查了前三个潜在变量的X载荷和回归系数(beta),结果与PP和PE的特征拉曼带一致。结果表明,在结构良好的提示指导下,本研究中探讨的最新商业LLMs可以可靠地构建和优化PLS模型,从而实现准确的预测性能。这些发现展示了生成式AI在支持易于使用且准确的光谱建模方面的巨大潜力,特别是对于没有编程经验的用户。

引言

光谱方法因其便利性、速度、非破坏性和成本效益而在各种化学分析中得到广泛认可[1]、[2]、[3]、[4]。近年来,拉曼光谱、近红外(NIR)和红外(IR)光谱等光谱技术的应用迅速扩展,特别是在定量分析方面[5]、[6]、[7]、[8]。这些技术能够实现实时、在线监测,具有高精度和最小的样品准备需求,因此在塑料回收等工业应用中尤为有价值。然而,没有化学计量建模,定量光谱分析的潜力就无法充分发挥,而化学计量建模对于管理和解释现代光谱仪生成的高维数据至关重要[9]、[10]、[11]、[12]、[13]、[14]。化学计量学涉及应用数学和统计工具从复杂的光谱数据集中提取相关信息,从而开发出用于确定未知样品化学成分或材料特性的稳健预测模型。
传统上,这种建模能力可以通过仪器制造商开发的商业软件获得。虽然这些商业解决方案很方便,但通常价格昂贵,功能有限,且在定制或扩展方面不够灵活。除了仪器供应商提供的软件外,多元分析和化学计量建模还得到了通用计算平台和专用化学计量软件包的支持,包括基于MATLAB的工具箱(例如Eigenvector PLS_Toolbox [15]和Chemometrics Toolbox [16]),以及开源或免费软件环境和可视化工作流工具(例如Orange [17]和Scilab [18])。在这些选项中,R是一个免费且开源的统计计算环境,提供了一个强大的替代方案[19]。凭借其丰富的多元分析库,R支持开发具有更高透明度和可重复性的高级化学计量模型。先前的研究已经展示了基于R的化学计量建模在利用拉曼和NIR光谱量化回收聚丙烯(PP)中的聚乙烯(PE)污染方面的成功应用[13]、[14]。
尽管R具有诸多优势,但对于缺乏计算机科学背景的用户来说,R编程仍然是一个相当大的挑战。陡峭的学习曲线常常阻碍研究人员、学生和技术人员充分利用其进行化学计量建模的能力。虽然人工智能(AI)已被用于分析化学中的任务,如噪声降低、模式识别和数据解释[20],但生成式AI的最新进展,特别是在大型语言模型(LLMs)的开发方面,提供了一种新颖且可能具有变革性的解决方案。Liang等人应用LLM对UV-NIR光谱数据进行了分析,以预测废水中的化学需氧量(COD),证明仅通过简短的自然语言提示,LLMs就可以用于定量光谱分析[21]。一些组织也投资于支持科学研究的AI驱动工具[22]。生成式AI技术能够解释自然语言指令,生成结构化代码,并分析现有脚本以进行优化和错误校正。在R的化学计量建模背景下,这些能力表明LLMs可能能够根据分析目标自动生成特定于上下文的代码,协助调试并提高整体编码效率。这样的功能可能会大大降低与R编程相关的技术障碍,使非专业人士也能进行定制化的化学计量分析。尽管具有这些有前景的特性,但将生成式AI集成到化学计量工作流程中在科学文献中仍大多未被研究,尤其是在定量光谱应用方面。有必要进一步探索这种方法,以评估其在实际分析场景中的实用性、准确性和局限性。
偏最小二乘(PLS)回归是最流行的化学计量建模方法之一[23]、[24]、[25]。它可以有效处理多重共线性,减少数据维度,并对随机测量不确定性或变化具有抗性,这对于构建准确和稳健的光谱分析预测模型至关重要[9]、[26]。在本研究中,使用LLMs生成的R代码开发了基于拉曼的预测模型,以量化回收PP中的PE污染。本研究重点评估了几种广泛使用的LLMs的能力:(1)生成用于基本PLS建模的可执行R代码;(2)结合独立验证来优化潜在变量的数量;(3)应用光谱预处理技术以提高模型准确性。这项工作代表了对多种商业和开源LLMs在定量光谱分析中化学计量建模能力的系统基准测试。通过比较它们生成可执行R代码、优化模型参数和应用光谱预处理的能力,本研究表明生成式AI如何帮助自动化传统上需要编程专长的核心分析任务。研究结果突显了LLMs在连接人工智能和分析化学方面的潜力,使得定量光谱应用(如回收塑料分析)的模型开发变得易于访问、可重复且高效。

材料

使用了从Sigma-Aldrich(美国密苏里州圣路易斯)购买的等规聚丙烯(平均分子量约为250,000)和高密度聚乙烯(熔融指数:2.2 g/10 min(190°C/2.16 kg)),制备了九种标准的PP-PE混合物,用于模型校准和独立验证。由于先前的研究表明回收PP通常含有不到15 wt%的PE[5]、[13]、[27],因此标准PP-PE混合物的PE含量范围设定为0–16 wt%,以2 wt%为增量。回收的PP和PE来自校园内

使用AI生成的R代码构建PLS模型

评估了几种广泛使用的LLMs,包括开源模型(如LLLaMA、Qwen和Phi)和商业平台(如ChatGPT、Gemini和Claude),以评估它们生成用于PLS建模的可执行R代码的能力。目标是基于拉曼光谱校准数据集构建PLS模型,并仅使用AI生成的R代码来预测未知样品中的PE污染程度。
校准数据存储在逗号分隔值(CSV)文件中,第一行

结论

本研究展示了利用生成式AI,特别是LLMs,自动化光谱分析中化学计量建模的可行性和潜力。通过生成可执行的R代码,LLMs能够构建、优化并应用PLS回归模型来量化回收PP中的PE污染。结合独立验证和光谱预处理技术进一步提高了模型的稳健性和预测准确性。在测试的LLMs中,ChatGPT 4.5和Gemini表现最佳

CRediT作者贡献声明

刘少阳:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、监督、方法论、研究、资金获取、正式分析、概念化。凯莱布·查特菲尔德:撰写 – 审稿与编辑、研究、正式分析。约翰·T·朗:撰写 – 审稿与编辑、研究、正式分析。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:刘少阳报告称获得了阿拉巴马州高等教育委员会(Alabama Commission on Higher Education)的财务支持。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本研究得到了2024年阿拉巴马州高等教育委员会(Alabama Commission on Higher Education, ACHE)颁发的AI文化资助的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号