中红外光谱与深度学习在消费后塑料稳健分类中的应用：一个针对特定领域的框架

【字体：大中小】 时间：2026年03月02日 来源：Resources, Conservation and Recycling 11.8

编辑推荐：

　　本研究提出五阶段框架解决回收塑料分类难题，通过优化数据预处理（SG+SNV+SNV），设计轻量级374k参数CNN模型，结合可解释AI和外部验证，在32万+真实光谱数据上实现99.71%清洁数据分类精度和98.50%含污染物分类精度，尤其突破黑色塑料检测瓶颈。

Bassam A. Abdelghani|Umema Ali|Ezra Bar-Ziv|Fei Long

密歇根理工大学机械与航空航天工程系，美国密歇根州霍顿市49931

摘要

对消费后塑料（尤其是黑色聚合物）进行准确分类仍然是自动化回收领域的一个挑战。中红外（MIR）光谱技术能够提供化学信息丰富的信号，从而克服了近红外传感的局限性，但其应用受到噪声、基线漂移和污染等因素的阻碍。本文提出了一个五阶段框架，包括数据集质量评估、预处理优化、定制的一维卷积神经网络（CNN）、可解释人工智能（AI）和外部验证。利用超过320,000个来自八种聚合物类别的光谱数据，我们引入了一种十项指标的数据集质量评估协议，并对24种预处理流程进行了基准测试。采用Savitzky–Golay平滑处理结合标准正态变量归一化（SG+SNV），并与一个包含374,000个参数的紧凑型CNN相结合，在清洁数据上的准确率为99.71%，在消费后塑料上的准确率为98.50%。

引言

准确识别混合塑料废料流对于支持循环经济模式的有效下游分类和回收至关重要。聚乙烯（PE）、聚对苯二甲酸乙二醇酯（PET）、聚丙烯（PP）等塑料通常具有相似的外观和重叠的特性，这使得精确识别变得困难。特征描述不足可能导致误分类和不当分类，进而引发污染、增加处理成本以及降低回收材料的质量（Neo等人，2022年；Vogt等人，2021年）。这一挑战对于黑色塑料尤为突出，因为黑色塑料占总塑料废物的大约15%（Hahladakis等人，2018年；Turner，2018年），然而使用传统的近红外（NIR）方法，其分类和分选的准确率仅能达到60%–70%（Zhang等人，2022年；Zinchik等人，2021年）。这是因为炭黑添加剂在可见光和近红外波长范围内具有强烈的吸收特性，掩盖了聚合物特有的信号（Tanzid等人，2018年）。

相比之下，中红外（MIR）光谱技术通过捕捉2–5 μm范围内的分子振动来实现非破坏性的材料识别，在这个范围内炭黑的吸收不会造成干扰（Rozenstein等人，2017年）。MIR光谱提供了独特且化学信息丰富的吸收峰，特别适用于区分具有相似视觉或物理特性的聚合物。与无法检测黑色塑料的NIR光谱不同，MIR光谱能够有效识别含色素的塑料（Neo等人，2022年；Long等人，2022年）。Rozenstein等人（2017年）证明了MIR技术在准确分类消费后黑色塑料方面的能力，凸显了其解决传统基于NIR的分选方法固有局限性的潜力。

尽管MIR光谱技术具有诸多优势，但由于数据收集速度的限制，其在工业中的应用仍较为有限。最近的进展，如上转换探测器、量子级联激光器及相关硬件，开始缓解这些限制；然而，实际参数（如曝光时间）如何平衡信号质量、探测器线性和线速吞吐量等方面仍需进一步研究（Rozenstein等人，2017年；Long等人，2022年）。

此外，可靠的光谱分类机器学习（ML）模型不仅需要强大的算法，还需要高质量的教学数据集。标准化的数据集质量评估方法仍然很少；大多数先前的研究仅依赖于信噪比（SNR）等基本指标，忽略了类别可分性、峰值一致性或重复实验间的变异性等关键指标（Neo等人，2022年）。这种差距往往导致数据集选择的随意性，从而影响可重复性和鲁棒性。此外，MIR光谱数据本身存在系统噪声和伪影，包括基线漂移、表面粗糙度引起的散射以及随机噪声。虽然有多种预处理方法可用，但其最佳组合高度依赖于数据本身，且手动调整通常具有主观性和劳动密集性。

深度学习，特别是卷积神经网络（CNN），通过自动提取有意义的特征，彻底改变了光谱分类任务。这些方法显著优于传统的ML方法，如支持向量机（SVM）、k最近邻（kNN）和偏最小二乘判别分析（PLS-DA）（Naidu等人，2023年；Neo等人，2022年）。最近的研究在MIR光谱应用中验证了基于CNN的模型的有效性，展示了在混合塑料废料分类方面的出色准确率（Zinchik等人，2021年；Long等人，2022年）。然而，仅凭准确率不足以满足实际应用需求；还需要评估宏观F1分数、接收者操作特征曲线下面积（AUROC）、预期校准误差（ECE）和Brier分数等综合指标来量化模型的可靠性。

此外，可解释性仍是基于CNN的方法的主要限制。传统的化学计量模型允许通过系数向量直接检查特征的重要性，而CNN通常被视为“黑箱”。最近在可解释AI（XAI）方面的进展，包括Shapley加性解释（SHAP）、局部可解释模型不可知解释（LIME）、集成梯度和遮挡敏感性，现在能够对CNN预测进行有意义的解释（Contreras等人，2024年），但跨预处理流程的系统比较研究仍然较少。

文献中的一个持续存在的问题是缺乏严格的外部验证。大多数现有模型仅在清洁的、实验室获得的数据上进行训练和评估，当面对含有油、粘合剂或环境降解的实际样品时，它们的表现往往不佳（Naidu等人，2023年）。确保模型的泛化能力需要使用在真实操作条件下收集的独立测试集进行评估。

我们团队之前的研究探索了多种基于MIR的塑料特征描述方法，强调了处理含噪声、受污染的实际样品的潜在性和持续挑战（Jiang等人，2021年；Long等人，2022年；Zinchik等人，2021年；Long等人，2022年；Long等人，2025年）。

基于这些基础，本文通过几个关键进展解决了现有的研究空白：

（1）
构建了一个大规模的中红外光谱数据集，包含超过320,000个光谱（每种暴露条件80,000个），涵盖了八种聚合物类别，并结合了一个十项指标的质量评估框架，系统地评估了光谱的完整性、统计可分性和实际可用性。
（2）
通过广泛的网格搜索对24种配置进行严格的预处理优化，统计上验证了该方法能够提高光谱清晰度和模型性能。
（3）
多指标机器学习模型评估，包括宏观F1分数、精确度、召回率、校准评估和稳健的5折交叉验证，以进行全面性能验证。
（4）
基于共识的可解释性方法，使用五种互补的XAI方法来可靠地识别驱动预测的化学上有意义的光谱特征。
（5）
严格的外部验证，在真实的消费后回收塑料上展示了高准确率（98.50%）。

为了进一步区分本研究与传统MIR分类流程，我们提出了一个针对特定领域的框架，该框架明确利用了聚合物特有的吸收化学特性和工业应用的限制。具体而言，该框架整合了考虑吸收带的预处理和模型设计，建立了一个适用于污染和混合进料变异性的可重复数据集质量评估协议，应用多方法可解释AI来验证化学相关性，并在地理上不同的样本上对外部性能进行了验证。与通用卷积分类器不同，所提出的框架是光谱指导的，并针对实际回收设施中的色素添加剂、表面污染和吞吐量要求进行了优化。

本文的其余部分组织如下：第2节详细介绍了我们的方法论。第3节展示了实验结果以及来自XAI分析的化学上有意义的见解。第4节总结了实际意义、局限性以及对未来研究的建议。

方法论

我们的方法论遵循一个五阶段的工作流程（图1a），旨在从MIR光谱开发并验证一个稳健的塑料分类系统。从数据集质量筛选开始，我们系统地推进到预处理优化、模型开发、可解释性分析和外部验证。每个阶段都建立在前一阶段的基础上，形成了一个能够在实际消费后塑料废料上可靠运行的综合框架。

数据集质量比较

每个暴露设置都使用了十项指标的质量评估框架进行评估（图3(A)：综合质量指标；图3(B)：平均光谱）。

如图3(A)所示，Dataset_10ms在关键指标上取得了最高的综合得分（17.32），表现优异：几乎完美的分类准确率（99.70%）、强Fisher判别度（3.96）、稳定的聚类分离指数（0.357）、平衡的类熵（2.08）和最小的水干扰（242）。

结论

一个精心设计的MIR光谱流程——从十项指标的数据质量审计开始，经过统计排序的预处理，最终使用校准的一维CNN——实现了高达99%的聚合物分类准确率。在评估的四种暴露设置中，10 ms产生了最高的综合质量得分（17.32），而Savitzky–Golay + SNV配置结合一阶基线校正（Config-1）对于传统方法和深度学习方法都是最优的。

CRediT作者贡献声明

Bassam A. Abdelghani：撰写——原始草稿、可视化、验证、方法论、调查、正式分析。Umema Ali：数据管理。Ezra Bar-Ziv：撰写——原始草稿、监督、项目管理、调查。Fei Long：撰写——原始草稿、验证、监督、项目管理、调查、资金获取、正式分析、数据管理。

利益冲突声明

作者声明以下可能的财务利益/个人关系可能被视为潜在的利益冲突：Fei Long报告称获得了国家科学基金会的财务支持。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家科学基金会（PFI-RP 2234450）的支持。

摘要

引言

方法论

数据集质量比较

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行