准确识别混合塑料废料流对于支持循环经济模式的有效下游分类和回收至关重要。聚乙烯(PE)、聚对苯二甲酸乙二醇酯(PET)、聚丙烯(PP)等塑料通常具有相似的外观和重叠的特性,这使得精确识别变得困难。特征描述不足可能导致误分类和不当分类,进而引发污染、增加处理成本以及降低回收材料的质量(Neo等人,2022年;Vogt等人,2021年)。这一挑战对于黑色塑料尤为突出,因为黑色塑料占总塑料废物的大约15%(Hahladakis等人,2018年;Turner,2018年),然而使用传统的近红外(NIR)方法,其分类和分选的准确率仅能达到60%–70%(Zhang等人,2022年;Zinchik等人,2021年)。这是因为炭黑添加剂在可见光和近红外波长范围内具有强烈的吸收特性,掩盖了聚合物特有的信号(Tanzid等人,2018年)。
相比之下,中红外(MIR)光谱技术通过捕捉2–5 μm范围内的分子振动来实现非破坏性的材料识别,在这个范围内炭黑的吸收不会造成干扰(Rozenstein等人,2017年)。MIR光谱提供了独特且化学信息丰富的吸收峰,特别适用于区分具有相似视觉或物理特性的聚合物。与无法检测黑色塑料的NIR光谱不同,MIR光谱能够有效识别含色素的塑料(Neo等人,2022年;Long等人,2022年)。Rozenstein等人(2017年)证明了MIR技术在准确分类消费后黑色塑料方面的能力,凸显了其解决传统基于NIR的分选方法固有局限性的潜力。
尽管MIR光谱技术具有诸多优势,但由于数据收集速度的限制,其在工业中的应用仍较为有限。最近的进展,如上转换探测器、量子级联激光器及相关硬件,开始缓解这些限制;然而,实际参数(如曝光时间)如何平衡信号质量、探测器线性和线速吞吐量等方面仍需进一步研究(Rozenstein等人,2017年;Long等人,2022年)。
此外,可靠的光谱分类机器学习(ML)模型不仅需要强大的算法,还需要高质量的教学数据集。标准化的数据集质量评估方法仍然很少;大多数先前的研究仅依赖于信噪比(SNR)等基本指标,忽略了类别可分性、峰值一致性或重复实验间的变异性等关键指标(Neo等人,2022年)。这种差距往往导致数据集选择的随意性,从而影响可重复性和鲁棒性。此外,MIR光谱数据本身存在系统噪声和伪影,包括基线漂移、表面粗糙度引起的散射以及随机噪声。虽然有多种预处理方法可用,但其最佳组合高度依赖于数据本身,且手动调整通常具有主观性和劳动密集性。
深度学习,特别是卷积神经网络(CNN),通过自动提取有意义的特征,彻底改变了光谱分类任务。这些方法显著优于传统的ML方法,如支持向量机(SVM)、k最近邻(kNN)和偏最小二乘判别分析(PLS-DA)(Naidu等人,2023年;Neo等人,2022年)。最近的研究在MIR光谱应用中验证了基于CNN的模型的有效性,展示了在混合塑料废料分类方面的出色准确率(Zinchik等人,2021年;Long等人,2022年)。然而,仅凭准确率不足以满足实际应用需求;还需要评估宏观F1分数、接收者操作特征曲线下面积(AUROC)、预期校准误差(ECE)和Brier分数等综合指标来量化模型的可靠性。
此外,可解释性仍是基于CNN的方法的主要限制。传统的化学计量模型允许通过系数向量直接检查特征的重要性,而CNN通常被视为“黑箱”。最近在可解释AI(XAI)方面的进展,包括Shapley加性解释(SHAP)、局部可解释模型不可知解释(LIME)、集成梯度和遮挡敏感性,现在能够对CNN预测进行有意义的解释(Contreras等人,2024年),但跨预处理流程的系统比较研究仍然较少。
文献中的一个持续存在的问题是缺乏严格的外部验证。大多数现有模型仅在清洁的、实验室获得的数据上进行训练和评估,当面对含有油、粘合剂或环境降解的实际样品时,它们的表现往往不佳(Naidu等人,2023年)。确保模型的泛化能力需要使用在真实操作条件下收集的独立测试集进行评估。
我们团队之前的研究探索了多种基于MIR的塑料特征描述方法,强调了处理含噪声、受污染的实际样品的潜在性和持续挑战(Jiang等人,2021年;Long等人,2022年;Zinchik等人,2021年;Long等人,2022年;Long等人,2025年)。
基于这些基础,本文通过几个关键进展解决了现有的研究空白:
- (1)
构建了一个大规模的中红外光谱数据集,包含超过320,000个光谱(每种暴露条件80,000个),涵盖了八种聚合物类别,并结合了一个十项指标的质量评估框架,系统地评估了光谱的完整性、统计可分性和实际可用性。
- (2)
通过广泛的网格搜索对24种配置进行严格的预处理优化,统计上验证了该方法能够提高光谱清晰度和模型性能。
- (3)
多指标机器学习模型评估,包括宏观F1分数、精确度、召回率、校准评估和稳健的5折交叉验证,以进行全面性能验证。
- (4)
基于共识的可解释性方法,使用五种互补的XAI方法来可靠地识别驱动预测的化学上有意义的光谱特征。
- (5)
严格的外部验证,在真实的消费后回收塑料上展示了高准确率(98.50%)。
为了进一步区分本研究与传统MIR分类流程,我们提出了一个针对特定领域的框架,该框架明确利用了聚合物特有的吸收化学特性和工业应用的限制。具体而言,该框架整合了考虑吸收带的预处理和模型设计,建立了一个适用于污染和混合进料变异性的可重复数据集质量评估协议,应用多方法可解释AI来验证化学相关性,并在地理上不同的样本上对外部性能进行了验证。与通用卷积分类器不同,所提出的框架是光谱指导的,并针对实际回收设施中的色素添加剂、表面污染和吞吐量要求进行了优化。
本文的其余部分组织如下:第2节详细介绍了我们的方法论。第3节展示了实验结果以及来自XAI分析的化学上有意义的见解。第4节总结了实际意义、局限性以及对未来研究的建议。