基于可解释性人工智能的棉纤维和纱线性能的参数分析

《Journal of Cotton Research》:Explainable artificial intelligence-based parametric analysis of cotton fiber and yarn properties

【字体: 时间:2026年05月02日 来源:Journal of Cotton Research 2.4

编辑推荐:

  摘要 背景 有效的建模和参数研究有助于深入分析棉纤维特性对纱线特性的影响,这对于开发高质量产品至关重要。基于机器学习(ML)的预测算法已被用于精确建模纤维与纱线之间的关系。然而,复杂的黑箱模型缺乏可解释性和透明度,从而限制了参数研究。因此,结合基于ML的黑箱建模和可解释人

  摘要
背景
有效的建模和参数研究有助于深入分析棉纤维特性对纱线特性的影响,这对于开发高质量产品至关重要。基于机器学习(ML)的预测算法已被用于精确建模纤维与纱线之间的关系。然而,复杂的黑箱模型缺乏可解释性和透明度,从而限制了参数研究。因此,结合基于ML的黑箱建模和可解释人工智能(XAI)的分析方法可以促进对纱线质量进行准确且可解释的参数分析。

结果
在本研究中,基于实验棉纤维数据集开发了三种基于ML算法的模型,即随机森林、支持向量回归和K最近邻算法。选取了五种棉纤维特性作为输入变量,用于预测纱线的强度和不均匀性。根据它们的性能,选择了最适合每种纱线特性的模型。应用了XAI技术——Shapley加性解释(SHAP),以增强模型预测的可解释性并研究纤维特性的贡献。短纤维含量是影响最大的特性,其平均绝对SHAP值为0.359,其次是纤维强度(0.242)。不均匀性受短纤维含量的影响最大,平均绝对SHAP值为0.735。其他纤维特性的影响相对较弱且呈非线性。

结论
本研究借助SHAP分析对纤维与纱线之间的关系进行了研究。通过线性回归和参数扫描验证了SHAP技术的参数解释结果,增强了关系推断的稳健性。所提出的框架为纱线质量分析及其通过纤维加工过程的理解提供了实用且可解释的决策支持工具。

引言
棉花是最广泛生产的天然纤维,占全球纺织纤维总产量的近三分之一。它是支撑整个纺织工业的主要原材料。棉纤维因其透气性而柔软舒适,允许空气通过。它们还具有强度高、耐磨损和耐高温的特点。棉纤维的质量可以通过多种物理特性来衡量,如纤维强度(FS)、纤维伸长率(FE)、上半部分平均长度(UHML)、细度和短纤维含量(SFC)(Das等人,2013年)。FS表示纤维在断裂前能承受的最大力,而FE则衡量棉纤维的延展能力(Chakraborty等人,2018年)。这两种纤维特性对于确定纱线特性非常重要,FE的增加与纺纱断头率的降低和纱线强度的提高相关(Sarker等人,2022年)。UHML定义为最长50%纤维的平均长度,通过高容量仪器(HVI)进行测量(Chakraborty等人,2018年),它是纤维长度对纱线强度提高和不均匀性降低的影响指标(Sarker等人,2022年)。然而,UHML的增加可能在梳理过程中导致纽结的形成,因此需要仔细处理以更好地对齐纤维。棉纤维的细度以微米值表示(Sarker等人,2022年),较细的棉纤维容易缠绕在杂质或叶片颗粒上,导致优质棉纤维的丢失。较细的纤维还需要较慢的梳理速度,从而可以使用较低的粗纱和纱线捻度,这对提高纱线强度至关重要。SFC定义为长度小于0.5英寸的纤维的质量百分比,其增加会在加工过程中产生更多废料,导致纱线强度较弱且不均匀(Cui等人,2003年)。棉纤维的特性对最终产品的质量有显著影响。

棉纤维加工需要对其参数进行仔细检查,因为样本中任何特性的变化都会显著影响加工性能和最终的纱线质量(Gordon等人,2017年)。多项理论研究已经探讨并展示了影响棉纤维和纱线特性的基本关系和现象。Peirce(1926年)使用最弱环节定理对纱线强度进行了建模,随后Daniels(1945年)利用纤维束模型进一步解释了材料的断裂过程。Dyson(1974年)研究了纱线不规则性,并将变异系数与纱线横截面中的纤维数量联系起来。其他研究还探讨了纤维细度和长度分布对纱线不均匀性和强度的影响(Lin等人,2011年;Jiang等人,2021年)。这些研究加深了对纤维与纱线关系物理机制的理解。因此,需要研究不同输入变量对产品质量的影响。然而,工艺纤维变量与纱线质量之间的复杂非线性关系难以确定。因此,可以实施统计或机器学习(ML)算法来建模这些关系,以实现工艺优化,模拟将这些输入材料转化为最终产品的实际过程。这些模型可以根据多个输入或工艺参数准确预测最终产品的输出特性,描绘出特性之间的相互关系。

这些代表变量之间复杂关系的模型大致可以分为两类:白箱模型和黑箱模型。白箱模型,如线性回归、决策树和基于规则的算法,允许用户解释预测过程,从而根据输入产生特定输出。因此,用户可以理解模型算法的内部机制。Hong等人(2019年)、Mpofu等人(2020年)、Fazal等人(2021年)、Khater等人(2022年)和Liu等人(2024年)的研究引入了基于回归的建模及其改进形式。Chakraborty等人(2018年)和Cakmak等人(2023年)利用决策树研究了纤维与纱线的相互作用。基于规则的系统,如模糊逻辑(Haque等人,2019年)、粗糙集理论(Zhang等人,2025年)和自适应神经模糊推理系统(Das等人,2021年),也是用于类似纺织研究的其他白箱方法。然而,它们需要在可解释性和预测准确性之间做出权衡(Loyola-Gonzalez,2019年)。此外,这些模型可能简单且在模拟变量之间的复杂依赖关系方面效果不佳(Gupta等人,2020年)。

另一方面,黑箱模型,如随机森林(RF)、支持向量回归(SVR)、K最近邻(KNN)和人工神经网络(ANNs),用户难以理解(Loyola-Gonzalez,2019年)。它们可以通过复杂的内部框架建模复杂关系,提供高精度且误差最小的预测(Gupta等人,2020年)。基于树的模型,如RF、自适应提升、极端梯度提升等,已被用于预测纤维和纱线特性(Fazal等人,2021年;Liu等人,2024年;Majumdar等人,2025年)。神经网络在模拟纤维和纱线特性及其相互关系方面的应用也很突出(Xu等人,2025年)。ANN是该领域最常用的基于神经网络的建模算法,Farooq等人(2018年)、Doran等人(2020年)、Fazal等人(2021年)、Majumdar等人(2022年)、Irfan等人(2024年)和Ingle等人(2025年)的研究中均有体现。另一种基于神经网络的算法——卷积神经网络,已在Hu等人(2018年)和Ingle等人(2025年)的研究中得到应用。该领域还实现了基于SVR(Doran等人,2020年;Ingle等人,2025年)、KNN(Fazal等人,2021年)、编码器(Wang等人,2024年)和堆叠算法(Liu等人,2024年)的其他预测模型。此外,还实现了自动化机器学习(AutoML,Azevedo等人,2022年;Metin等人,2024年)和Cottonspec(Liu等人,2023年)等软件工具。最近的研究还结合了物联网(IoT)和计算机视觉技术。Azevedo等人(2022年)、Xu等人(2023年)和Xu等人(2024年)的研究中展示了传感器的使用。计算机视觉方法采用了“你只看一次”(YOLO)目标检测系统(Ingle等人,2025年;Pereira等人,2026年)。然而,需要在可解释性和预测准确性之间进行权衡的研究通常需要在黑箱模型的开发上做出妥协。可解释人工智能(XAI)的概念弥补了这一空白,使用户能够理解这些黑箱模型的工作原理。

XAI是一组技术,用于向用户解释黑箱模型的开发、内部工作原理和预测结果(Loh等人,2022年)。它们提供了不同输入变量对整体贡献的全面解释,以及模型每次预测的局部解释。多种技术,如局部可解释模型不可知解释(LIME)、部分依赖图(PDP)、敏感性分析(SA)和Shapley加性解释(SHAP),可以通过事后可解释性提高黑箱模型的透明度,并提升预测准确性(Kenny等人,2021年)。Azevedo等人(2022年)在纺织工程领域应用了XAI技术,利用SA研究了织物和机械加工参数的贡献。与其他XAI技术相比,SHAP具有较高的稳定性、理论一致性以及同时提供局部和全局解释的优点。然而,在棉纤维领域缺乏基于SHAP的分析。

从现有文献可以看出,白箱和黑箱模型都被用于纤维、纱线和其他特性的预测模型。涉及白箱模型的研究可以结合参数分析来展示纤维与纱线之间的关系,但代价是预测准确性的降低。相反,黑箱模型虽然表现出更好的性能指标,但缺乏参数研究。此外,只有少数研究探讨了特定模型中各种参数的相对重要性。因此,本研究试图通过首先使用RF、SVR和KNN算法开发三种黑箱类型ML模型,然后应用SHAP分析来解决这些研究空白。从SHAP技术中获得的见解对纺织应用有益。在特定操作条件下识别最重要的纤维参数可以直接帮助选择纤维和混纺策略以及工艺优化。因此,有必要开发一种集成方法,利用基于ML的黑箱建模来研究纱线特性,并采用基于SHAP的方法来研究纤维特性的贡献。该框架可以同时提高预测准确性、模型透明度和对纤维加工过程的理解。因此,数据驱动建模方法在纺织制造中的实际相关性可以得到提升。

本文介绍了在36种不同类型棉纤维及其相应梳理纱线的实验数据集上结合黑箱建模和基于SHAP的分析。多种与棉纤维相关的属性,例如纤维长度(FS)、纤维弹性(FE)、纤维平均长度(UHML)、细度(fineness)和纺纱系数(SFC),被视为输入变量,用于预测两种纱线属性的值,即纱线强度(YT)和乌斯特不均匀度(U)。首先,基于几个统计指标,比较了为每种纱线属性开发的三个模型,并选择了最佳拟合模型进行进一步分析。接下来采用了SHAP分析,该分析确定了(a)每个纤维属性对每个预测的边际贡献,(b)纤维属性相对于模型的比较重要性,以及(c)每个纤维属性及其对每个纱线属性影响的参数化洞察。

材料和方法
如前所述,本文提出了一种综合方法,包括(a)基于多种棉纤维属性开发用于预测纱线属性的黑色箱型机器学习(ML)模型,以及(b)采用SHAP技术对纤维和纱线属性之间的相互关系进行参数化研究。本研究首先使用三种ML算法——随机森林(RF)、支持向量回归(SVR)和K近邻(KNN)来开发相应的模型以预测YT和U。五种棉纤维属性,即纤维长度(FS)、纤维弹性(FE)、纤维平均长度(UHML)、细度(fineness)和纺纱系数(SFC),被作为模型的输入变量。然后根据六个预测准确度指标的值选择每种纱线属性的最佳拟合模型,这些指标包括决定系数(R2)、均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和总优度函数(TGF)(Darzi等人2025年;Takleh等人2025年)。在这里引入了SHAP,并将其应用于最佳拟合模型的预测结果。所提出方法的详细信息以流程图的形式在图1中描述。

实验数据
Das等人(2013年)考虑了一个包含36种不同类型棉纤维及其相应环形纺纱得到的20支数名义计数的粗纱的工业数据集。基于这个数据集,作者开发了一个ANN-GA模型,根据六个纤维属性来预测两种纱线质量,即YT和U。在当前研究中,考虑了六个纤维属性中的五个,即纤维长度(FS)、纤维弹性(FE)、纤维平均长度(UHML)、细度(fineness)和纺纱系数(SFC)(Das等人(2013年)的表1)。

模型初步
本研究选择了三种ML算法——随机森林(RF)、支持向量回归(SVR)和K近邻(KNN),特别是为了展示该方法的多功能性。它们在操作原理上各有不同。它们基本框架的差异确保了本研究的结果更具通用性,从而使所提出的方法能够在技术和管理的各个领域得到应用。
RF是一种同质集成ML技术,由多个随机生成的决策树组成,这些决策树通过对基于训练数据集和一组独立但分布相同的随机向量开发的预测进行聚合来提供预测(Breiman 2001年;Altman等人2017年)。作为装袋集成学习器的一个独特例子,它使用自助样本作为训练数据集的基础,从而可以开发基础学习决策树(Zhou 2012年)。训练数据集是通过从原始数据集中进行有放回抽样随机生成的,同时确保观察值的数量相同。
SVR是支持向量机的扩展,用于预测连续数值。在SVR中,推导出一个函数,该函数具有最大可容忍的偏离实际值的程度,从而在函数周围形成一个“管状区域”(Awad等人2015年;Bansal等人2022年)。管状区域外的点会被惩罚,并根据它们与超平面的距离来增加成本,而管状区域内的点则被忽略。管状区域应该是最扁平的,包含所有可能的数据点。因此,需要通过基于损失函数和管状几何形状的多目标优化来在预测误差和模型复杂性之间建立平衡(El Mazgualdi等人2021年)。
KNN是一种基于实例的非参数算法,它根据与待预测数据点最接近的K个数据点的预测来对新数据点进行预测(Ehsani等人2020年;Abu Alfeilat等人2019年)。点之间的接近度使用广义p-范数Minkowski距离度量来计算。KNN中广泛使用的具体距离度量是欧几里得距离,其中p等于2。在回归过程中,输出变量的值通常是通过最近K个数据点的输出变量平均值获得的。图2显示了开发这三种ML建模算法所涉及的步骤。

模型开发
本研究首先开发了三个ML模型(RF、SVR和KNN)来预测每种纱线属性。在实施这三种建模算法之前,使用z分数标准化对数据集进行了预处理。模型是在将数据集分割后开发的,其中70%的数据用于训练模型,其余数据用于验证。所有三个模型在训练期间都使用了五折交叉验证。开发ML模型所需的代码是用Python 3.10在Google Colab环境中编写的,Google Colab是一个托管的Jupyter Notebook服务。
对于SVR模型,选择了径向基函数核,正则化参数(C)等于1,epsilon-tube的宽度设置为0.1。gamma值设置为默认的“scale”值,停止容忍度设置为1e3,没有设置迭代次数限制。另一方面,对于KNN模型,邻居的数量等于五个,邻域中的所有点都被赋予相同的权重,并选择欧几里得距离来确定特征空间中点之间的距离。搜索算法是自动选择的,叶节点大小设置为默认值30。用于YT和U的RF模型在开发时考虑了300个随机决策树。分割的质量使用平方误差来衡量,而分割所需的最小样本数为两个。在寻找最佳分割时,会扩展相应的节点,直到所有叶子节点都是纯净的或包含的样本数少于分割节点所需的最小样本数。

模型评估
为了确定最佳拟合模型,借助一些评估指标来比较模型的性能。在本研究中,考虑了六个预测准确度指标,即R2、MSE、RMSE、MAE、MAPE和TGF。MSE是所有观测值中预测值与实际值之间平方差异的平均值,而RMSE是其平方根。MAE是所有观测值中预测值与实际值之间绝对差异的平均值,MAPE表示平均绝对预测误差作为实际值的百分比。如果这些指标的值较低,则表示拟合得更好。R2表示模型解释的数据方差的比例。这是一个越高越好的指标,最高值为1表示最佳拟合。所有这五个指标都用于评估训练和测试数据集的模型预测准确性。另一方面,TGF是一个综合性能指标,它整合了训练和测试数据集的R2和MSE的值,以提供模型预测性能的总体衡量。与R2一样,TGF也是一种越高越好的预测性能评估指标。基于这六个指标,确定了两种纱线属性的最佳模型,随后进行了基于SHAP的纤维-纱线关系的参数化分析。

基于SHAP的参数化分析
在模型开发之后,选择了每种纱线属性的最佳拟合模型进行参数化研究。在对最佳拟合模型的预测结果进行SHAP分析。通过计算出的SHAP值可以评估每个变量对每个单独预测的贡献。这种计算基于Shapley值的合作博弈论概念(Li等人2024年)。SHAP算法检查所有可以共同进行预测的输入变量组合或子集。接下来通过对比在特定输入变量存在与否时的预测结果来确定变量的边际贡献(Feng等人2021年)。模型对任何观测值的预测是所有ML模型预测的平均值与输入变量对特定观测值的SHAP值贡献之和。
SHAP技术允许对基于ML模型的预测进行局部和全局解释。通过其局部解释能力,它可以识别每个输入变量对模型每个预测的边际贡献。这可以通过条形图来说明,每个条形图表示贡献的大小。SHAP的全局可解释性特征确保了识别和评估输入变量对输出变量的整体影响,预测模型就是围绕这个输出变量开发的。通过所有观测值中每个变量SHAP值贡献的绝对值的平均值来确定每个输入变量参数影响的比较重要性。这个指标也可以用条形图的形式来表示。
影响的性质也可以用小提琴图形式的摘要图来解释,在这些图中,每个观测值的输入变量实际值与基于变量SHAP值的边际贡献相对应。在这些图中,为每个输入变量开发了类似小提琴的图形。这些图随着SHAP值的变化而改变颜色,颜色的变化表示输入变量实际值的变化。另一个描绘输入变量对输出变量影响的图是依赖图。依赖图通过定量方式扩展了小提琴图的定性发现,使得可以识别输入变量和输出变量之间的线性和非线性关系。依赖图不仅显示了输入变量贡献的大小,还显示了贡献的方向。因此,直观的视觉辅助工具以及基于强大博弈论的计算使得SHAP能够更深入地了解ML模型的内部工作原理和输入变量的贡献。这使得纺织行业的管理决策任务相对容易。
在本研究中,将基于SHAP分析的全局解释应用于训练模型。因此,小提琴图、相对重要性条形图和依赖图都是基于训练数据集开发的。由于SHAP用于解释模型而不是数据集,因此需要在基于训练数据集开发的模型上进行。然而,为了展示模型在预测每个纱线参数值时的局部功能,可以实施SHAP分析来确定纤维参数对测试数据上每个预测的边际贡献。这有助于模型验证和解释特定的未预见预测。

模型性能和选择
在模型训练完成后,获得了训练和测试数据集的预测结果,并计算了相应的预测准确度指标。图3和图4比较了每个ML模型的YT和U的预测值和实际值。这些图中的散点图显示了数据点所在的空间,其中水平轴代表训练和测试数据的实际观测值,而垂直轴表示预测的纱线属性。还绘制了一条完美的预测线,代表实际值和预测值相等的数据点。在完美预测线的两侧也标出了15%的误差范围,以可视化那些预测值与其实际观测值偏差较大的点。图3 这张图片的替代文本可能是使用AI生成的。全尺寸图片 三种机器学习模型对纱线强度(YT)的实际值与预测值的对比 图4 这张图片的替代文本可能是使用AI生成的。全尺寸图片 三种机器学习模型对乌斯特不均匀度(U)的实际值与预测值的对比 两幅图都显示,没有任何数据点超出任何模型的误差范围,这表明了这些机器学习算法具有出色的预测性能。此外,大多数点都紧密聚集在完美预测线附近,进一步证明了这些算法的高准确性。在图3中,RF模型对训练数据的预测点几乎与完美预测线重合,略优于SVR模型的预测。然而,在测试模型时发现,RF模型的预测效果是最差的。这表明RF模型在训练过程中出现了过拟合现象,因此不能作为预测YT的合适模型。相反,SVR模型在训练和测试数据集上的预测性能最好。从图4可以看出,RF模型在预测U的值时表现优于SVR和KNN模型。因此,从视觉上看,SVR模型是最适合预测YT值的模型,而纱线参数U则可以用RF模型来建模。然而,为了分析这些模型的性能,有必要比较它们的预测准确性。表1展示了所有算法的六个性能指标的值,证明了它们的预测准确性。这些指标的值证实了图3和图4中的结果。对于YT,RF模型在训练数据上显示了最高的R2值和最低的误差值,而SVR和KNN模型的表现略逊一筹。然而,所有三个模型的R2值都有显著下降,误差指标的值则有显著增加。与训练数据的表现相比,RF模型的预测准确性是最差的。预测性能在数据集上的急剧下降可能是由于样本量较小导致的过拟合。尽管RF模型在三个模型中具有最高的TGF值,但SVR模型在预测YT方面提供了最好的泛化能力,这体现在最高的测试R2值和相对较低的误差指标上。因此,SVR模型可以被认为是表现最好的模型,也是最适合预测YT值的模型。表1 机器学习模型的预测性能 全尺寸表格 对于纱线属性U,RF模型在两个数据集上的预测准确性都更优。SVR模型在训练数据集上的预测性能优于KNN模型。然而,在测试数据集上,KNN模型的MAPE和MAE值较低。此外,SVR模型在TGF值方面也优于KNN模型。因此,可以推断SVR模型是预测YT的最合适模型,而RF模型最适合预测U值。这两个模型被选用于进行SHAP分析,以参数化分析棉纤维的特性。基于SHAP的YT参数化分析 由于SVR模型被认为是预测YT的最合适模型,现在基于SVR模型进行了SHAP分析支持的参数化研究。参数化研究从局部解释开始,通过对测试数据的预测进行SHAP分析,以展示纤维特性对预测YT值的影响。图5a和b分别显示了每个输入变量对第一个和最后一个观测值的边际SHAP值贡献。图5 这张图片的替代文本可能是使用AI生成的。全尺寸图片 纤维特性对预测YT值的边际贡献 SVR模型预测的所有YT值的平均值为14.716 g·tex?1。对于第一个观测值(FS = 26.8 g·tex?1, FE = 5.3%, UHML = 1, 精度 = 4.9 μg·in?1, 和 SFC = 6.8%),SVR模型预测的相应YT值为14.676 g·tex?1。基于SHAP值的分析显示,最大的负贡献来自FS,为-0.31单位。FE、UHML和精度的绝对SHAP值分别为0.22、0.06和0.04,也产生了负面影响。相反,SFC对预测的YT值有0.30的正边际贡献。五个贡献的总和大约等于第一个观测到的YT值与所有测试数据观测值平均值之间的差异。同样,SVR模型在最后一个观测值(FS = 28.1 g·tex?1, FE = 6.3%, UHML = 1.01 in, 精度 = 3.8 μg·in?1, 和 SFC = 15.5%)预测的YT值为14.044 g·tex?1。SFC的负边际贡献最大,为-0.79单位。FS和精度对预测的YT值有负面影响,SHAP值分别为-0.25和-0.02。相反,UHML和FE的贡献分别为0.06和0.05。可以使用小提琴图来评估输出纱线特性和输入纤维参数的影响。图6显示了这样的图表,说明了基于SHAP值的贡献与纤维特性的实际值之间的关系。对于每个纤维特性,随着纤维特性值从低到高的变化,图的颜色从蓝色变为红色。另一方面,可以使用依赖图进行定量分析,如图7所示。在这些图中,每个纤维特性的观测值与其相应的正或负SHAP值基边际贡献相对应地绘制出来。因此,图6和图7的结合表明了纤维特性对纱线特性的影响大小和方向。图6 这张图片的替代文本可能是使用AI生成的。全尺寸图片 小提琴图显示纤维特性对YTF的影响 图7 这张图片的替代文本可能是使用AI生成的。全尺寸图片 依赖图显示纤维特性对YT的影响 从图6可以看出,FS的较高值对应于其正的SHAP值基贡献。这些正贡献表明YT值的增加。因此,可以说FS的较高值会导致YT值的增加。同样,FS的较低值与其负的SHAP值基贡献相关,表明YT值的减少。因此,可以推断FS对YT有单调的正影响。另一方面,SFC的较低观测值对应于正的SHAP值基贡献,而其较高值则对应于负的SHAP值。SFC的较低值表明YT值的增加,而预计随着SFC值的增加,YT值会减少。因此,可以假设SFC对YT有单调的负面影响。这可以通过依赖图进一步证明。随着FS值的减少,其对YT的贡献持续减少。在FS值约为29 g·tex?1时观察到负贡献,最大负贡献约为-0.6单位。另一方面,在观测值超过30 g·tex?1时,FS的正贡献持续增加,直到SHAP值约为0.55单位。SHAP值接近零的过渡阶段位于FS值29 g·tex?1和30 g·tex?1之间。SFC在小于8%的值时显示出较高的正SHAP值基贡献(大约高达0.6单位)。另一方面,SFC的边际贡献在超过10%时逐渐减少,在超过14%时急剧下降(降至-0.8单位)。正SHAP值和负SHAP值之间的过渡阶段位于SFC值8%和10%之间。从图6和图7可以看出,FE、精度和UHML与YT没有单调关系。FE与YT的关系是非线性的,在5.8%以下的值时SHAP值基贡献为负。当FE的相应观测值在6%到6.4%之间时,其贡献达到最大。超过6.4%后,FE的贡献逐渐减少,负贡献增加。精度与YT的关系相对分散。在4 μg·in?1到4.6 μg·in?1之间的中等精度值显示出中等的正边际贡献。UHML也与YT有非线性关系,在1.02 in到1.08 in之间的值时对YT有正贡献。UHML在小于1 in和大于1.10 in的值时观察到负贡献。非线性表明可能存在交互效应,影响FE、精度和UHML对YT的影响。在对YT与纤维特性的变化进行调查之后,现在考虑研究它们的相对重要性。为此,考虑了所有观测值中每个纤维特性的SHAP值基边际贡献。计算了所有这些边际贡献的绝对值的平均值,代表了纤维特性对最终纱线质量的平均影响。图8显示了每个纤维特性对预测YT值的平均影响。SFC被认为是最重要的特性,其平均绝对SHAP值为0.359单位。FS和FE是第二和第三重要的纤维特性,平均绝对SHAP值分别为0.242单位和0.097单位。精度和UHML对YT的影响最小,其平均绝对SHAP值分别为0.080单位和0.073单位。图8 这张图片的替代文本可能是使用AI生成的。全尺寸图片 纤维特性对YT的相对重要性 基于SHAP的U参数化分析 在研究了纤维特性对YT的影响之后,也对纱线特性U进行了参数化分析。SHAP分析是在相应的RF模型上实施的。首先研究了纤维特性对每个测试观测值的贡献。图9a和b分别显示了测试数据中第一个和最后一个观测值的SHAP基边际贡献。图9 这张图片的替代文本可能是使用AI生成的。全尺寸图片 纤维特性对预测U值的边际贡献 第一个和最后一个观测值的U预测值分别为12.485%和14.456%。RF模型对U的所有预测值的平均约为13.060%。在第一个观测值中,SFC的边际贡献最大,SHAP值为-0.83,而UHML的边际贡献为-0.04。另一方面,FS和FE在这个观测值中起积极作用,它们的SHAP值基边际贡献分别为0.28和0.19。对于最后一个观测值,SFC也被发现是最重要的变量,边际贡献为1.63。相比之下,其他纤维特性在这个观测值中的贡献虽然为正但较小,分别为0.04和0.02。相反,FE和UHML的边际SHAP值基贡献分别为-0.07和-0.06。在预测U值并估计每个观测值中纤维特性的贡献后,图10和图11中分别开发了相应的小提琴图和依赖图,以利用它们的SHAP值建立纤维特性与U之间的关系。SFC的SHAP值范围从大的负值到大的正值。相反,其他四个变量的SHAP值范围在两侧都较短。SFC与U有单调关系,SFC的负SHAP值对应于其较低的值。同样,其正SHAP值与其较高的值一致。SFC的SHAP值过渡区位于观测值9%和10%之间。随着SFC值从9%下降,负面贡献增加,最大达到-1.5单位。同样,当观察到的SFC值超过10%时,SHAP值正向增加,最大达到2单位。因此,较高的SFC值表示预测的U值增加,而较低的SFC值表示U值减少。因此,可以推断SFC对U有很强的正面影响。图10:该图像的替代文本可能是使用AI生成的。全尺寸图像:显示纤维属性对U影响的小提琴图。图11:该图像的替代文本可能是使用AI生成的。全尺寸图像:显示纤维属性对U影响的依赖性图。另一方面,FS和FE的较低值对应于它们各自的正面SHAP值,而较高的值则与它们的负面SHAP值相关。FS的过渡区位于观察到的FS值28 g·tex^-1和30 g·tex^-1之间。SHAP值增加,最大约为0.4单位。另一方面,当观察到的值超过30 g·tex^-1时,负面边际贡献增加,最大约为0.2单位。同样,FE的贡献在观察到的值小于6%时增加,最大约为0.25单位。相反,当观察到的值超过6.2%时,FE的边际贡献减少到大约-0.2单位。因此,较高的FS和FE值会导致U值减少,而较低的值则会增强U值,从而表明它们对U有负面的参数效应。UHML和细度与纱线属性U之间存在非线性关系。UHML对U的最高正面贡献出现在观察到的UHML值1.75 in和1.1 in之间。UHML的贡献在值小于1.05 in时趋于显著减少,而在UHML值大于1.5 in时略有减少。细度与U的关系较为分散,最大负面贡献出现在观察到的值4.2 μg·in^-1和4.8 μg·in^-1之间。在研究了所考虑的纤维属性变化的影响后,现在可以确定它们对U的相对重要性,如图12所示。可以看出,SFC的平均绝对SHAP值为0.735单位,对U的影响最大。其余纤维属性对U的累积影响相对较小。尽管FS是影响U的第二重要属性,但其平均绝对SHAP值为0.113单位,仍显著低于SFC。FE、UHML和细度也对U有微小影响,平均绝对SHAP值分别为0.065、0.039和0.029。图12:该图像的替代文本可能是使用AI生成的。全尺寸图像:纤维属性对U的相对重要性。为了进一步理解从SHAP分析中获得的见解,使用线性回归模型进行了参数分析的验证研究。从回归模型中得出的系数的符号代表了在假设其他所有变量保持不变的情况下,预测变量和响应变量之间的关系方向。为了进行这项验证研究,数据集被分为训练数据和测试数据,比例为7:3。分别以YT和U为因变量,五种棉纤维属性为自变量,开发了两个线性回归模型。表2显示了每个线性回归模型的相应系数。从这些模型中可以明显看出,SFC对于YT和U都是最重要的变量。这些发现与SHAP分析的结果一致。此外,根据表2中的t值,FS是YT和U的第二重要变量,这也与SHAP分析的结果一致。根据SHAP分析,SFC与YT和U有强烈的负相关关系,而FS则有强烈的正相关关系。这一点通过它们的系数符号和P值得到了验证。同样,FE、UHML和细度与纱线属性的关系相对较弱且是非线性的。这通过从回归模型中得出的系数的不显著性得到了验证。线性回归模型的预测准确性指标显示在表3中。线性回归模型的结果与三种机器学习模型的性能相似。在预测YT值时,线性回归模型在训练和测试数据集中的R2值也显示出急剧下降。线性回归模型在预测U时的预测性能差异与三种机器学习模型的结果相似。还可以观察到,SVR模型在保持训练和测试数据的准确性方面表现优于回归模型,而RF模型对U值的预测更为准确。虽然这两种模型可能比线性回归模型显示出更好的结果,但它们在模型之间也表现出一致性。因此,基于RF模型的SHAP分析得出的结果可以用来解释参数关系。表3:线性回归模型的性能指标。为了验证使用SHAP分析建立的参数关系,采用了参数扫描作为一种补充技术。在参数扫描中,系统地进行敏感性分析,其中一个输入变量在预定的值范围内变化,而其他输入变量保持不变,假设生产条件是理想的。这种参数研究方法调查了机器学习模型学到的功能关系,以可视化输入变量对预测模型输出的影响。参数扫描展示了数据空间中的物理和可解释的趋势。在这项研究中,每种纤维属性在其最小值和最大观察值之间以100个等距离点进行了扫描,而其他纤维属性保持在其各自的中位数。结果创建了一个包含100个新数据点的合成数据集,然后让最合适的训练模型(SVR用于YT,RF用于U)在其上运行。最后,将纱线属性的预测输出与相关纤维属性的合成值进行绘制。图13和图14分别展示了YT和U的参数扫描。图13和图14中的参数扫描显示了纤维属性对YT和U的影响趋势,这些趋势与它们各自的依赖性图(分别为图7和图11)一致。两组图中的影响性质相似,从而验证了SHAP分析得出的结果。值得注意的是,虽然YT的参数扫描曲线是平滑的,但RF显示出阶梯状行为。这可以归因于YT和U的相应预测模型。SVR模型基于径向基函数核执行的连续功能形式。另一方面,RF模型由决策树组成,其预测是分段且恒定的。然而,尽管曲线平滑度不同,两种模型在其参数扫描中都显示出方向性趋势,这与SHAP分析的结果一致。因此,可以验证基于SHAP的解释是稳健的。回归和参数扫描验证了在纤维和纺织品领域使用SHAP支持的机器学习模型的有效性。该框架包括在多种机器学习算法中选择最适合的模型。这表明没有单一的预测机器学习模型是普遍最优的,而SHAP提供了一种一致的、模型无关的方法来提供跨模型的洞察。为了进一步研究纤维属性对YT和U的影响,表4显示了每种纤维属性的总体贡献百分比及其累积贡献百分比。与其他纤维属性相比,SFC对YT和U的百分比贡献显著较高。还注意到,YT的总体影响的70%来自两种纤维属性,即SFC和FS,表明它们对YT值有显著影响。同样,SFC单独负责U总影响的70%。表4:纤维属性对纱线质量的百分比贡献。SFC代表长度小于0.5英寸的纤维的质量百分比。在本文中,观察到SFC对YT有负面影响,即SFC的增加会降低YT。相反,SFC对U有正面影响,意味着U值随SFC的增加而增加。纱线是由单个棉纤维的捻合而成的。由于较长的纤维质量较大,能够更有效地相互捻合,因此它们增强了纱线的强度,使其更耐断裂(Guthrie等人,1993年)。因此,较短纤维的比例较高时,纱线更容易断裂,从而降低了其韧性。此外,在牵伸过程中短纤维的分布不均匀,导致形成牵伸波,从而在纱线中产生薄弱区域,使其更易断裂(Hossain等人,2025年)。由于在牵伸过程中难以控制短纤维,它们经常会在纱线表面突出,导致纱线不规则。无法在牵伸过程中整合的较短纤维往往更加分离,产生不均匀的纱线结构(Hossain等人,2025年)。FS是影响YT的第二重要属性,而它是影响U的第三重要特征。如前所述,纱线是由棉纤维制成的。因此,纤维的强度预计会对纱线的强度和韧性产生显著影响。通常,大约40%–65%的纤维强度会传递到纱线中(Tyagi,2010年)。棉纤维强度的降低也会增加断裂,从而导致 neps含量的增加,进而增加SFC(Hossain等人,2025年)。这些neps是缠绕和混乱的纤维的小结,会在纱线中产生厚实的局部区域,使其结构不均匀。可以看出,FE最初会增加YT,随后YT值会下降。Delhom等人(2024年)建立了纤维韧性とFE之间的线性关系,直到一个临界点。随着FE值的增加,纤维可能会受损,导致YT值降低。细度对YT和U都有非线性影响。随着细度的增加,纤维之间的凝聚力也增加,从而增加了纱线的韧性。然而,当细度值较低时,可能是因为纤维不够成熟或较短,导致容易断裂。这表明纤维的强度降低,从而导致YT值降低(Long等人,2021年)。此外,在较高的捻合系数下,较细的纤维比粗纤维更容易断裂,表明YT值降低(Fiori等人,1951年)。纱线的均匀性随着纱线横截面中纤维数量的增加而提高,但这只有在纤维较细的情况下才可能实现(Gandhi,2019年)。因此,观察到棉纤维细度的增加会降低U值。建议将SFC和FS视为优化纱线质量的主要参数,因为它们对YT和U都有最强的影响。因此,在原材料选择和工艺调整中,SFC和FS的值非常重要。为了获得更高质量的纱线,必须确保纱线纤维成分(SFC)处于较低水平,而纤维细度(FS)处于较高水平。相比之下,纤维弹性(FE)、超高模量纤维(UHML)和纤维细度对纱线强度(YT)和纤维伸长率(U)的贡献是非线性的,并且相对较小。这些非线性关系还表明了它们之间相互作用的影响。因此,可以建议对这些纤维参数进行优化,并结合其主要特性进行综合考虑,而不是单独优化。由于观测样本数量较少(n=36),结果可能不够可靠和具有普遍性,并且容易受到异常值的影响。任何研究的统计功效都可能因为样本量小而降低,这会增加其检测微小效应的能力(Morgan 2017)。尽管采用了7:3的训练-测试分割结合五折交叉验证来提高模型的鲁棒性,但小数据集仍然存在固有的局限性。虽然用于预测纤维伸长率的模型显示出一定的潜力,但在预测纱线强度时,尤其是随机森林(RF)模型,仍然观察到了过拟合现象。支持向量回归(SVR)在预测纱线强度时表现出更稳定的泛化能力。虽然对纤维和纱线属性进行参数分析的方法是合理的,但使用更大的棉花纤维和纱线数据集可以进一步提高模型的预测性能。

结论:本研究展示了利用XAI(跨领域人工智能)技术对棉花纤维与纱线关系的参数化研究。构建了三个机器学习模型来预测纱线强度和纤维伸长率,随后通过基于SHAP(Shapley Value Explanation)的分析来确定各个纤维参数的贡献。基于SHAP的解释结果及后续验证表明,纱线纤维成分和纤维细度是影响纱线强度和纤维伸长率的最重要纤维属性。因此,为了提高纱线质量,在原材料选择和工艺优化过程中需要将这些参数作为主要考量因素。相比之下,纤维弹性、超高模量纤维和纤维细度的影响较弱且呈非线性。所提出的框架结合了准确的预测能力和透明的模型无关参数化解释方法,开发了一种数据驱动的决策工具,用于在纺纱操作中优先考虑纤维参数。未来的研究应解决数据集规模有限、存在交互效应以及计算成本较高的问题。因此,该框架可以扩展到应用XAI技术,这些技术在复杂的黑盒模型中具有内在的可解释性,以便在更大的数据集和更复杂的纤维系统中研究交互效应。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号