基于数据的羟基磷灰石/石墨烯墨水粘度预测在增材制造中的应用：机器学习模型的比较研究

《Next Materials》：Data-driven viscosity prediction in hydroxyapatite/graphene inks for additive manufacturing: A comparative study of machine learning models

【字体：大中小】 时间：2026年05月10日 来源：Next Materials CS1.9

编辑推荐：

　　安德烈扎·梅内泽斯·利马（Andreza Menezes Lima）| 凯莉·克里斯汀·达·席尔维拉（Kelly Cristine da Silveira）| 杰伦·佩雷拉·德·安德拉德（Jayron Pereira de Andrade）| 阿梅里科·库尼亚·朱尼奥（Ameri

　　安德烈扎·梅内泽斯·利马（Andreza Menezes Lima）| 凯莉·克里斯汀·达·席尔维拉（Kelly Cristine da Silveira）| 杰伦·佩雷拉·德·安德拉德（Jayron Pereira de Andrade）| 阿梅里科·库尼亚·朱尼奥（Americo Cunha Jr）| 亚历山大·安图内斯·里贝罗（Alexandre Antunes Ribeiro）| 安东尼奥·J·席尔瓦·内托（Ant?nio J. Silva Neto）

巴西里约热内卢州立大学理工学院，邦芬街25号（Rua Bonfim, n° 25），新弗里布尔戈（Nova Friburgo），邮编28625-570

摘要：精确控制墨水粘度是在打印高质量、生物相容性的羟基磷灰石/还原氧化石墨烯（Hap/rGO）支架过程中的关键瓶颈。本研究结合了14种墨水配方的流变学数据，并利用基于树的集成学习方法来预测与挤出印刷相关的剪切率范围内的粘度。测试了五种算法——随机森林（Random Forest）、XGBoost、LightGBM、CatBoost和HistGradientBoosting——在四种逐渐复杂的训练策略下的性能。一个核心的方法学发现是，在这个成分结构明确的光变学数据集中，传统的逐行随机分割方法显著高估了预测的泛化能力。当评估方式改为按成分进行分组时，基于Herschel–Bulkley描述符和Optuna优化算法的ST4策略产生了最一致的结果。在按配方分组的GroupKFold方法中，ST4的平均测试R2值介于0.777到0.812之间，平均测试MAE值介于6.78到7.95 Pa·s之间。在更严格的留一法（leave-one-formulation-out）协议下，ST4仍然是唯一保持所有模型正向平均测试R2值的策略，其平均测试R2值为0.385到0.665，平均测试MAE值为8.27到9.37 Pa·s，平均测试RMSE值为14.47到16.45 Pa·s。在包含1764种假设HAp/rGO配方的成分空间中进行了虚拟筛选，根据预测粘度在0.1–1000 Pa·s的目标可打印性窗口内对候选配方进行了优先排序。随后对七种新制备的墨水进行了外部验证，结果显示R2值为0.733–0.776，MAE值为3.46–3.96 Pa·s，RMSE值为6.47–7.06 Pa·s，这证实了ST4模型家族的预测效用，并强调了针对小型光变学数据集进行分组感知验证的重要性。

1. 引言
骨组织工程结合了材料科学、生物学和力学，旨在制造既类似于天然骨骼又能承受生理载荷的支架[1]、[2]。由于羟基磷灰石（Hap）在化学成分上与骨矿物质相似，因此被选中作为生物材料，但其脆性限制了其在承重应用中的使用[3]。通过添加还原氧化石墨烯（rGO）——一种坚韧且生物相容的纳米填料，可以增强Hap的性能，从而制造出更强、更耐用的生物陶瓷[4]、[5]。诸如直接墨水书写（direct-ink-writing）之类的增材制造技术能够以微米级分辨率将Hap/rGO糊剂打印成复杂的、高孔隙度的结构[1]、[6]。印刷的准确性严重依赖于墨水的流变特性：悬浮液必须在剪切作用下稀释以便通过喷嘴，同时又需要恢复足够的屈服应力以防止沉积后的丝状物下垂[7]。通过试错方法进行这种平衡的微调既昂贵又耗时。数据驱动的材料设计有望加速这一优化过程。基于过去实验训练的机器学习（ML）模型可以学习成分、工艺参数和流变特性之间的关系，为传统的经验模型提供了一种灵活的替代方案[8]、[9]。尽管最近取得了进展，但将ML应用于陶瓷墨水以制造支架的做法仍然相对有限，尤其是在有实验验证的光变学数据集支持的情况下[10]。

集成树算法（包括随机森林（Random Forest，RF）、梯度提升（Gradient Boosting，GB）、XGBoost、LightGBM（LGBM）、CatBoost和直方图梯度提升树（HistGradientBoosting，HGBT）特别具有吸引力，因为它们能够处理非线性结构-性能关系，提供内置的特征重要性，并在用于非线性回归问题的结构化数据集上表现良好[11]。随机森林仍然是处理中小规模数据的稳健基线方法[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]；GB引入了顺序残差拟合范式[20]、[21]；XGBoost通过并行性和正则化提高了速度和准确性[22]、[23]；LGBM通过逐叶生长和选择性特征捆绑加快了大规模数据的训练速度[24]；CatBoost无需复杂预处理即可直接编码分类变量[25]、[26]；HGBT为连续特征提供了一种节省内存的解决方案[27]。在材料科学领域，这些算法已经开始用于预测流变或可打印性指标[28]、[29]、[30]，显示出在这一领域的良好性能。然而，大多数研究依赖的是稀疏的文献数据集[31]，这限制了它们在新成分开发中的指导作用。据我们所知，此前还没有任何研究系统地将Hap/rGO糊剂的精心策划的光变学实验与ML引导的成分映射、分组感知验证以及新选定配方的后续实验评估相结合。在此背景下，本研究探讨了基于树的集成模型在小规模、成分结构化的光变学数据集中支持粘度预测和候选配方筛选的能力。具体而言，我们：
(i) 编制了一个包含294个性流变测量结果的全流曲线实验数据集，这些数据来自14种Hap/rGO墨水配方；
(ii) 在四种训练策略下对五种集成学习器（RF、XGBoost、LightGBM、CatBoost和HGBT）进行了性能测试，包括基线学习、贝叶斯超参数优化、合成过采样以及基于Herschel–Bulkley描述符的物理信息特征工程；
(iii) 使用随机分割、GroupKFold和留一法分析等互补的验证协议评估了模型的稳健性；
(iv) 将训练好的框架应用于七种新制备墨水的虚拟成分筛选和实验验证。

通过将针对性实验与可解释的ML相结合，我们提出了一种数据驱动的工作流程，以支持用于骨支架增材制造的Hap/rGO墨水的设计和筛选。

2. 材料与方法
本研究提出了一种理论-实验方法，用于合成和评估用于增材制造的陶瓷墨水的流变特性。本节描述了生产和表征过程，以及使用机器学习算法实现预测模型的方法。除了描述材料制备和流变测试外，还详细介绍了实验数据集的结构、按配方进行的验证策略，以及在数据较少情况下评估预测性能的机器学习工作流程。

2.1. 羟基磷灰石（Hap）和还原氧化石墨烯（rGO）的合成与表征
Hap粉末的合成采用了溶胶-凝胶法，即将1.67 M的硝酸钙四水合物（Ca(NO3)2·4H2O）溶液与1.0 M的磷酸氢铵（NH4)2HPO4）溶液混合。反应在磁场搅拌下进行1小时，并控制pH值。所得产品在60°C下陈化24小时，随后用去离子水进行八次洗涤/离心处理。最后，材料在200°C下干燥24小时，研磨并过筛[32]。

氧化石墨烯（GO）的制备采用了改进的Hummers方法[33]，还原过程[34]是通过向分散体中添加聚乙烯醇（PVA）、抗坏血酸和氢氧化铵来实现的。混合物在80°C下保持72小时，随后用去离子水进行五次洗涤/离心处理。所有材料都使用X’Pert MRD PANalytical设备进行X射线衍射（XRD）分析，该设备使用Co Kα射线，操作条件为40 kV和40 mA；同时使用FEI公司的Helios Nanolab G3 CX DualBeam扫描电子显微镜（SEM）进行观测，电压为2 kV。除了对Hap和rGO单独进行表征外，还对含有90% Hap和0.2% rGO的Hap–rGO复合糊剂进行了XRD分析。

2.2. 墨水配方与流变特性
首先，制备了一种含有7%聚乙烯醇（PVA – 氢解度86.5–89.5%，êxodo Científica）和3%聚乙二醇（PEG 3600–4400，êxodo Científica）的溶液，作为有机粘合剂来控制墨水的流变特性[7]。羟基磷灰石粉末是通过在Turbula T2C混合器中混合两种不同粒度的颗粒（< 325目和< 150目）10分钟得到的。Hap/rGO墨水的总固含量为70–90%，rGO含量范围为0.08%至1%，共制备了14种不同的配方。每种配方对应一种独特的Hap/rGO组合，随后在这些配方上进行剪切率从0.1到100 s?1的流变测试，生成了用于机器学习分析的实验数据集。使用磁力搅拌器在室温下进行10分钟的均质化处理。

流变测试使用Anton Paar公司的MCR 502紧凑型流变仪和Brookfield R/S+流变仪进行，后者配备了平行板（PP25和P50）测量系统。在25°C下获得粘度与剪切率的关系曲线，两板之间的间隙设置为1 mm。为了确保不同流变仪测量结果的一致性和可比性，使用Brookfield流变仪获得的粘度数据基于Anton Paar流变仪分析得出的Hershel-Bulkley模型（公式1）参数进行了标准化。在两种流变仪中评估了相同的陶瓷墨水糊剂，以准确表征其流变特性。
(1)τ=τ0+kγn
对于每种配方，粘度在剪切率从0.1到100 s?1的范围内进行了测量，共获得了294个流变数据点。选择这个剪切率范围是为了同时捕捉沉积后的低剪切状态（与形状保持相关）和直接墨水书写过程中与喷嘴挤出相关的高剪切状态。Herschel-Bulkley模型（公式1）用于描述具有屈服应力和剪切稀化行为的非牛顿流体，为每种流变仪分别拟合了相应的参数：屈服应力（τ0）、一致性指数（k）和流动行为指数（n）[7]、[35]。这些参数也被用作ST4中特征工程策略中的成分级流变描述符。

为了考虑仪器之间的系统差异，引入了一个校正因子，该因子是通过计算两种流变仪在相同剪切率下Herschel-Bulkley模型预测的粘度之比得出的。然后将这个校正因子应用于Brookfield的粘度数据，以最小化由于测量技术或仪器规格造成的变化。通过这种校正，标准化的Brookfield数据与Anton Paar的参考数据对齐，从而允许直接比较并提高流变表征的可靠性。

2.3. 机器学习工作流程
本研究评估了五种回归算法：LGBM、XGBoost、CatBoost、HGBT和RF。数据分析和ML算法的应用是在Python中使用的，使用的库包括Pandas、Seaborn、NumPy、Scikit-learn和Matplotlib[36]。实验数据集包含来自14种不同Hap/rGO配方的294个性流变测量结果，每种配方都在剪切率从0.1到100 s?1的范围内进行了测试。因此，回归问题的分析单位是每个配方-剪切率对，而成分单位对应于14种不同的配方。由于多个测量结果属于同一配方，数据集具有内在的分组结构，这些观测值不能被视为完全独立。尽管数据集规模相对较小[37]、[38]，但先前的研究表明机器学习模型在类似条件下仍能取得满意的性能。这种分组结构激发了使用传统和按配方分组的验证方法，如下所述。

首先进行了探索性数据分析，包括检查变量分布、摘要统计以及主要描述符与目标变量之间的 pairwise 关系。如图1所示，本研究采用了一个结构化的机器学习流程来建模陶瓷墨水的流变行为，使用了包含294个实验测量点的数据集。这些数据描述了含有不同比例羟基磷灰石（Hap）和还原氧化石墨烯（rGO）的墨水的流动特性，测量范围涵盖了不同的剪切率。对于ST1–ST3，原始数据集包括三个关键描述符——Hap含量（g）、rGO含量（g）和剪切率（s?1）。在ST4中，通过特征工程扩展了输入空间，包括剪切率、屈服应力（τ?）、一致性指数（k）、流动行为指数（n）、Hap百分比和rGO百分比。在所有策略中，用于模型拟合的目标变量定义为粘度的对数。相应的输入特征和描述性统计信息总结在补充表S1和S2中。

下载：下载高分辨率图像（502KB）
下载：下载全尺寸图像

图1. 计算建模方法框架。这种组织方法定义了每个模型，共得到了20个不同的模型。这些模型是通过系统地结合五种ML算法（LGBM、XGBoost、CatBoost、HGBT和RF）和四种建模策略（ST1（默认）、ST2（Optuna）、ST3（SMOGN + Optuna）和ST4（特征工程 + Optuna）得到的。图1中的每个单元对应一个独特的配置，从而产生了个性化的模型ID（例如，模型1到模型20）。该表格不仅用于跟踪模型实现情况，还用于说明算法策略交互如何影响整个研究的结果。数据集架构、输入变量、单位和描述性统计信息在补充表S1和S2中提供，而Optuna搜索空间界限和优化策略的最佳超参数集在补充表S9、S12、S15、S17和S18中报告。目标变量被定义为粘度的对数，而预测值被转换回粘度单位（Pa·s）以便于可视化和误差分析。这种配置旨在捕捉陶瓷油墨特有的非线性和对成分敏感的流动行为特性，其中粘度会根据材料组成和施加的剪切力而有很大差异。系统地比较了各种建模策略（ST1–ST4），以评估超参数优化、合成过采样和基于物理的特征工程对预测性能和泛化能力的综合影响。在ST1中，使用五种树集成回归器——LightGBM（LGBM）、XGBoost、CatBoost、HistGradientBoosting（HGBT）和Random Forest（RF）在两种随机状态（35和42）下进行训练，以建立性能基线。在ST2中，采用了Optuna [39] 的贝叶斯超参数优化方法，并使用树结构Parzen估计器（TPE）采样和早期剪枝来系统地搜索每种算法的超参数空间。在ST3中，在Optuna优化之前应用了带高斯噪声的合成少数样本过采样技术（SMOGN）[40]，以针对响应分布中代表性不足的高粘度区域。最后，在ST4中，通过引入成分级别的Herschel–Bulkley描述符（即屈服应力（τ0）、一致性指数（k）和流动行为指数（n）作为额外的物理意义输入来进行特征工程。为了防止目标泄漏并确保策略基于独立描述符，ST4的特征集中排除了剪切应力（τ）。

在所有策略中，都保持了相同的工作流程，包括模型训练、内部验证和实验评估。模型性能主要使用决定系数（R2）、平均绝对误差（MAE）、均方根误差（RMSE）和中位数绝对误差（MedAE）[31] 来评估。为了评估预测能力，采用了以下验证框架：
- 初始将数据集随机划分为训练和测试子集以进行基线比较；
- 在不同的分割比例和随机种子下重复进行敏感性分析，以量化小数据分割的影响；
- 进行基于组的验证，将来自给定配方的所有测量结果保留在同一折叠中，使用GroupKFold和留一公式外（LOFO）协议；
- 使用从虚拟筛选阶段选出的七种新配方进行外部实验验证。

这种验证层次结构用于区分之前已表征配方的插值与对未见配方的泛化能力。此外，为了评估数据集大小对模型性能的影响，进行了基于组的分割比例敏感性分析，将保留的测试比例从10%变化到40%的可用配方。保留20%的测试比例（对应于三种配方），作为训练多样性和测试可解释性之间的实际折中。

2.4. 机器学习模型微调
为了最小化预测误差，超参数对于性能至关重要。在超参数优化方面，Optuna [39] 被认为是网格搜索的替代方案。Optuna 使用贝叶斯优化来智能地探索参数空间，使搜索过程更加高效。与全面评估所有参数组合的网格搜索不同，Optuna 根据获得的结果动态调整其搜索，从而减少计算成本并提高优化过程的效率。这在处理大量超参数或计算时间有限的情况下特别有用。在本研究中，每种优化策略获得的搜索空间界限和最佳超参数集在补充表S9、S12、S15、S17和S18中报告。在基于组的工作流程中，在相应的训练折叠内进行超参数调优，以减少乐观偏差并更好地反映配方级的泛化能力。

本研究中采用的另一个关键策略是SMOGN。SMOGN是一种先进的技术，用于解决不平衡回归数据集相关的问题。与SMOTE类似，SMOGN通过插值现有样本来为数据集中代表性不足的区域生成合成数据点。然而，SMOGN是专门为数据分布不平衡的回归任务量身定制的[40]。通过在低密度区域生成合成样本，SMOGN帮助模型学习所有数据区域，防止对多数量的偏见，并提高模型的泛化能力。这项技术通过更好地处理不平衡数据并改进少数区域的预测来提高模型性能。

除了SMOGN和超参数调优之外，还在ST4中评估了特征工程作为预处理步骤，以增强模型的学习潜力。这包括通过将实验数据拟合到Herschel–Bulkley模型来推导流变参数，如τ0、k和n。这些参数与原始输入（如剪切率和成分特征（Hap和rGO含量）结合在一起，从而得到更丰富和更具物理意义的数据集。在最终的ST4配置中，特征集包括剪切率（τ?）、k、n、Hap百分比和rGO百分比，详细信息见补充表S2。为了排除潜在的目标泄漏并确保策略基于独立描述符，ST4的特征集中排除了剪切应力（τ）。

使用MAE、R2、RMSE和MedAE来评估每个模型的性能。MAE衡量一组预测中的平均误差大小，而不考虑其方向。它通过计算预测值和实际值之间的绝对差异的平均值来计算。MAE特别有用，因为它提供了数据的原始单位中误差的直接解释，便于理解预测值与真实值之间的平均差异。R2指标评估模型对观察数据的拟合程度，表示可以从独立变量预测的因变量方差的比例[31]。

这种结构化的方法使得能够全面评估预处理、优化和验证策略如何影响陶瓷油墨流变行为的预测准确性和成分泛化能力。

2.5. 实验验证和虚拟成分筛选
为了验证预测模型，选择了7种生成的配方，在与先前分析相同的条件下进行实验流变特性测试。这一步骤支持将这些模型作为配方优先选择和实验指导的工具，突出了它们在油墨开发过程中减少经验筛选工作的潜力。

对于虚拟成分筛选，在预定义的实验成分窗口内生成候选配方，然后在感兴趣的剪切率范围内进行计算机模拟评估。通过系统地扫描Hap和rGO的范围来构建假设的成分空间，生成了1764种独特的Hap/rGO组合。然后，在流变数据集中采用的相同21个剪切率值范围内评估每个假设配方，范围从0.1到100?s?1?，共得到37044个预测点。根据预测的粘度值对候选配方进行优先排序，这些粘度值位于目标可印刷窗口0.1–1000?Pa·s内，选择依据是文献中报告的基于挤压的打印要求[41]。从这个筛选的空间中，选择了七种配方进行实验验证，考虑了预测的流变适用性、实验可行性以及所探索成分空间的覆盖范围。表1总结了虚拟筛选阶段采用的参数范围。

表1. 假设成分的参数范围。
参数范围 Hap (%) rGO (%)
剪切条件剪切率 (s?1) 0.1 – 100
生成的空间独特的假设成分 1764
预测网格总预测点 37044

3. 结果与讨论
为了将计算建模工作与实际应用结合起来，本节展示了材料表征、数据探索和预测建模的结果。讨论首先分析了合成材料和实验数据集，包括主要的流变测量及其统计行为，然后评估了四种机器学习策略（ST1–ST4）。这些结果为理解后续小节中详细介绍的预测建模工作奠定了基础。具体而言，评估并比较了每种机器学习策略（ST1至ST4）的性能，突出了超参数调优、数据平衡和特征工程对预测准确性和模型鲁棒性的影响。这种综合分析为模型输出提供了定量验证，并对其在越来越严格的验证协议下的行为提供了定性见解。

3.1. 材料表征
通过SEM分析表征了所生产材料的形态。图2(a)显示了Hap粉末的SEM图像，这些粉末具有不规则的颗粒形态，平均粒径为16.42?±?9.82 μm。图2(b)展示了rGO粉末，其片状结构类似纸张，包括折叠和半透明特性，平均粒径为7.95?±?2.87 μm。这些形态特征与Hap的预期颗粒特性和还原氧化石墨烯的层状形态一致，这两者都与最终油墨的流变行为相关。

3.2. 实验数据库和特征可视化
数据集包括14种实验制备的陶瓷油墨配方，每种配方都在0.1至100?s?1?的剪切率范围内进行了测量，共得到了294个配方-剪切率数据点。观察到的粘度变化很大，最小值为0.679?Pa·s，最大值为366?Pa·s，如描述性统计所示。所有实验数据集的平均粘度为24.88?Pa·s，标准差为38.45?Pa·s，这凸显了由于成分和剪切率条件差异导致的显著变异性。粘度最高的配方（366?Pa·s）含有80%的Hap，0.08%的rGO，剪切率为0.1?s?1?；而粘度最低的配方（0.6787?Pa·s）含有70%的Hap，1%的rGO，剪切率为100?s?1?。因此，尽管回归数据集包含294行，但这些观察结果被归类为14个成分家族，不应被解释为294个完全独立的材料样本。这些描述性统计数据在补充表S1中提供。

表4展示了羟基磷灰石（Hap）和还原氧化石墨烯（rGO）成分、剪切率和粘度之间的皮尔逊相关矩阵，为后续分析奠定了基础。Hap和粘度之间的弱正相关（0.10）以及rGO和粘度之间的轻微负相关（-0.12）表明成分变量对粘度的影响很小。剪切率和粘度之间最明显的相关性（-0.34）证实了非牛顿陶瓷油墨的剪切稀释行为。此外，Hap和rGO之间的弱正相关（0.29）反映了同时发生的变化，而剪切率和成分变量之间的微不足道的相关性（0.00）则表明它们的独立性。这些线性相关性应谨慎解读，因为它们没有捕捉到成分和流动条件之间的更高阶相互作用。它们在这里主要是描述性的，而后面部分评估的预测模型旨在捕捉可能无法仅通过成对线性相关性揭示的非线性依赖性。虽然粘度与剪切率呈强烈的反比关系，但并未发现与Hap或rGO含量存在直接的线性关系，这表明组成效应可能是通过更复杂、非线性的相互作用来介导的。为了评估随机状态选择对模型性能的影响，数据集被分为两种不同的随机状态，这些状态在初步测试中被观察到具有更大的稳定性。图5旨在说明随机状态的选择如何影响训练集和测试集之间的分布平衡，特别是在数据稀疏的高粘度尾部。四个子图对应于两种随机状态（35和42）与训练集和测试集的交叉，产生了四种分布。尽管得到的训练/测试分布大体相似，但这种视觉上的相似性本身不足以保证模型的泛化能力，尤其是在小规模分组的数据集中。因此，还进行了基于组别意识的分区别的额外敏感性分析。

下载：下载高分辨率图像（390KB）
下载：下载全尺寸图像

图5. 训练集和测试集中的粘度分布直方图。

为了评估在小数据条件下的数据分区对性能的影响，还使用了10%到40%的不同时长的测试比例进行了额外的组别意识分割比率分析（表S20）。正如预期的那样，随着保留的配方比例的增加，预测性能有所下降。例如，XGBoost在10%、20%、30%和40%的测试比例下的平均测试R2值分别为0.784、0.739、0.690和0.656，相应的平均测试MAE值分别为7.34、8.26、8.84和9.24 Pa·s，平均测试RMSE值分别为14.65、18.33、21.69和23.67 Pa·s。CatBoost（R2从0.676降至0.500）、HGBT（0.744–0.596）、LGBM（0.737–0.610）和Random Forest（0.728–0.572）也观察到了类似的单调下降。因此，20%的测试分割被保留为一个折中方案，既能保持足够的训练多样性，又能保持一个可解释的外部子集大小（三种配方）。完整的分割比率结果提供在补充表S19.3中。

3.3 不同策略下的随机性分析

为了评估分组观测对模型评估的影响，使用传统的逐行K-Fold方法和按配方划分的GroupKFold方法获得了性能比较。比较显示，逐行验证系统地高估了预测性能，而GroupKFold提供了对未见配方的更保守和现实的泛化估计。分析表明，当只有有限数量的配方可用时，模型的表观性能对所采用的验证策略非常敏感。示例随机状态35和42之间的差异反映了异常值分配、按配方不平衡以及小规模分组数据集典型的统计稳定性降低的影响[43]。因此，这两种随机状态应被视为分割敏感性的示例，而不是模型排名的决定性证据（表S21）。

为了减少对任何单一分区的依赖，使用了重复种子、不同的分割比例和按配方验证协议进行了额外的鲁棒性分析。这些结果共同证实，随机的逐行分割倾向于提供乐观的性能估计，而GroupKFold和留一配方验证提供了对未见配方的更严格和现实的泛化评估。表2展示了在传统随机分割和鲁棒验证协议下获得的测试性能的比较概览。完整的模型特定结果提供在补充材料（S1-S11、S14和S16）中。因此，下面对ST1–ST4的讨论侧重于在组别意识验证下R2、MAE和RMSE保持一致的趋势，而MedAE则在补充材料中作为补充的鲁棒性指标报告。

表2. 传统随机分割和鲁棒组成意识验证协议下模型性能的比较总结。

策略 | 协议 | R2最佳 | MAE（Pa·s）最佳 | RMSER（Pa·s）最佳
--------|--------|-----------|-----------|-------------------
ST1(35) | CatBoost | 0.973 | CatBoost | 2.558 |
ST1(42) | HGBT | 0.769 | CatBoost | 5.815 |
ST1KFold | CatBoost | 0.841 | CatBoost | 4.442 |
ST1Repeated KFold | CatBoost | 0.834 | CatBoost | 4.084 |
ST1GroupKFold | HGBT | -0.003 | HGBT | 16.754 |
ST2(35) | LGBM | 0.956 | CatBoost | 3.382 |
ST2(42) | CatBoost | 0.920 | CatBoost | 3.747 |
ST2Repeated KFold | CatBoost | 0.643 | CatBoost | 9.404 |
ST2GroupKFold | RandomForest | 0.528 | RandomForest | 12.603 |
ST2LOFO | CatBoost | -0.798 | CatBoost | 16.501 |
ST3(35) | CatBoost | 0.945 | CatBoost | 7.197 |
ST3(42) | CatBoost | 0.947 | CatBoost | 7.183 |
ST3GroupKFold | HGBT | 0.514 | XGBoost | 12.513 |
ST3LOFO | RandomForest | -2.053 | RandomForest | 16.827 |
ST4(35) | XGBoost | 0.981 | CatBoost | 1.746 |
ST4(42) | CatBoost | 0.998 | CatBoost | 0.656 |

策略 | 协议 | R2最佳 | MAE（Pa·s）最佳 | RMSER（Pa·s）最佳
--------|--------|-----------|-----------|-------------------
ST1（默认） | （未提供具体值） | （未提供具体值） | （未提供具体值） |
ST1- | （未提供具体值） | （未提供具体值） | （未提供具体值） |
3.5. 策略ST1 - 不进行超参数优化，测试了两种随机状态值（42和35），以评估基线性能和对数据分割的敏感性。这两种随机状态被用作传统随机分区下分割依赖性的示例，而不是模型选择的唯一依据。总体而言，性能差异很小，随机状态35略微占优。RF是个例外，在测试阶段其R2值显著下降（见表2）。

LGBM对随机状态的变化表现出适度的敏感性，在随机状态35下的测试MAE为7.72，R2为0.81；而在状态42下，MAE为8.70，R2为0.70。同样，尽管XGBoost在训练阶段表现接近完美，但其测试R2从0.86（状态35）下降到0.73（状态42），表明存在过拟合。CatBoost在状态35下的表现异常出色（MAE = 2.56，R2 = 0.97），但在状态42下显著恶化（MAE = 5.51，R2 = 0.73），进一步证明了过拟合。HGBT表现出与LGBM类似的轻微波动，而Random Forest的测试R2从0.85下降到0.37，MAE增加了大约45%，表明其对数据分割非常敏感。然而，由于ST1依赖于逐行随机分割，这些结果应谨慎解读，因为当同一配方的测量数据分布在训练集和测试集之间时，它们可能会高估泛化能力。为了提高泛化能力，在ST2、ST3和ST4中实施了额外的超参数调整和更严格的验证策略。

然而，当使用按配方划分的GroupKFold评估相同的基线模型时，表观预测性能显著下降。在传统的KFold下，CatBoost和XGBoost的测试平均MAE/RMSE分别为4.44/14.99和6.16/17.75 Pa·s，而HGBT、LGBM和Random Forest分别为8.80/20.95、8.80/20.95和8.70/22.70 Pa·s。当按配方重新评估时，相应的测试MAE/RMSE值分别增加到CatBoost的17.23/37.79 Pa·s、XGBoost的18.58/42.90 Pa·s、HGBT的16.75/31.79 Pa·s、LGBM的16.85/32.06 Pa·s和Random Forest的18.35/38.68 Pa·s。这种变化表明按配方的泛化能力显著下降，且对未见配方的泛化能力有限。中位数绝对误差也表现出相同的恶化趋势，详见补充表S3和S4。

如图6所示，所有五种算法在比较传统KFold和GroupKFold交叉验证时都呈现出一致的模式：标准KFold产生看似强劲的性能估计，而考虑成分的分割则产生明显更为保守的结果。这种差异在XGBoost和Random Forest中最为明显，甚至CatBoost、HGBT和LGBM也在逐行验证下失去的大部分明显优势。这种行为暴露了传统KFold应用于重复测量流变数据集时的根本数据泄露问题。因为属于同一墨水配方的多次剪切率测量可以同时分布在训练集和测试集之间，模型隐含地学习了配方内部的剪切率响应，而不是发展出真正的成分泛化能力。因此，得到的性能估计是被人为夸大的，并不能反映模型预测未见配方粘度的能力。

下载：下载高分辨率图像（125KB）
下载：下载全尺寸图像

图6. ST1 – 测试R2分布：KFold与GroupKFold（按配方划分）。

当执行GroupKFold时，确保所有来自给定成分的测量在测试期间完全被保留，模型必须对外部从未遇到的墨水化学成分进行外推。在这种协议下观察到的急剧性能下降揭示了在小型流变数据集中成分泛化的真实难度，这是传统分割策略系统性地掩盖的。Repeated KFold的结果也加强了这一解释，它仍然返回了乐观的MAE/RMSE值——例如，CatBoost为4.08/13.34 Pa·s，XGBoost为5.85/16.88 Pa·s——与按配方验证相比。尽管如此，这些结果表明ST1在传统随机分割下提供了一个有用的基线，但不支持对未见配方的鲁棒泛化。

3.5. 策略ST2 - 使用Optuna优化模型

采用Optuna——一个使用贝叶斯优化和树结构Parzen估计器（TPE）[39]的超参数优化框架——显著提高了本研究中评估的ML模型的性能和可靠性。通过系统地探索LGBM、CatBoost、XGBoost和RF等复杂模型的超参数空间，Optuna克服了GridSearch或Random Search等传统方法的计算限制。它能够同时优化多个参数（例如学习率、最大树深度、估计器数量），再加上高效的早期剪枝机制[45]，使其特别适合这项任务。与传统的随机分割基线ST1相比，这种方法在策略ST2下取得了显著的改进，表现为MAE的减少和R2的提升，特别是梯度提升模型（如CatBoost和LGBM）从优化配置中受益最多。

在这些模型中，CatBoost表现出特别的稳定性和鲁棒性，在不同的随机状态下始终表现出强劲的泛化指标。具体来说，在随机状态35下，CatBoost表现出优异的性能，测试MAE为3.38，R2为0.96。即使在随机状态42下，这种性能也依然稳健，测试MAE为3.75，R2为0.92。这些结果强调了CatBoost对数据分割变化的韧性及其强大的预测一致性。同样，LGBM在ST2下的性能也有所提高，特别是在泛化能力方面。对于随机状态35，其测试MAE从7.72（ST1）显著下降到3.86（ST2），R2从0.81上升到0.96。同样，在随机状态42下，LGBM的测试MAE从8.70下降到5.18，R2从0.70上升到0.90。尽管这些改进成功缓解了过拟合，但随机状态之间的残余变异性表明仍有进一步改进的潜力。

XGBoost也表现出性能提升，尽管不如CatBoost和LGBM那么显著和一致。在随机状态35下，测试MAE从5.34（ST1）小幅提高到5.16（ST2），而R2从0.86增加到0.90。然而，在随机状态42下，测试MAE从6.28下降到4.60，R2从0.73增加到0.85，显示出更大的改进。HGBT也表现出类似的趋势，尽管改进幅度较小。然而，由于ST1依赖于逐行随机分割，这些结果应谨慎解读，因为当同一配方的测量数据分布在训练集和测试集之间时，它们可能会高估泛化能力。为了提高泛化能力，在ST2、ST3和ST4中实施了额外的超参数调整和更严格的验证策略。

然而，当使用按配方划分的GroupKFold评估相同的基线模型时，表观预测性能大幅下降。在传统的KFold下，CatBoost和XGBoost的测试平均MAE/RMSE分别为4.44/14.99和6.16/17.75 Pa·s，而HGBT、LGBM和Random Forest分别为8.80/20.95、8.80/20.95和8.70/22.70 Pa·s。当按配方重新评估时，相应的测试MAE/RMSE值分别增加到CatBoost的17.23/37.79 Pa·s、XGBoost的18.58/42.90 Pa·s、HGBT的16.75/31.79 Pa·s、LGBM的16.85/32.06 Pa·s和Random Forest的18.35/38.68 Pa·s。这种变化表明按配方的泛化能力明显下降，且对未见配方的迁移能力有限。中位数绝对误差也呈现出相同的恶化趋势，详见补充表S3和S4。

在图6中观察到的一致模式显示，传统KFold和GroupKFold交叉验证之间存在明显差异：标准KFold产生的性能估计看似强劲，而考虑成分的分割则产生明显更为保守的结果。这种差异在XGBoost和Random Forest中最为明显，但即使是CatBoost、HGBT和LGBM也在逐行验证下失去的大部分明显优势。这种行为暴露了传统KFold应用于重复测量流变数据集时的根本数据泄露问题。因为属于同一墨水配方的多次剪切率测量可以同时分布在训练集和测试集之间，模型隐含地学习到了配方内部的剪切率响应，而不是发展出真正的成分泛化能力。因此，得到的性能估计是人为夸大的，并不能反映模型预测未见配方粘度的能力。

下载：下载高分辨率图像（125KB）
下载：下载全尺寸图像

图6. ST1 – 测试R2分布：KFold与GroupKFold（按配方划分）。

当实施GroupKFold并确保在测试期间完全保留所有来自给定成分的测量数据时，模型必须对外部从未遇到的墨水化学成分进行外推。在这种协议下观察到的急剧性能下降揭示了在小规模流变数据集中成分泛化的真正难度，这是传统分割策略系统性地掩盖的。Repeated KFold的结果进一步证实了这一点，它仍然返回了乐观的MAE/RMSE值——例如，CatBoost为4.08/13.34 Pa·s，XGBoost为5.85/16.88 Pa·s——与按配方验证相比。尽管如此，这些结果表明ST1在传统随机分割下提供了一个有用的基线，但不支持对未见配方的鲁棒泛化。

3.5. 策略ST2 - 使用Optuna优化模型

采用Optuna——一个使用贝叶斯优化和树结构Parzen估计器（TPE）[39]的超参数优化框架——显著提高了本研究中评估的ML模型的性能和可靠性。通过系统地探索LGBM、CatBoost、XGBoost和RF等复杂模型的超参数空间，Optuna克服了GridSearch或Random Search等传统方法的计算限制。它能够同时优化多个参数（例如学习率、最大树深度、估计器数量），加上高效的早期剪枝机制[45]，使其特别适合这项任务。与传统的随机分割基线ST1相比，这种方法在策略ST2下取得了显著改进，表现为MAE的减少和R2的提升，特别是CatBoost和LGBM等梯度提升模型从优化配置中受益最大。

在这些模型中，CatBoost表现最为稳定和鲁棒，在不同的随机状态下始终表现出强劲的泛化指标。具体来说，在随机状态35下，CatBoost表现出优异的性能，测试MAE为3.38，R2为0.96。即使在随机状态42下，这种性能依然稳健，测试MAE为3.75，R2为0.92。这些结果强调了CatBoost对数据分割变化的韧性及其强大的预测一致性。同样，LGBM在ST2下的性能也有所提高，特别是在泛化能力方面。对于随机状态35，其测试MAE从7.72（ST1）显著下降到3.86（ST2），R2从0.81上升到0.96。同样，在随机状态42下，LGBM的测试MAE从8.70下降到5.18，R2从0.70上升到0.90。尽管这些改进成功缓解了过拟合，但随机状态之间的残余变异性表明还有进一步改进的空间。

XGBoost也表现出性能提升，尽管不如CatBoost和LGBM显著和一致。在随机状态35下，测试MAE从5.3尽管由于合成数据复杂性的增加导致训练时的平均绝对误差（MAE）升高，但模型的泛化能力仍然具有竞争力：在随机状态35下，测试时的MAE从ST1的2.558和ST2的3.382增加到ST3的7.197，同时保持了0.945的强R2值，表明模型仍然能够有效捕捉到潜在的模式。相比之下，LGBM的性能明显下降。在随机状态35下，测试MAE从ST1的7.716和ST2的3.850增加到13.619，而R2值从0.811/0.956下降到0.845。在随机状态42下，测试MAE上升到14.335，R2值下降到0.647。交叉验证指标（MAE = 15.577，R2 = 0.721）进一步证实了这种退化，表明合成过采样显著加剧了LGBM的过拟合倾向。XGBoost在ST3下的敏感性也很强。尽管训练性能接近完美（R2接近1.0），但其测试MAE在随机状态35下显著增加至14.727，测试R2值下降到0.756。在随机状态42下，测试MAE保持在较高水平，为14.882，而测试R2值降至0.604。交叉验证结果（MAE = 13.483，R2 = 0.781）也确认合成过采样并没有提高XGBoost的稳定性，反而增加了其对分割依赖行为的敏感性。HGBT也遇到了挑战，在随机状态35下测试MAE上升到14.262，在随机状态42下进一步上升到18.383，相应地R2值分别下降到0.836和0.321，交叉验证指标（MAE = 15.957，R2 = 0.731）验证了其过采样的脆弱性。随机森林在ST3下的测试误差也有所增加，测试MAE分别为14.526（随机状态35）和12.864（随机状态42），均明显高于ST1和ST2下的值。相应的测试R2值分别为0.824和0.787。交叉验证结果（MAE = 14.076，R2 = 0.819）证实，尽管随机森林具有很强的拟合能力，但合成过采样降低了其在该策略下的实际泛化优势。

总的来说，虽然SMOGN预处理在ST3中旨在更好地处理不平衡数据，但它增加了模型的复杂性和预测误差，特别是对于LGBM、HGBT和RF；CatBoost相对更具韧性，而XGBoost对数据增强特别敏感。当在GroupKFold下重新评估ST3时，SMOGN带来的明显优势变得更加适中且依赖于具体模型（补充表S10）。HGBT实现了最高的平均测试R2（0.514）和最低的平均测试RMSE（24.02 Pa·s），而XGBoost获得了最低的平均测试MAE（12.51 Pa·s）和R2 = 0.461以及RMSE = 24.71 Pa·s。随机森林也保持竞争力（R2 = 0.452；MAE = 13.64 Pa·s；RMSE = 25.21 Pa·s），而CatBoost（R2 = 0.366；MAE = 14.26 Pa·s；RMSE = 26.95 Pa·s）和LGBM（R2 = 0.296；MAE = 14.40 Pa·s；RMSE = 28.20 Pa·s）的性能较弱。这些结果表明，SMOGN在某些算法上改善了分组插值效果，但并未在整个模型家族中产生一致的强泛化性能。在更严格的LOFO协议下，ST3再次显示出对未见过的配方的外推性能较差。随机森林提供了最不满意的结果，MAE = 16.83 Pa·s和RMSE = 28.52 Pa·s，其次是CatBoost（MAE = 19.06 Pa·s；RMSE = 29.40 Pa·s）。HGBT、LGBM和XGBoost的LOFO性能也大幅下降。相应地，所有模型的平均测试R2值都低于零，表明合成过采样并未提供稳定的配方级泛化能力。中位数绝对误差也表现出相同的趋势，详见补充表S11.3.7。

策略ST4 - 特征工程 + Optuna：在ST4中，结合了为3D打印陶瓷油墨定制的Herschel-Bulkley模型参数的高级特征工程，并与Optuna优化相结合，省略了SMOGN预处理。这个扩展的数据集捕捉到了复杂的物理关系，与ST1-ST3相比，预测性能显著提高。特别是LGBM在ST4中表现出显著改进，测试误差降低，预测准确性更高。在随机状态35下，LGBM的测试MAE为3.845，R2值为0.945，显示出强大的泛化能力。在随机状态42下，测试MAE为3.843，R2值为0.917。此外，交叉验证进一步证实了这些结果，显示出在不同数据分区上的预测强度一致性，测试R2值为0.930。同样，XGBoost在ST4下表现出色，预测准确性几乎完美。具体来说，随机状态35下的测试MAE显著降至1.931，R2值为0.981，在随机状态42下进一步改善（测试MAE为1.584，R2值为0.983）。交叉验证分析支持了这一卓越的性能，显示出了稳定的指标（MAE = 3.327，R2 = 0.934），强调了XGBoost有效利用物理信息的特征的能力。CatBoost也从增强的特征工程中获得了显著提升，预测准确性显著提高。在随机状态35下，CatBoost的测试MAE非常低，为1.746，R2值为0.968，在随机状态42下进一步提高（测试MAE = 0.656，R2值为0.998）。同样，交叉验证确认了模型的稳健性和一致性（MAE = 3.072，R2 = 0.930）。此外，HGBT模型也表现出显著改进，与ST3相比，预测误差大幅减少。在随机状态35下，HGBT的测试MAE显著降低至3.638，R2值为0.949，在随机状态42下保持强劲性能（MAE = 3.997，R2 = 0.906）。交叉验证指标进一步证实了这些改进（MAE = 5.355，R2 = 0.897），尽管对数据集的变异性仍然敏感。此外，RF在ST4下也经历了显著提升。在随机状态35下，RF的预测准确性显著提高，测试MAE为3.421，R2值为0.930，在随机状态42下进一步改善（测试MAE为2.153，R2值为0.969）。交叉验证突出了RF的稳定性和预测可靠性（MAE = 4.160，R2 = 0.928），强调了结合物理意义参数的好处。总体而言，ST4通过结合基于Herschel-Bulkley描述符的物理信息特征工程和Optuna优化，与ST1-ST3相比，显著提高了预测准确性。

当在GroupKFold下重新评估ST4时，SMOGN带来的明显优势变得更加适中且依赖于具体模型（补充表S10）。HGBT实现了最高的平均测试R2（0.514）和最低的平均测试RMSE（24.02 Pa·s），而XGBoost获得了最低的平均测试MAE（12.51 Pa·s）和R2 = 0.461以及RMSE = 24.71 Pa·s。随机森林也保持竞争力（R2 = 0.452；MAE = 13.64 Pa·s；RMSE = 25.21 Pa·s），而CatBoost（R2 = 0.366；MAE = 14.26 Pa·s；RMSE = 26.95 Pa·s）和LGBM（R2 = 0.296；MAE = 14.40 Pa·s；RMSE = 28.20 Pa·s）的表现较弱。这些结果表明，SMOGN对于某些算法改善了分组插值效果，但并未在整个模型家族中产生一致强的公式级性能。在更严格的LOFO协议下，ST3再次显示出对未见过的配方的不良外推性能。随机森林提供了最不利的结果，MAE = 16.83 Pa·s和RMSE = 28.52 Pa·s，其次是CatBoost（MAE = 19.06 Pa·s；RMSE = 29.40 Pa·s）。HGBT、LGBM和XGBoost的LOFO性能也大幅下降。相应地，所有模型的平均测试R2值都低于零，表明合成过采样并未提供稳定的配方级泛化能力。中位数绝对误差也遵循相同趋势，详见补充表S11.3.7。

策略ST4 - 特征工程 + Optuna：在ST4中，结合了为3D打印陶瓷油墨定制的Herschel-Bulkley模型参数的高级特征工程，并与Optuna优化相结合，省略了SMOGN预处理。这个扩展的数据集捕捉到了复杂的物理关系，与ST1-ST3相比，预测性能显著提高。特别是LGBM在ST4中表现出显著改进，测试误差降低，预测准确性更高。在随机状态35下，LGBM的测试MAE为3.845，R2值为0.945，表明其具有强大的泛化能力。在随机状态42下，测试MAE为3.843，R2值为0.917。此外，交叉验证进一步证实了这些结果，显示出在不同数据分区上的一致预测强度，测试R2值为0.930。同样，XGBoost在ST4下表现出色，预测准确性接近完美。具体来说，随机状态35下的测试MAE显著降至1.931，R2值为0.981，在随机状态42下进一步改善（测试MAE为1.584，R2值为0.983）。交叉验证分析支持了这一卓越的性能，显示出稳定的指标（MAE = 3.327，R2 = 0.934），强调了XGBoost有效利用物理信息特征的能力。CatBoost也从增强的特征工程中受益匪浅，预测准确性显著提高。在随机状态35下，CatBoost的测试MAE非常低，为1.746，R2值为0.968，在随机状态42下进一步提高（测试MAE = 0.656，R2值为0.998）。同样，交叉验证确认了模型的稳健性和一致性（MAE = 3.072，R2 = 0.930）。此外，HGBT模型也表现出显著改进，与ST3相比，预测误差大幅减少。在随机状态35下，HGBT的测试MAE显著降低至3.638，R2值为0.949，在随机状态42下保持强劲性能（MAE = 3.997，R2 = 0.906）。交叉验证指标进一步证实了这些改进（MAE = 5.355，R2 = 0.897），尽管对数据集的变异性仍然敏感。此外，RF在ST4下也经历了显著提升。在随机状态35下，RF的预测准确性显著提高，测试MAE为3.421，R2值为0.930，在随机状态42下进一步改善（测试MAE为2.153，R2值为0.969）。交叉验证突出了RF的稳定性和预测可靠性（MAE = 4.160，R2 = 0.928），强调了结合物理意义参数的好处。总体而言，ST4通过结合基于Herschel-Bulkley描述符的物理信息特征工程和Optuna优化，与ST1-ST3相比，显著提高了预测准确性。

在更严格的LOFO协议下，ST3再次显示出对未见过的配方的较差外推性能。随机森林提供了最不利的结果，MAE = 16.83 Pa·s和RMSE = 28.52 Pa·s，其次是CatBoost（MAE = 19.06 Pa·s；RMSE = 29.40 Pa·s）。HGBT、LGBM和XGBoost的LOFO性能也大幅下降。相应地，所有模型的平均测试R2值均低于零，表明合成过采样并未提供稳定的配方级泛化能力。中位数绝对误差也遵循相同趋势，详见补充表S11.3.7。

策略ST4 - 特征工程 + Optuna：在ST4中，结合了为3D打印陶瓷油墨定制的Herschel-Bulkley模型参数的高级特征工程，并与Optuna优化相结合，省略了SMOGN预处理。这个扩展的数据集捕捉到了复杂的物理关系，与ST1-ST3相比，预测性能显著提高。特别是LGBM在ST4中表现出显著改进，测试误差降低，预测准确性更高。在随机状态35下，LGBM的测试MAE为3.845，R2值为0.945，表明其具有强大的泛化能力。在随机状态42下，测试MAE为3.843，R2值为0.917。此外，交叉验证进一步证实了这些结果，显示出在不同数据分区上的一致预测强度，测试R2值为0.930。同样，XGBoost在ST4下表现出色，预测准确性接近完美。具体来说，随机状态35下的测试MAE显著降至1.931，R2值为0.981，在随机状态42下进一步改善（测试MAE为1.584，R2值为0.983）。此外，交叉验证分析支持了这一卓越的性能，显示出稳定的指标（MAE = 3.327，R2 = 0.934），强调了XGBoost有效利用物理信息特征的能力。CatBoost也从增强的特征工程中受益匪浅，预测准确性显著提高。在随机状态35下，CatBoost的测试MAE非常低，为1.746，R2值为0.968，在随机状态42下进一步提高（测试MAE = 0.656，R2值为0.998）。同样，交叉验证确认了模型的稳健性和一致性（MAE = 3.072，R2 = 0.930）。此外，HGBT模型也表现出显著改进，与ST3相比，预测误差显著减少。在随机状态35下，HGBT的测试MAE显著降低至3.638，R2值为0.949，在随机状态42下保持强劲性能（MAE = 3.997，R2 = 0.906）。交叉验证指标进一步证实了这些改进（MAE = 5.355，R2 = 0.897），尽管对数据集的变异性仍然敏感。此外，RF在ST4下也经历了显著提升。在随机状态35下，RF的预测准确性显著提高，测试MAE为3.421，R2值为0.930，在随机状态42下进一步改善（测试MAE为2.153，R2值为0.969）。交叉验证强调了RF的稳定性和预测可靠性（MAE = 4.160，R2 = 0.928），强调了结合物理意义参数的好处。总体而言，ST4通过结合基于Herschel-Bulkley描述符的物理信息特征工程和Optuna优化，与ST1-ST3相比，显著提高了预测准确性。

当在GroupKFold下重新评估ST4时，它在四种策略中表现出了最一致的配方级性能。通过结合Herschel-Bulkley描述符作为物理信息特征，模型能够访问组成级别的流动参数，从而超越了传统的随机分割方法，提高了泛化能力。XGBoost实现了最高的平均测试R2（0.812），最低的平均测试MAE（6.78 Pa·s）和最低的平均测试RMSE（15.99 Pa·s）。其他算法的表现也相当有竞争力，分别是LGBM（R2 = 0.794；MAE = 7.20 Pa·s；RMSE = 16.51 Pa·s）、CatBoost（R2 = 0.779；MAE = 7.25 Pa·s；RMSE = 17.02 Pa·s）、随机森林（R2 = 0.776；MAE = 7.71 Pa·s；RMSE = 17.47 Pa·s）和HGBT（R2 = 0.777；MAE = 7.95 Pa·s；RMSE = 17.54 Pa·s）。这些结果表明，ST4在分组插值条件下提供了预测准确性和稳健性之间的最佳平衡。完整的GroupKFold结果详见补充表S14。在更严格的LOFO协议下，ST4是唯一保持所有评估算法正面平均测试R2值的策略。在这种情况下，最佳性能分布在多个指标上，而非集中在单一模型中：HGBT实现了最高的平均测试R2（0.665），XGBoost获得了最低的平均测试MAE（8.27 Pa·s），CatBoost显示了最低的平均测试RMSE（14.47 Pa·s）。其他模型也保持了正的平均测试R2值，分别是LGBM（R2 = 0.645；MAE = 8.53 Pa·s；RMSE = 14.72 PaST4 HGBT模型的SHAP可解释性结果示意图：(a) 摘要柱状图，(b) 热图摘要，以及 (c) 蜜蜂群图。如图8(a)所示，SHAP摘要图提供了特征对模型预测贡献的全面可视化，为模型的可解释性提供了重要见解。在所有ST4模型中，剪切率是主要预测因子，这对于一个包含在宽剪切率范围内测量的完整流变曲线的数据集来说是物理上预期的。然而，最相关的可解释性结果涉及与成分相关的特征的贡献，这些贡献在不同算法间存在显著差异。在评估的模型中，HGBT对成分的重视程度最高，特别是对rGO和HAp含量的重视，其平均绝对SHAP值分别约为5.24和3.46。相比之下，CatBoost、RandomForest、LGBM和XGBoost对这两个成分变量的贡献较小（见表S13）。

图8(b)中的SHAP热图摘要可视化了每个特征在所有实例中的影响。它证实了剪切率的主导作用，以及Herschel–Bulkley描述符（如τ0和Κ）的强烈贡献，红色到蓝色的渐变清楚地表明了根据特征大小的正面和负面影响。这种变化反映了ST4物理丰富特征空间下捕获的复杂非线性相互作用。图8(b)顶部观察到的聚类模式突出了大多数预测中主要流变描述符的一致影响趋势。

图8(c)显示了SHAP蜜蜂群图，进一步展示了各个特征影响的详细信息。剪切率在其范围内始终表现出最大的SHAP幅度，证实了其强大的预测作用，特别是在较高的特征值时。Herschel–Bulkley参数（k、τ?和n；见公式1）也有显著贡献，其分散程度适中，表明它们的影响可能会根据局部流变环境增加或减少预测的粘度。基于成分的特征（如rGO和HAp）虽然贡献较小，但仍然具有意义，特别是在HGBT中，rGO的贡献比其他评估的算法更为明显。

本研究中的SHAP分析强调了该模型家族捕捉用于基于挤出的增材制造中的陶瓷悬浮液复杂非牛顿流行为的能力。虽然剪切率仍然是主要预测因子，但Herschel–Bulkley描述符和与成分相关的变量共同促进了ST4模型的预测结构。重要的是，成分在不同算法中的作用并不统一：HGBT对rGO和HAp含量的敏感度最高，而LGBM和XGBoost对这些变量的贡献相对较小。这一结果与本研究相关，因为它表明，尽管流变响应主要是由流速驱动的[44]，但在特定模型结构中，配方化学仍然很重要，因此可能在材料筛选过程中指导候选方案的优先级。

这些发现表明，在特定成分区域中对rGO含量的微调仍可能影响粘度的稳定性，特别是当与有利的流变描述符结合时。从应用角度来看，这一点很重要，因为在低剪切率下较高的粘度有助于挤出后的形状保持，而在剪切作用下的较低粘度则与打印过程中的更好流动相关[46]。从这个意义上说，经过验证的配方展示了与挤出加工预期用途相兼容的流变行为。

为了将评估扩展到初始实验数据集之外，在一个包含1764种假设Hap/rGO配方的新的成分空间上进行了虚拟筛选。为了可视化目的，图9展示了17种代表性成分的子集，以说明所探索成分域内预测粘度分布的情况。在这个可视化中，每种成分在七个代表性的低剪切率值（0.1、0.141、0.2、0.282、0.398、0.562和0.794?s?1）下显示，从而可以简洁地查看预测的流变特性。这种表示突出了ST4框架通过将流变描述符和成分变量整合到粘度预测中来支持计算机模拟探索配方空间的能力。

通过系统评估四种建模策略——ST1、ST2、ST3和ST4——本研究从传统的随机分割回归方法进展到了一个基于物理原理且考虑配方的筛选框架。这项工作的主要贡献不是识别出单一的普遍优秀模型，而是证明了一个精心策划的实验数据集、针对组的验证以及基于Herschel–Bulkley描述符的特征工程可以共同支持可打印Hap/rGO墨水的可靠计算机模拟筛选和实验优先级排序。在这个意义上，对1764种假设成分的虚拟探索，以及对七种新制备配方的成功验证，突显了所提出工作流程在加速基于挤出的增材制造材料设计中的实际效用。

使用五种基于树的算法的目的不是为了寻找一个大规模的胜者，而是为了评估不同集成学习范式中是否会出现一致的预测模式。ST4结果在配方级验证下的收敛性，以及对七种新制备墨水的外部验证，支持了这一解释，并加强了所提出框架作为陶瓷墨水开发实用决策支持工具的稳健性。

4. 结论

本研究建立了一个数据驱动的框架，用于配方可打印羟基磷灰石/还原氧化石墨烯（HA/rGO）墨水，为基于挤出的增材制造提供了基础。主要贡献不是识别出一个普遍优越的回归器，而是证明在一个小规模的成分结构化流变数据集中，基于物理原理的特征工程结合针对组的验证为模型评估和配方筛选提供了比传统随机分割更为可靠的基础。在这个意义上，基于Herschel–Bulkley描述符和Optuna优化的ST4策略在评估的协议中表现出最强的稳健性。在GroupKFold下，ST4的平均测试R2值范围从0.777到0.812，平均测试MAE值从6.78到7.95?Pa·s；而在更严格的留一配方除外协议下，它是唯一保持所有评估模型正平均测试R2值的策略。这些发现尤为重要，因为流变机器学习研究通常受到小数据集的限制，在这些数据集中，乐观的随机分割估计可能会掩盖对未见配方的泛化难度。

所提出工作流程的实际价值还通过虚拟成分筛选和外部实验验证得到了进一步证明。总共在计算机上生成了1764种假设的HAp/rGO配方，并在目标可打印性窗口内进行了优先排序，之后合成了七种以前未见过的候选墨水并进行了流变表征。外部验证表明，ST4模型家族在各种算法下重现了测量到的流动曲线，其性能紧密相关，R2值介于0.733到0.776之间，MAE值介于3.46到3.96?Pa·s之间，RMSE值介于6.47到7.06?Pa·s之间。MedAE进一步表明LGBM和HGBT提供了最一致的点预测，而模型间的紧密收敛性强化了ST4作为一个稳健预测家族的解释，而不仅仅依赖于单一算法选择的结果。

可解释性分析支持了该框架的物理合理性。在所有ST4模型中，剪切率仍然是主要预测因子，这符合完整流变曲线的预期，而成分的贡献则因模型而异。特别是，HGBT对rGO和HAp含量的重视程度最高，表明在特定模型结构中配方化学仍然重要，因此在墨水设计过程中不应将其与流变学分开处理。总体而言，结果表明，精心策划的实验、基于基本物理的描述符和集成学习可以结合成一个实用的决策支持工作流程，用于陶瓷墨水的开发。除了这里研究的特定HAp/rGO系统外，这项工作还为小规模流变数据集提出了一种重要的方法论发现：如果机器学习模型要被可信地用于候选优先级排序和加速材料发现，那么稳健的配方级验证是必不可少的。

本研究得到了里约热内卢州Carlos Chagas Filho研究基金会（FAPERJ）的资助，资助编号为E-26/200.114/2024、200.115/2024、204.600/2021、204.601/2021、200.899/2021、203.596/2024、211.037/2019、204.477/2024和203.964/2024；巴西高等教育人员协调委员会（CAPES）——财务代码001；以及国家科学技术发展委员会（CNPq）的资助，编号为305476/2022–0和308958/2019–5。

热点排行