基于机器学习的生物基超级电容器功率密度预测

《Next Energy》：Machine learning-assisted prediction of power density for bio-based supercapacitor

【字体：大中小】 时间：2026年05月10日 来源：Next Energy CS1.3

编辑推荐：

　　奥卢瓦塞恩·迈克尔·埃多克帕伊（Oluwaseun Michael Edokpayi）、达瓦南德兰·昌德拉兰（Davannendran Chandran）、达米拉雷·塞缪尔·奥耶巴米吉（Damilare Samuel Oyebamiji）马来西亚霹雳州PETRONAS科技大

　　奥卢瓦塞恩·迈克尔·埃多克帕伊（Oluwaseun Michael Edokpayi）、达瓦南德兰·昌德拉兰（Davannendran Chandran）、达米拉雷·塞缪尔·奥耶巴米吉（Damilare Samuel Oyebamiji）
马来西亚霹雳州PETRONAS科技大学机械工程系，斯里伊斯坎达32610

**摘要**
本研究采用机器学习（ML）模型，基于电极物理特性、元素组成和电位窗口（PW），通过重复随机种子分割和超参数来预测基于生物材料的超级电容器的功率密度。研究使用了随机森林（RF）、极强度随机树（ERT）和分类提升（CB）ML算法，根据先前关于基于生物材料的超级电容器的研究文章中收集的实验数据构建预测模型。模型性能通过决定系数（R2）、均方根误差（RMSE）、平均绝对百分比误差（MAPE）和平均绝对误差（MAE）进行评估。在评估的模型中，CB算法的表现最好，R2均值和标准差分别为0.729 ± 0.098，其次是ERT（0.664 ± 0.083）和RF（0.648 ± 0.087）。此外，CB算法的MAE值最低，为2397.101 ± 4399.12 W/kg，其次是ERT（2854.871 ± 519.520 W/kg）和RF（2965.086 ± 565.380 W/kg）。CB模型的Shapley加性解释分析显示，与其它输入变量相比，碳氧比（C/O）是预测功率密度最具影响力的参数。与现有关键研究相比，本研究展示了数据驱动方法在生物材料设计、预测和解释方面的潜力，有助于开发可持续的超级电容器。因此，本研究提供了一个基于电极物理特性、元素组成和电位窗口的超级电容器功率密度预测的ML框架。

**1. 引言**
全球能源生产仍依赖化石燃料，这对气候变化和温室气体（GHG）排放产生了负面影响。据报道，2000年至2023年间温室气体排放量增长了32% [1]。随着对能源需求的增加以及对化石燃料消耗的环境担忧，运输行业对可持续和高效储能设备的需求也在增加 [2]。在这些设备中，超级电容器因其高功率密度、长循环寿命和宽温度范围而成为有吸引力的储能技术，使其适合用于混合动力电动汽车（EV）的发展 [3] [4]。

超级电容器可分为电双层电容器（EDLCs）和赝电容器。EDLCs通过离子在电极表面的积累来储存电能，具有高功率密度和长循环寿命，但能量密度较低。相比之下，赝电容器利用表面氧化还原反应进行电荷储存，能量密度高于EDLCs，从而弥补了其不足 [5] [6]。然而，由于使用有毒材料，超级电容器在应用方面的发展受到限制 [7]。为解决这些材料问题，以往的研究探索了金属氧化物、复合材料、生物质材料和导电聚合物等替代材料，用于开发超级电容器电极、粘合剂和电解质 [8] [9] [10] [11]。Kaverlavani等人 [12] 使用纳米金属氧化物作为超级电容器的正极，制备出的不对称超级电容器功率密度达到15,000 W/kg。Zahra等人 [9] 将锰铝酸盐纳米颗粒与石墨化碳氮化物结合，制备出功率密度为340 W/kg的阴极电极。Yi等人 [10] 利用过期面包和灵芝孢子生物质材料制备电极，制备出的超级电容器功率密度为807.98 W/kg。超级电容器的电化学性能取决于电极材料的物理化学性质，如比表面积（SSA）、平均孔径（PS）、电导率和元素组成 [13]。优化电极材料的性质对于提高SSA、PS和电导率，从而提升超级电容器性能至关重要。已使用各种生物质前驱体（如空果串 [14]、茶叶 [15]、花生壳 [16]、奥利弗种子 [17]、西瓜皮 [18]、腰果壳 [19]、核桃壳 [20]、废弃棉 [21]、欧茱梅木 [22] 和松木 [23]）合成了具有分层SSA的多孔活性炭，用于超级电容器电极。Tian等人 [24] 从废弃核桃绿皮中制备出SSA为1404.3 m2/g的活性炭，应用于超级电容器后功率密度达到1003.5 W/kg。Song等人 [22] 用欧茱梅木制备活性炭，SSA提升至1589.00 m2/g，PS为2.51 nm，制备出的超级电容器功率密度为64,800 W/kg。Lin等人 [18] 报告了一种一步热解-活化方法，使用西瓜皮制备出的活性炭SSA为1303.3 m2/g，使超级电容器功率密度达到2500 W/kg。Inayat等人 [15] 用茶叶制备多孔活性炭作为超级电容器电极，在0.5 A/g电流下比电容达到302.0 F/g，功率密度为250 W/kg。因此，具有较高电导率的生物质电极材料对于改善离子迁移和降低超级电容器内部电阻至关重要。

Ayinla等人 [23] 研究了使用H?PO?、K?CO?和ZnCl?等活化剂处理松树皮制备的活性炭，发现H?PO?活化产生的比电容最高，为578.5 F/g，优于K?CO?和ZnCl?分别产生的315.3 F/g和293.3 F/g。制备出的超级电容器功率密度为1156.4 W/kg。Chaiammart等人 [19] 在不同温度下优化了KOH活化的腰果壳，SSA达到1534至2034 m2/g，制备出的超级电容器 Coin Cell 功率密度为1002 W/kg。Yulianti等人 [14] 优化了油棕空果串的KOH活化，发现KOH与前驱体比例为1:2时SSA最高，为763.73 m2/g，孔体积为0.44 cm3/g；比例为1:3和1:1时SSA分别为659.29 m2/g和0.43 cm3/g，对应孔体积分别为0.43 cm3/g和0.17 cm3/g，制备出的超级电容器功率密度为150 W/kg。这些结果表明，通过活化优化电极活性材料可以提升超级电容器的电化学性能。然而，这些优化过程需要大量劳动密集型实验，耗时且成本较高，不利于确定基于生物材料的超级电容器的功率密度，也延缓了其商业化进程。

基于计算的方法可以加速材料开发和性能分析 [25]。尽管基于密度泛函理论（DFT）的第一性原理计算可以提供关于超级电容器电极-电解质界面的有用信息，但计算复杂性和扩展性问题限制了这些方法在生物材料开发中的应用 [25] [26]。相比之下，机器学习（ML）作为一种强大的分析工具，能够处理大量多特征数据和材料属性作为输入参数 [3]。利用现有实验数据集，ML建模已成功生成具有高预测效率的超级电容器参数预测模型 [27] [28] [29] [30]。多项研究评估了随机森林（RF）、决策树、极端梯度提升（XGBoost）、分类提升（CB）和线性回归（LR）等ML算法在预测超级电容器性能方面的表现，指标包括RMSE、MAE和R2 [31] [32] [33] [34] [35] [36]。Tawfik等人 [35] 的研究表明，LR、回归树和自适应神经模糊推理系统（ANFIS）模型可用于预测基于生物材料的超级电容器电容，其性能通过RMSE、MAE和R2进行评估，结果分别为22.8、39.7647和0.90004，优于其他模型（LR和RT）。Ahmed等人 [34] 使用另一种ML模型预测基于生物材料的超级电容器比电容，R2值分别为0.9353、0.8612和0.9224。Chen等人 [37] 使用CB模型预测超级电容器比电容，R2值为0.978。这些研究表明，数据驱动建模在识别关键材料属性、减少实验优化和预测所需时间和资源方面具有价值。

尽管现有研究使用了不同的独立特征预测了基于生物材料的超级电容器的功率密度，但这些方法存在局限性。此外，没有研究结合电极活性材料的物理特性和元素组成以及电位窗口（PW）来开发预测模型。同时，对开发出的ML模型的解释也存在局限性，未能充分揭示关键特征及其行为。为填补这一空白，本研究旨在通过整合材料、化学组成和电位窗口，开发出一个可解释的ML框架，以准确预测基于生物材料的超级电容器的功率密度。

研究人员利用RF、极强度随机树（ERT）和CB ML算法，基于现有关于基于生物材料的超级电容器电极材料的研究结果（297个数据集）开发预测模型。数据集以80:20的比例重复分割为训练集和测试集，并进行随机种子分割和超参数优化。使用R2、RMSE、平均绝对百分比误差（MAPE）和MAE指标分析模型性能。此外，还使用Shapley加性解释（SHAP）分析评估输入参数对预测结果的贡献。本研究的主要贡献如下：
- 开发基于ML的预测模型，用于估算基于生物材料的超级电容器的功率密度，加快材料发现速度，减少评估生物材料所需的实验时间、劳动力和资源；
- 将电极物理特性、元素化学组成和电位窗口作为输入特征整合到统一的建模框架中，提供比以往研究更全面的表示；
- 系统评估了RF、ERT和CB等集成学习算法的准确性、稳定性和泛化能力；
- 应用SHAP分析解释模型预测结果及每个输入参数的影响；
- 建立了数据驱动的方法，将材料属性与电化学性能联系起来，实现快速预测，并支持高性能基于生物材料的超级电容器的设计，同时减少对大量实验的依赖。

**2. 研究材料和方法**
图1展示了基于ML的超级电容器功率密度建模和预测的流程示意图，包括数据收集、数据清洗、特征关联、ML模型开发、功率密度评估和预测。通过相关热图分析了变量与超级电容器功率密度之间的关联。开发了ERT、RF和CB三种ML模型来预测基于生物材料的超级电容器的功率密度。

**下载**：高分辨率图像（115KB）
**下载**：完整尺寸图像

**图1. 基于ML的功率密度预测的流程示意图。**
ML = 机器学习；SHAP = Shapley加性解释。

**2.1. 数据处理**
实验数据来源于2018年至2025年间Scopus数据库中索引的关于基于生物材料的超级电容器的文献。文献中提到的基于生物材料的超级电容器电极的生物质碳源包括空果串、花生壳、腰果壳和核桃壳等，但不仅限于这些。碳源的性质因材料而异。变量包括SSA、PS和拉曼强度比（IR），以及材料组成参数（如碳（C）和碳氧比（C/O）、电位窗口（PW）和功率密度。SSA和PS的测量采用Brunauer Emmett Teller（BET）分析仪进行。与材料石墨化程度和缺陷相关的IR值通过拉曼光谱确定。生物质材料的化学组成（C和O）以原子百分比表示，通过X射线光电子能谱确定；电位窗口（PW）以伏特（V）为单位测量。

为了手动提取用于基于ML模型预测超级电容器性能的数据集，从2025年1月1日至30日，通过关键词（“biomass” OR “bio-based” OR “organic” OR “plant material”）AND （“activated carbon” OR “charcoal” OR “carbonaceous” OR “carbon material”）AND （“supercapacitor” OR “ultracapacitor” OR “energy storage” OR “capacitive” OR “electrode” OR “electrode material” OR “conductive” OR “current collector”）在Scopus数据库中筛选出2280篇实验研究。根据收录和排除标准对文章进行了过滤。纳入标准是文章应包含与基于生物量的碳电极用于超级电容器应用相关的实验结果，并且应包含易于获取的数值数据。排除标准包括综述文章、会议论文、不完整的文章以及没有包含完整数值和变量的文章。重复记录经过仔细检查后被移除。数据集是从已发表的研究的主要文章和补充材料中提取的，数值数据则是从文本、表格和图表中手动提取的，然后转移到Microsoft Excel电子表格中。例如PW这样的定量数据，仅在使用OriginLab软件时才能恢复。在对数据进行机器学习（ML）分析之前，所有数据条目都经过了统一处理，并独立验证了其准确性和一致性。在此过程中，冗余的数据集被移除了。经过筛选和去除冗余条目后，最终有297个数据集被考虑用于模型开发。

在几项实验研究中缺失的PS值是使用Wheeling方程计算的，如公式1 [38], [39]所示：
(1)PS = 4000 * PV / SSA
其中PS以纳米（nm）为单位，PV是孔隙体积（cm3/g），SSA是（m2/g），系数4000是一个经验确定的常数，用于将PV/SSA比率转换为碳材料的实际孔径值。

Wheeler方程为给定压力下吸附的气体体积与孔径尺寸之间的关系提供了一个理论框架。它主要描述了多层吸附和毛细凝聚之间的过渡。此外，普遍认为不同的孔径大小（从微孔（<2 nm）到大孔（2 ~ 50 nm）会影响基于碳的超级电容器的性能 [39]。超级电容器的功率密度是根据能量密度（E）和放电时间（Δt）使用基于能量的功率密度公式计算的，如公式2 [40], [41]所示：
(2)PowerDensity = E / (3600 * Δt)
其中E和Δt分别代表超级电容器的能量密度（Wh/kg）和放电时间（s），系数3600将小时转换为秒。

所有数据条目在进行ML分析之前都进行了协调和独立验证，以确保其准确性和一致性。在此过程中，冗余的数据集也被移除了。经过筛选和去除冗余条目后，最终有297个数据集被用于模型开发。

2.2. 机器学习模型
为了训练和测试ML建模和预测，数据集被随机分为80%和20%。重复随机种子值分别设置在1、6、14、21、24、25、36、46、47和55，以展示模型的鲁棒性并降低对特定数据分割的过拟合风险。由于所使用的ML算法具有鲁棒性，本研究没有进行归一化处理。本研究采用了三种ML算法模型：ERT、RF和CB，以预测生物超级电容器的功率密度。RF是一种均匀集成分类ML算法，它结合了几棵决策树来减少预测误差。该算法在构建决策树时使用自举聚合和随机选择特征 [32]。预测结果是通过组合所有训练后的决策树的平均值得出的 [32]。ERT是一种基于多个决策树的集成ML算法，类似于RF，但它在构建树时选择分割阈值。此外，ERT使用整个数据集来训练单个决策树，而不是RF的自举技术 [42]。CB集成算法是一种梯度提升决策树，以其速度和准确性而闻名。该算法利用有序提升和排列技术来减少预测时的偏差 [43]。CB还可以处理分类特征作为输入，无需将其转换为数值数据 [43]。

为了提高ML模型的泛化性能并减少过拟合，对用于训练模型的80%数据集进行了超参数调整，以避免欠拟合或过拟合。为了获得最佳超参数，使用了网格搜索方法，因为它能够整合和评估所有超参数组合以减少误差。表1显示了用于训练所有模型的最佳参数。

2.3. 模型性能指标
对模型进行性能评估对于确定开发出的模型（ERT、RF和CB）的准确性、强度和稳定性非常重要。通过统计分析和相关性热图比较了这三种模型以及重复随机分割的结果，以提供来自数据集的统计见解，并评估ERT、RF和CB的性能。模型的性能指标是通过R2、RMSE、MAE和MAPE来确定的，其公式分别如（3）、（4）、（6）所示。报告了R2、RMSE、MAE和MAE的平均值和标准差，以展示其鲁棒性并降低对特定数据分割的过拟合风险。
(3)RMSE = 1/n * ∑(i=1^n) (Yacti - Ypredi)^2
(4)MAPE = (1/n * ∑(i=1^n) |Yacti - Ypredi|) / (RFacti)
(5)MAE = 1/n * ∑(i=1^n) |Yacti - Ypredi|
(6)R2 = 1 - ∑(i=1^n) (Yacti - Ypredi)^2 / ∑(i=1^n) (Yacti - Yˉpredi)^2
其中n、Ypredi、Yacti和Yˉpredi分别是数据点数量、模型预测的恢复因子、实际恢复因子和Ypredi的平均值。

RMSE表示预测数据与实际数据之间的差异，较低的数值表示更好的预测准确性和适应性。MAPE表示预测中的平均误差幅度，并以实际数据的百分比表示。MAE表示模型预测值与实际值之间的平均误差，不考虑误差的方向。MAE较低的模型表示一致且准确的性能预测。R2表示模型预测解释的输出变量方差的比例，R2值接近1表示接近完美的拟合。SHAP被用来解释模型结果。它计算每个特征相对于模型输出的Shapley值，从而量化每个特征对预测的单独影响。

3. 结果与讨论
本研究使用了包含6个独立变量的数据集，即C、C/O、SSA、PS、IR和PW，来开发生物基超级电容器功率密度的预测模型。数据集的统计分析包括计数、平均值、标准差、最小值、第一四分位数、第二四分位数和第三四分位数，如表2所示。值得注意的是，功率密度范围为10 W/kg到124,124 W/kg，高于Lu等人 [44] 报告的功率密度范围，他们开发了预测生物基超级电容器功率密度的模型。基于生物质的超级电容器电极的SSA值范围在6.32 m2/g到4472.70 m2/g之间，而IR值在0.49到4.30之间。

表2. 数据集统计分析。
变量计数均值标准差最小值 25% 50% 75% 最大值
SSA (m2/g) 297.00 169 2.48 88 0.64 6.32 106 164 1.92 186 447 2.70
PS (nm) 297.00 2.75 1.67 0.21 2.00 2.39 3.02 14.96
IR 297.00 1.18 0.57 0.49 0.94 1.02 1.14 4.30
PW (V) 297.00 1.43 0.59 0.60 1.00 1.20 1.80 4.00
C (%) 297.00 84.28 9.24 6.04 81 25 85.70 90.10 98.82
C/O 297.00 11.58 19.60 0.46 5.43 8.10 13.08 267.27
功率密度 (W/kg) 297.00 252 8.77 10,115.6 101 72.7 325.0 70 0.00 124,124

本研究获得的最大SSA和IR值高于Ghosh等人 [45] 为预测生物基超级电容器比电容而开发的数据集中报告的最大值（SSA为3977.3 m2/g，IR为2.74）。本研究确定的最低PS值为0.21 nm，低于Shrivas等人 [32] 使用的最低PS值0.54 nm。PW的最大值、平均值、标准差和最小值分别为4.00 V、1.43 V、0.59 V和0.60 V。相比之下，Shrivas等人 [32] 从100个数据集中获得的PW范围（0.80–4.00 V）、平均值（1.044 V）和标准差（0.502）低于本研究的结果。

从化学成分分析中确定的碳含量范围从最低值6.04%到最高值98.82%，平均值84.28%，高于Zhao等人 [31] 为预测超级电容器比电容而开发的模型的平均值45.49%。在本研究中，C/O比率范围为0.46到267.27，高于Liu等人 [43] 报告的2.08–85.55范围。这反映了基于生物质活化碳前体的元素组成的变化 [46]。由于MAE指标对极端值的关注较少，因此本研究保留了数据集中的异常值，从而在评估模型性能时比其他误差指标（如RMSE或均方误差）更具鲁棒性 [47]。

图2显示了输入和输出变量的直方图分布。SSA呈现接近正态分布，略有右偏，而PS、IR、PW和功率密度显示出强烈的右偏，表明大多数属性值较低，只有少数较高值。碳含量大多位于较高值，证实了从生物质中获得的材料富含碳 [48]。然而，C/O比率显示出严重的偏斜，因为大多数值位于较低区域，而较高区域的值很少。直方图分布显示了数据集的变化，表明需要特征缩放来提高性能并显示变量之间的良好相关性。数据集的直方图突出显示了数据集的变化，并建议对数据集进行归一化和标准化以提高性能相关性。然而，本研究中使用的基于树的集成ML算法本质上对特征缩放不敏感，并且由于其数据分割机制，能够处理偏斜的特征分布。

图2. 数据集分布图。C = 碳；C/O = 每单位氧的碳；IR = 强度比；PD = 功率密度；PS = 孔径大小；PW = 电位窗口；SSA = 比表面积。

图3(a) 展示了Python中的Pearson相关性热图，显示出因变量和自变量之间的相关系数。Pearson相关系数仅限于捕捉线性关系，限制了其显示特征之间非线性关系的能力 [49]。正相关系数表示一个特征增加时另一个特征也增加，而负相关系数表示一个特征增加时另一个特征减少。PW的相关系数为0.13，这影响了功率密度，因为它有助于计算超级电容器的功率密度，如公式2 [40], [41], [50] 所示。Lu等人 [44] 开发了一个模型来预测生物基超级电容器的功率密度，没有考虑PW、电极活性材料的物理属性和元素组成作为独立变量。碳和SSA的相关系数为0.22，而碳和C/O的相关系数为0.20，表明这两个特征之间存在强相关性。其他特征的相关系数较低，表明特征之间的相关性较弱。这些相关系数结果表明输入特征具有合理的独立性，证明了它们作为功率密度建模输入的重要性。

图3(b) 显示了回归模型中RF特征的重要性，展示了每个独立变量的影响。碳（C）的重要性得分最高，为0.2537，而IR的重要性得分最低，为0.0862。其他对回归模型重要的特征依次为C/O、SSA、PW和PS，重要性得分分别为0.2523、0.2045、0.1028和0.1006。在本研究中，碳（C）对生物基超级电容器的功率密度预测影响最大，而IR的影响最小。RF模型确定的特征重要性顺序与Shrivas等人 [32] 报告的结果相反，他们开发了一个预测生物基超级电容器比电容的模型。本研究观察到SSA是提高超级电容器比电容最有力的属性。这种差异可能归因于PW与功率密度之间的二次关系 [51]。特征重要性比较分析改进了RF模型的解释和透明度，有助于理解输入特征与生物基超级电容器功率密度之间的关系。

本预测模型的目标是创建一个能够预测生物基超级电容器功率密度的强大ML模型。为了评估模型性能，这些研究使用了四个统计指标（RMSE、MAPE、MAE和R2），以提供有关所使用的三种算法（RF、CB和ERT）的准确性、精确性和一致性的见解。值得注意的是，在所有随机种子的情况下，RF、CB和ERT模型在训练数据集上的预测性能都优于测试数据集。平均训练R2值介于0.846 ± 0.028至0.988 ± 0.005之间，而测试数据集的R2值则介于0.648 ± 0.087至0.729 ± 0.098之间，如补充列表和表3所示。这种差异表明存在一定程度的过拟合，可能是由于数据集的偏态和样本数量较少所致。在多次随机种子分割的情况下，模型的训练性能保持一致，但测试性能变化较大，反映了数据集对数据划分的敏感性。所有模型的训练R2值都较高，特别是ERT和CB模型（0.988 ± 0.005），表明它们具有很强的拟合能力。相比之下，测试R2值较低，RF为0.648 ± 0.087，CB为0.729 ± 0.098，表明它们的泛化能力中等。

在误差指标方面，训练数据集的RMSE、MAE和MAPE值均低于测试数据集。具体来说，训练RMSE介于约1106.98至4017.5239 W/kg之间，MAE介于236.65至1470.74 W/kg之间，MAPE介于55.02%至402.14%之间。相反，测试数据集的RMSE值较高，介于4772.73至5454.29 W/kg之间，MAE介于2397.10至2965.09 W/kg之间，MAPE介于685.79%至941.30%之间。所有模型中观察到的高MAPE值可以归因于数据集中存在较低的功率密度值。由于MAPE是以实际值的百分比表示的，这意味着即使绝对误差值很小，当实际功率密度接近零时，百分比误差值也会很高。因此，这不是开发模型性能的局限，而是MAPE本身的性质。其他性能指标，包括R2、MAE和RMSE，提供了更平衡的评估，展示了模型在不受小目标值影响的情况下的训练效果。这表明开发出的模型已经训练得足够好，能够合理准确地预测属性与功率密度值之间的关系。

从实际角度来看，这些开发出的模型仍然适用于指导和预测基于生物的超级电容器材料的设计，尤其是在中等至高功率密度范围内，因为大部分实验数据都集中在这一范围内。另一方面，与非常低功率密度材料相关的结果应谨慎对待，因为这属于基于百分比的误差指标的固有局限性。尽管如此，该模型对于低功率设备的定性决策仍然有用，而对于低功率密度样本的定量决策则需要慎重考虑。然而，对于中等至高功率密度设备的模型预测是可靠且有用的，因为实验数据主要集中在这一区域。

在本研究中考虑的模型中，CB始终表现出更高的预测性能，平均R2值最高（0.729 ± 0.098），如图4a-d所示，并且与ERT和RF相比，RMSE和MAE也相对较低。ERT也展示了强烈的训练性能，但出现了过拟合的迹象，表现为训练误差和测试误差之间的差距较大。相比之下，RF的准确性较低，表明存在一定程度的欠拟合，因为它在捕捉数据集中的复杂关系方面能力有限。

使用RF算法开发的模型在预测准确性、精确度和性能方面表现最差。如表3所示，RF的测试R2值最低（0.648 ± 0.087），而ERT（0.664 ± 0.083）和CB（0.729 ± 0.098）的表现较好。较低的R2值伴随着相对较高的预测误差，测试RMSE、MAE和MAPE值分别为5454.29 ± 1038.60 W/kg、2965.09 ± 565.38 W/kg和800.68 ± 172.56%。这表明其在捕捉基于生物的超级电容器的功率密度关系方面的能力有限。

在其他采用的算法中，CB和ERT在建模和预测基于生物的超级电容器的功率密度方面表现出了改进的性能。CB取得了最佳的总体测试性能，平均R2值最高（0.729 ± 0.098），RMSE（4772.73 ± 1247.23 W/kg）和MAE（2397.10 ± 439.12 W/kg）也相对较低。ERT也显示出了强大的训练性能（R2 ≈ 0.988 ± 0.005），表明其拟合能力优异；然而，测试R2值（0.664 ± 0.083）的显著下降表明存在一定程度的过拟合。

基于整体性能，模型可以排序为CB > ERT > RF。进一步使用不同随机种子分割下的平均值和标准差来评估模型的鲁棒性。CB在准确性和稳定性之间取得了良好的平衡，而尽管ERT在训练准确性上很高，但在测试性能上显示出稍高的变异性。RF虽然相对稳定，但与其他模型相比始终表现不佳。CB的高性能可以归因于其有效地模拟数据集中的复杂非线性交互的能力。通过结合有序提升和高效处理特征交互，CB更适合捕捉生物质特性与电化学性能之间的复杂关系。这项研究揭示了CB模型在预测基于生物的超级电容器的功率密度方面的准确性和效率。

本研究获得的CB模型的最高训练R2值（0.988 ± 0.005）略高于Lu等人[44]报告的值，其中XGBoost的R2值为0.984。然而，Lu等人[44]研究中的测试R2值（0.921）高于本研究的值（0.729 ± 0.098）。这些性能差异可能是由于特征选择、模型配置、数据集分布以及用于开发预测模型的数据集数量所致。模型性能指标的差异可能归因于模型统计和理论框架对基于生物的超级电容器功率密度的影响[52]。CB通过顺序构建决策树集成来捕捉数据集中的复杂关系或趋势，每棵新树都利用梯度提升来纠正前一棵树的错误，并专门处理分类特征。

图5通过比较每个模型使用测试数据集预测的实际功率密度与预测功率密度，展示了RF、CB和ERT模型的预测性能。散点图对应于基于所有运行中最接近平均值的代表性数据分割（随机种子=6），确保可视化反映了典型的模型行为。散点点与对称线（y = x）的接近程度表明了模型预测的准确性。CB和ERT的散点图更接近对称线，尤其是在高功率密度时，表明预测更加准确。相比之下，RF模型的点分布更广，偏离对称线的程度更大，特别是在高功率密度值时，表明预测准确性较低。

CB和ERT的改进性能与表3中呈现的定量结果一致，其中CB取得了最高的测试R2值（0.729 ± 0.098），其次是ERT（0.664 ± 0.083），而RF的表现最低（0.648 ± 0.087）。值得注意的是，CB和ERT在更广泛的功率密度范围内与数据集值的吻合度更好，尽管在较高值时仍观察到轻微的偏差，这可能是由于数据变异性增加所致。总体而言，散点图确认CB和ERT提供了比RF更准确和一致的预测，CB在预测准确性和泛化性能之间取得了最佳平衡。

表4展示了本研究与现有研究在预测基于生物的超级电容器功率密度方面的比较。关于开发用于预测基于生物的超级电容器功率密度的机器学习模型的研究有限。Lu等人[44]使用16个独立变量（包括生物质结构组成、固定碳、水分含量、灰分含量和生物质元素组成）开发了预测模型，采用了三种机器学习模型（XGBoost、Light Gradient Boosting Machine (LightGBM) 和 Deep Neural Network (DNN)）。在这些模型中，XGBoost取得了最佳性能，R2、MAE和RMSE值分别为0.921、8486.157 W/kg和8550.393 W/kg。而本研究使用了6个独立变量（包括PW、SSA、IR、C、C/O和PS）开发了预测模型。尽管使用的特征较少，CB模型在本研究中取得了最佳性能，平均测试R2、MAE和RMSE值分别为0.729 ± 0.098829、2397.10 ± 439.12 W/kg和4772.73 ± 1247.23 W/kg。

然而，需要强调的是，由于两个研究的数据集、特征集和实验条件不同，因此不能直接比较这两项研究的结果。因此，表4中的比较应谨慎解读，仅用于提供对该研究领域现有机器学习方法的背景洞察，而不是建立直接的性能排名。

图6展示了RF、CB和ERT模型的SHAP解释图，突出显示了独立变量对基于生物的超级电容器预测功率密度的重要性。SHAP分析使用了基于与平均值最接近的性能选择的相同代表性模型（随机种子=6），以确保预测结果和模型解释之间的一致性。SHAP解释图在x轴上显示了每个特征对模型输出的贡献，y轴上的特征根据其平均绝对SHAP值进行排名，表示整体重要性。在图中，特征值通过颜色渐变表示，从低（蓝色）到高（红色），特征值越小，样本点越接近蓝色。正的SHAP值表示预测功率密度的增加，而负值表示贡献的减少。

如图6(a)所示，C/O的低值（用蓝色点表示）在RF模型超级电容器功率密度预测中具有重要影响，这证实了C/O对RF模型预测的积极贡献。这也表明，为了实现高功率密度，需要降低C/O，因为C/O与功率密度成反比，从而强调降低电极C/O可以提高超级电容器的功率密度[53]、[54]。C/O的降低可能归因于润湿性的改善和内部电阻的降低，这在充电-放电过程中促进了离子的快速传输。同样，PW也显示出积极贡献，较高的值（用红色点表示）对应于正的SHAP值，表明超级电容器功率密度预测的增加。这可能归因于离子动力学驱动力的增加以及电压和能量传递之间的二次关系。这表明基于生物的电解质具有较高的电化学稳定性，并能够实现快速的电荷转移[55]。从图7(a)可以看出，RF模型的特征重要性排序为C/O，其次是PW、C、SSA、PS和IR。总体而言，C/O对RF模型的特征贡献最大，而PW、C、SSA、PS和IR则作为次要特征影响模型准确性。在CB模型中，C/O仍然是预测基于生物的超电容器功率密度最重要的特征。对于CB模型，特征重要性排序如下：C/O > PW > SSA > C > PS > IR，如图6(b)和图7(b)所示。CB模型中C/O的较低值（蓝点）在正SHAP值时，表明C/O的减少倾向于增加基于生物的超电容器的功率密度；而PW在CB模型中的较高值（红点）在正SHAP值时，表明PW的增加倾向于增加基于生物的超电容器的功率密度。因此，C/O对CB模型预测功率密度的准确性、一致性和性能有重要贡献，与RF模型类似。

下载：下载高分辨率图片（415KB）
下载：下载全尺寸图片

图7. (a) ERT、(b) CB和(c) 在90:10分割下的平均SHAP值。C = 碳；C/O = 每个氧分子的碳原子数；CB = 分类提升；ERT = 极端随机树；IR = 强度比；PS = 孔径大小；PW = 电位窗口；SHAP = Shapley加性解释；SSA = 比表面积。

对于ERT模型，SSA仍然是预测基于生物的超电容器功率密度最重要的特征。这可能归因于快速离子动力学的增加以及电压和能量传递之间的二次关系。这表明基于生物的电解质具有较高的电化学稳定性，并能够实现快速的电荷转移[56]。特征重要性排序为SSA > PW > C/O > C > PS > IR，如图6(c)和图7(c)所示。ERT模型中SSA和PW的较高值（红点）在正SHAP值时，表明SSA和PW的增加倾向于增加基于生物的超电容器的功率密度；而C/O的较低值（蓝点）在正SHAP值时，表明C/O的减少倾向于增加基于生物的超电容器的功率密度。因此，SSA对ERT模型预测功率密度的准确性、一致性和性能有重要贡献，与RF和CB模型不同。

为了定量支持SHAP解释，表5总结了所有模型的平均绝对SHAP值。对于RF模型，C/O显示出最高的SHAP值1520，其次是PW（980）、C（860）和SSA（800），表明表面化学和电化学操作条件是主导因素。同样，CB模型显示C/O是最具影响力的特征（1224.87），PW（775.80）和SSA（774.03）的贡献几乎相等，表明表面化学和离子可及表面积非常重要。相比之下，ERT模型显示出了略有不同的趋势，其中SSA（1180）和PW（1080）是最具影响力的特征，其次是C/O（830）。这表明ERT模型更重视结构属性和操作电压，而不仅仅是表面化学。

表5. 所有模型的平均绝对SHAP值总结。

特征平均SHAP值
空白单元 RF 1520
CB 1224.87
C/O 1520
PW 980
C 860
SSA 775.80
PS 520
IR 480

为了展示模型的实际可解释性，通过修改某些输入特征（C/O、PW和SSA）同时保持其他特征不变（C、IR、PS）进行了案例研究（见表6）。基线条件下的预测功率密度为62,226.14 W/kg，在修改关键参数后显著下降至7115.31 W/kg（Δ = ?55,110.83 W/kg）。SHAP分析显示，这种减少主要是由C/O比例的变化（ΔSHAP = ?18,476.68）引起的，其次是C含量（ΔSHAP = ?9023.43）、PS（?8279.25）和SSA（ΔSHAP = ?7993.66）。尽管PW从1.60 V增加到1.92 V，但其贡献（ΔSHAP = ?4712.57）不足以抵消组成和结构参数不利变化带来的负面影响。这些修改结果表明，表面化学（C/O）、C结构和SSA对确定功率密度的影响大于PW单独作用的影响，强调了在生物质衍生电极中平衡优化物理化学性质的必要性。

表6. 示例案例的SHAP贡献。

特征基线值修改值基线SHAP 修改后SHAP ΔSHAP 影响
PW 1.60 1.92 6218.33 150 5.76 -4712.57 轻微负面
IR 0.92 0.92 758 1.20 955.96 -6625.24
SSA 158 190 680 816 77.58 173.92 -7993.66 负面
PS 2.51 2.51 12,00 4.89 372 5.65 -8279.25
C/O 5.50 6.60 17,21 19.26 -1257.42 -1847.68 强烈负面

总之，基于代表性模型（随机种子 = 6）的SHAP分析表明，在本研究中，与PW、SSA、PS、IR和C相比，CB模型突出显示C/O比率是预测基于生物的超电容器功率密度最重要的特征。C/O的重要性表明了表面化学的重要性。减少C/O含量可以最小化内部损耗，从而在高倍率放电时允许电子快速流动，增强电解质的润湿性。SSA的重要性在于它能够形成电双层站点。虽然较高SSA可以提高电荷存储能力，但功率性能取决于站点的可及性。PW的重要性在于其能够提高电压。由于储存的能量与电压的平方成正比，因此提高稳定性窗口可以增加功率密度。然而，可访问的PW受到电解质稳定性和内阻的限制，表明最佳功率性能来源于表面化学、结构属性和电化学操作条件之间的平衡。C在决定电极的电导率和结构完整性方面起着关键作用，不足的导电碳框架会限制电子传输，即使表面性质有利也是如此。PS影响离子扩散动力学，因为过小的孔会阻碍离子可及性，而过大的孔会减少有效表面积，这两者都会对高倍率性能产生负面影响。IR直接影响操作过程中的能量损失和电压降，较高的电阻会在高电流条件下导致功率输出降低。这些结果表明，高倍率性能来源于材料属性和电化学操作条件之间的协同作用，而不仅仅是一个主导因素。

4. 结论

在这项研究中，开发了机器学习模型来预测基于生物的超电容器的功率密度，使用了PW以及电极的物理和化学性质。从现有的关于基于生物的超电容器实验研究中提取了297个数据集，并将其分为80%用于训练和20%用于测试。采用了RF、CB和ERT等机器学习模型，模型性能评估指标包括R2、RMSE、MAPE和MAE，并在多个随机种子分割下评估了模型的鲁棒性。在模型中，CB表现出最佳的整体预测性能，平均测试R2为0.729 ± 0.098，同时具有较低的MAE（2397.10 ± 439.12 W/kg）和RMSE（4772.73 ± 1247.23 W/kg），优于ERT和RF。ERT显示出较强的训练性能，但泛化能力相对较低，而RF在评估的模型中始终表现出最低的预测准确性。SHAP分析显示，C/O是影响功率密度预测的最具影响力的特征，平均值为1224.87，相比之下PW（775.80）和SSA（774.03）在CB模型中较低。C/O在CB模型中始终表现出较高的贡献，突出了离子传输的重要性，而SSA表明了离子可及表面积的重要性，PW在各个模型中都表现出一致的贡献，反映了电化学操作电压的作用。这些发现表明，功率密度受到材料属性和PW的综合效应的控制，而不是单一主导参数。

基于所得结果，本研究证明了使用机器学习模型预测基于生物的超电容器功率密度的可行性，提供了一种数据驱动的方法，减少了与基于生物材料的超电容器开发相关的实验研究所需的时间、劳动力和成本。此外，该模型为筛选和开发高效的生物质衍生储能材料提供了新的途径。然而，研究受到过拟合的限制，这可能与数据集的偏斜和小规模有关。未来的工作应侧重于扩展数据集，整合额外的性能指标（如电流密度），以及集成先进的机器学习预测模型，以进一步提高模型的可靠性和泛化能力。

热点排行