基于充电顺序匹配的精细调优大型语言模型在锂离子电池状态评估中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Green Energy & Environment》：Fine-Tuned Large Language Model Empowered State of Health Evaluation of Lithium-ion Batteries based on Charging Sequence Matching

【字体：大中小】 时间：2026年05月10日 来源：Green Energy & Environment 14.6

编辑推荐：

　　张振|尚云龙|张琪|李岩|李向军|程泽宇山东大学控制科学与工程学院，济南250061，中国摘要准确、便捷且可靠的电池健康状态评估对于电动汽车中锂离子电池的安全高效运行至关重要。然而，复杂的运行条件、严格的特点工程以及数据稀缺性严重限制了传统估计算法的工程实践应

　　张振|尚云龙|张琪|李岩|李向军|程泽宇
山东大学控制科学与工程学院，济南250061，中国

摘要
准确、便捷且可靠的电池健康状态评估对于电动汽车中锂离子电池的安全高效运行至关重要。然而，复杂的运行条件、严格的特点工程以及数据稀缺性严重限制了传统估计算法的工程实践应用。在这里，我们将分类技术融入状态评估中，打破了传统的电池退化识别思维模式。考虑到数据驱动技术的潜在局限性，本研究采用了自然语言处理领域新兴的大型语言模型来替代较小的模型。研究基于大规模数据集中的311个电池单元的80,300多个循环样本展开。首先，对不完整的充电数据进行扫描、融合和降维处理，将其转化为轻量级的充电序列。随后，将当前充电序列与截断的候选序列结合，以实现序列匹配，从而绕过了传统的退化特征提取过程。此外，我们设计了多种模型构建策略来微调模型，将先验知识与领域特定见解无缝整合。验证结果表明，所提出的方法具有可靠的评估性能，整体准确率超过99%。这项工作凸显了大型语言模型在电池智能管理中的潜力，无需额外的传感器，为进一步的跨学科探索开辟了新途径。

1. 引言
可再生能源不仅被视为缓解环境压力的有效手段（尤其是在减少碳排放方面），从长远来看，它还可能成为满足能源需求的最关键解决方案之一[1]，[2]。锂离子电池（LIBs）具有高能量密度、长寿命、低自放电率以及快速充电等优异特性，因此在电动汽车（EVs）、储能系统、消费电子设备和智能电网中得到广泛应用[3]，[4]。与2024年相比，2025年的全球锂离子电池出货量达到了2280.5吉瓦时（GWh），同比增长47.6%，其中电动汽车用锂离子电池占比超过65%[5]。在激烈的全球技术竞争背景下，与交通电气化、数字化和智能化相关的技术快速迭代和创新为锂离子电池的发展带来了众多机遇[6]，[7]。然而，在工程实践中，由于复杂的运行条件、温度的突然变化以及电极材料的不一致性，锂离子电池不可避免地会经历不可逆的性能退化，主要表现为可用容量的非线性衰减[8]，[9]。因此，为了减轻性能退化带来的潜在威胁，电池健康状态（SOH）被视为优化电池可靠性、寿命和效率的关键指标[10]。实际上，复杂的电化学行为和制造过程导致了多样的退化模式，这阻碍了电池健康状态的准确高效获取。

电池健康状态可以通过多种方法进行定义，包括基于容量、电阻和功率的方法[11]，[12]。基于容量的方法最为常见和受欢迎，其定义为未知电池的剩余可用容量占其标称容量的百分比[13]。定义方法必须严格遵循测试协议，这些协议涉及通过完整的充放电过程提取相关参数进行计算[14]。不幸的是，在大多数应用场景中（尤其是电动汽车），对锂离子电池进行完整的充放电操作极为罕见[15]。在日常驾驶中，几乎没有驾驶员会将电动汽车的电量用到最低状态（SOC）。大量研究表明，由于多种因素，电动汽车的初始充电状态通常呈正态分布，大约在SOC=50%左右[16]，[17]，[18]。因此，基于定义的方法无法有效处理碎片化的数据来计算电池健康状态，这促使了各种估计算法的出现，主要包括基于模型的方法和数据驱动的方法。基于模型的估计算法通过构建能够准确模拟锂离子电池复杂内部机制的数学模型来推断电池健康状态，这些模型主要包括电化学模型、经验模型和等效电路模型[19]，[20]。基于模型的方法生成的电池健康状态完全取决于模型的完整性、实验数据和参数识别[21]。尽管在解释性方面具有优势，但这些方法通常在适用性、灵活性、可转移性和准确性方面存在不足，这大大增加了实施的难度。具体来说，当将针对某种特定电池类型设计的电化学模型转移到另一种化学系统时，其估计算法的表现通常会下降超过30%。

在过去十年中，借助大数据和人工智能算法的数据驱动方法已成为各个领域的主要研究方向[22]，[23]。这些方法通过数据处理、特征工程以及深度学习（DL）/机器学习（ML）算法建立了退化特征与电池健康状态之间的映射关系，从而实现了电池健康状态的估计[24]，[25]。值得注意的是，与基于模型的方法不同，数据驱动方法不需要深入理解锂离子电池的内部机制。在工程实践中，高质量、标记化的大规模数据集对于模型训练和验证至关重要[26]，[27]。然而，典型的退化数据集仅包含几百个标记化的循环样本，这限制了模型的泛化能力。数据增强技术通过生成合成数据来扩展语料库，但这可能会降低数据的可靠性[28]。特征工程在可靠的数据集支持下直接决定了模型估计性能的下限。差分电压（DV）[29]、增量容量（IC）[30]、电压松弛（VR）[31]和电压段[32]都是广泛讨论和研究的退化特征。实际上，现有的退化特征提取方法有严格的先决条件，这降低了模型的灵活性[33]。差分电压或增量容量曲线通常是基于高采样频率的原始序列并通过平滑滤波生成的；电压松弛只能在电池完全充电后的静止状态下提取；电压段在不同的运行条件下是碎片化的。随后，输入特征被送入算法以构建估计模型。轻量级的DL/ML算法计算复杂度较低，执行速度较快，主要包括支持向量机（SVM）、卷积神经网络（CNN）和Transformer等主流算法[34]，[35]。不幸的是，由于参数范围的局限，小型模型长期存在准确性低、泛化能力差和过拟合等问题。例如，卢等人基于特定任务的特征工程使用了一个基于CNN的小型模型，在指定数据集上的绝对误差不超过8.87%，但仍有很大的改进空间[36]。此外，一旦运行条件（如电池类型、环境温度和充电协议）发生显著变化，小型模型的固有局限性会共同影响其估计性能，包括特征工程的适应能力差、领域知识的转移能力弱以及提取高维信息的能力有限。

随着自然语言处理（NLP）领域大型语言模型（LLMs）的革命性进展，出现了创新的解决方案来应对上述挑战和不足[37]。与小型模型相比，LLMs的参数规模超过了数亿，它们被广泛应用于文本生成、实时翻译、医疗诊断和自动驾驶等领域[38]，[39]。预训练LLMs的丰富先验知识显著提高了它们的适用性和可转移性。更可靠的是，经过微调的LLMs在特定任务上表现更好。在医学领域，张等人提出了一种通用的LLM用于医学图像分割，集成了解剖学知识，从而提高了多个任务的泛化性能[40]。此外，LLMs能够灵活处理非线性关系，这与锂离子电池的固有特性相符。尽管LLMs在各个领域不断迭代和更新，但它们在电池状态评估中的应用仍较为有限。左等人系统性地回顾了LLMs在电池管理领域的潜力与挑战，特别强调了它们如何推动状态估计和故障诊断等技术的发展，进一步促进了电池管理系统（BMSs）的智能化[41]。边等人基于预训练的LLM在不同运行条件和温度下实现了可靠的电池SOC估计[42]。更重要的是，几乎所有评估方法的目标都是获得更准确的电池健康状态浮点值，但这在某种程度上是不合理的。在工程实践中，用户只能通过近似的健康程度来可靠地评估电池的退化程度。

在这项工作中，为了缓解现有难题，我们将分类技术融入基于微调LLM的状态评估中。通过使用充电序列匹配替代传统的特征工程，我们显著克服了严格退化特征提取和数据稀缺带来的障碍。此外，我们提出了一种基于电池健康状态近似范围而非精确浮点值进行评估的方法。通过模型微调，LLMs显著提高了所提方法的可行性、可靠性、评估准确率和广泛应用性。这项工作为LLMs在状态评估和电池智能管理中的新跨学科探索铺平了道路。我们的目标是针对主流方法做出三项关键贡献和改进：
（1）将分类技术融入状态评估：为了解决复杂特征提取和数据稀缺的挑战，我们提出了基于充电序列匹配的方法，从分类的角度对电池健康状态进行评估。序列匹配有效地扩大了原始数据集的样本规模，无需额外的特征工程。验证结果表明，所提方法可以准确评估电池状态，整体准确率超过99%。
（2）微调大型语言模型：考虑到锂离子电池是典型的非线性时变系统，本研究应用LLM来处理状态评估任务，从而促进了跨学科研究。通过添加动态填充、加权损失函数、模型混合等技术，LLM在不同数据集上实现了参数高效的微调。与其他算法相比，LLM在准确性和泛化能力方面表现出显著优势。
（3）稳定的电池健康状态评估性能：利用分类任务的灵活性，我们开发了三种模型构建策略，以实现类似的评估性能。此外，还讨论了对不同阈值的敏感性，以提高所提方法的可靠性和稳定性。本研究基于311个电池单元的80,300多个循环样本进行验证。

2. 数据生成
2.1. 数据集
为了促进人工智能背景下数据驱动技术的深入和有意义的探索，包括理论分析、特征提取、模型构建（训练/微调）和实验验证等每个步骤都需要仔细考虑和相互联系。高质量、多样、大规模且可靠的数据集是整个研究过程中的关键基础元素，这对于锂离子电池的状态评估尤为重要。因此，我们从《Advanced Science》和《Nature Communications》发表的主流研究论文中收集了四个电池数据集，共计80,382个循环样本，这些数据集在本文中可供使用[43]，[44]。这些数据集分别称为数据集#1、数据集#2、数据集#3和数据集#4。表1展示了这些数据集的基本规格。
表1. 基本规格
| 数据集 | 正极材料 | 标称容量（Ah） | 充电电流率（C） | 温度（°C） | 电池单元数量 | 循环样本数量 |
|---------------|-------------|--------------|-------------|-------------|------------|-----------|
| 数据集#1 | Li(Ni0.8Co0.1Mn0.1)O2 | 2.5 | 3 | 18 | 12 | 17 | 20 |
| 数据集#2 | Li(Ni0.86Co0.11Al0.03)O2 | 3.5 | 0.25/0.5/1 | 25 | 35 | 45 | 66 |
| 数据集#3 | Li(Ni0.83Co0.11Mn0.07)O2 | 3.5 | 0.5 | 25 | 35 | 45 | 55 | 27 |
| 数据集#4 | Li(NiCoMn)O2 + Li(NiCoAl)O2 | 2.5 | 0.5 | 25 | 98 | 58 |
| | | | | | | | |

所有四个数据集中的电池单元都是三元锂离子电池（LIBs），正极材料相似，仅在元素组成上有所不同。这些材料包括Li(NiCoAl)O2（NCA）和Li(NiCoMn)O2（NCM）。具体来说，数据集#4中的电池单元的正极材料是NCM和NCA的混合物，比例预设为NCM+NCA。上述电池单元在工作时的允许电压范围为2.5–4.2 V，并采用恒流恒压（CC-CV）充电协议。本研究采用C-rate来描述充放电电流率，从而避免了不同电池单元之间标称容量差异带来的问题。显然，这些数据集在电流率、环境温度、容量特性等方面存在多样性。同时，数据集#1的采样频率为0.067 Hz，数据集#2和#3的采样频率为0.033 Hz，数据集#4的采样频率为0.1 Hz。

图1展示了每个电池单元在其整个生命周期内的电池健康状态（SOH）退化曲线。数据集#1是一个典型的快速退化示例，电池健康状态在仅120个循环内就迅速下降到约80%。此外，由于不同的预设运行条件，数据集#2和#3中相同正极材料的电池单元在退化模式上表现出显著差异。此外，由于个体差异和其他不可控因素，即使在相同的运行条件下，不同电池单元之间的SOH退化也存在轻微差异。本研究没有进一步探讨充放电阶段的测试数据，因为这些数据在工程实践中表现出复杂性和碎片化。可以得出结论，这四个公开可用的数据集具有相当大的多样性，将能够有力地支持本研究的可靠性、通用性和可复现性。下载：下载高分辨率图像（581KB）下载：下载全尺寸图像图1. 电池健康状态（SOH）退化曲线。2.2. 将分类融入状态评估在电池智能管理中，数据驱动的状态估计方法已经发展成为一个系统化的实施过程，并且现在被应用于电动汽车和储能系统中。特别是对于SOH，它衡量退化程度以评估电池是否存在潜在风险或需要提前退役。图2(a)展示了传统的基于数据的SOH估计方法的流程。首先，收集充电过程中的零散运行数据，主要包括电压、电流和放电容量。实际上，大规模数据集的有限可用性直接阻碍了传统方法的发展。然后，提取退化特征以识别强相关的模型输入。不幸的是，传统方法中的复杂前提限制了连续和普遍提取特征的能力。随后，使用DL/ML模型将退化特征映射到电池SOH。然而，它们的固有局限性常常导致过拟合和较低的估计精度。此外，值得注意的是，传统估计方法产生一个精确的浮点数值，例如98.7%。然而，在实践中，用户通常根据近似值范围来评估退化程度。例如，当SOH在100%到95%之间时，表示电池状态良好。因此，在大多数情况下，电池SOH的近似范围可以有效地替代对精确值的需求。下载：下载高分辨率图像（878KB）下载：下载全尺寸图像图2. 将分类融入状态评估。本研究探讨了“将分类融入状态评估”的过程，这有效地缓解了特征复杂性和数据稀缺等挑战。图2(b)描述了基于分类的状态评估方法。具体来说，本研究将充电序列匹配作为数据准备过程的一部分，从而省略了第3.1节中详细讨论的长期存在的特征提取步骤。序列匹配还重新组织了样本，从而扩展了原始数据集。同时，我们用微调过的LLM替换了DL/ML模型，这降低了过拟合的风险。在本文中，根据退化程度将SOH评估结果分为五个等级。这种创新的分类理论应用于典型的回归任务，为电池智能管理和其他领域提供了新的解决方案。值得注意的是，分类依赖于几个固定的SOH阈值（例如97.5%、92.5%），这些阈值是基于全面的物理、工程和经验考虑确定的。一方面，不同的运行条件会导致电池单元的退化模式不同，可能会出现不同的拐点和服务寿命。在这种背景下，采用上述等间距阈值可以提高其在更广泛场景中的适用性。同时，对于用户来说，固定和稳定的阈值提供了更大的实用性和可解释性。另一方面，本工作中设置的阈值间隔为5%，而不是更小的值，这是基于方法论的适用性和工程实践。较小的间隔会使候选序列过于相似，从而妨碍所提出方法准确识别退化程度。相比之下，5%的间隔代表了一个明显可辨别的变化，确保模型获得了足够不同的候选序列。此外，这一选择符合工程学知识：电池单元在短短几个循环内几乎不可能经历超过5%的容量下降。因此，采用的阈值及其间隔与电池的常规和相对渐进的退化过程是一致的。此外，本研究还对原始数据进行了批量截断，以模拟工程实践中观察到的零散和不规则的充电行为。对于每个循环，将完整数据随机划分为长度从0.1V到0.5V的充电段。因此，所提出的序列匹配将专注于这些截断的充电段。3. 方法3.1. 数据准备在这次状态评估的探索中，我们定义了所需的充电序列以便于它们的匹配，这一过程称为数据准备。作为最流行的二次电池，锂离子电池（LIBs）的充放电完全取决于个人意图。特别是对于电动汽车，其充放电行为受到各种因素的影响，包括复杂的驾驶条件、多样的驾驶风格以及充电站的地理分布。总体而言，充放电行为表现出随机性和碎片化，充放电节点不可预测，充放电持续时间未知。与放电相比，充电行为遵循预定义的协议，使其更可控和可解释。电压、电流和放电容量是电池管理系统（BMS）通常记录的关键参数。其中，电流在各种充电协议中作为自变量，而电压和放电容量是随时间变化的因变量。同时，这两个参数与LIBs的电化学、热力学和退化机制密切相关。以某种随机充电行为为例，首先提取原始电压序列（V）和放电容量序列（Q）：(1)其中，n表示数据点的总数，这与采样频率有关。随后，将这两个序列沿着时间维度耦合形成二维数组E0，也可以称为Q-V曲线。这种数组在各种充电协议下保持稳定，并且不易受到噪声的影响。(2)然而，对于分类任务，使用二维数组作为模型输入可能会增加计算成本，使数据结构复杂化，并导致梯度爆炸。因此，我们通过计算放电容量沿电压方向的变化频率来降低维度。(3)其中，dQ/dV表示所述的变化频率，E1表示降维后的一维序列。在本研究中，E1代表充电序列的一般形式。充电序列匹配意味着电流序列和候选序列的具体组合。电流序列对应于要评估的电池的充电序列，而候选序列包含一组来自已知电池的充电数据，这些电池的SOH值分别为97.5%、92.5%、87.5%和77.5%。值得一提的是，候选序列在电压方向上的长度与电流序列一致。图3展示了每个数据集中已知电池的候选序列，电压范围在3.7V到4.0V之间。相当于SOH为97.5%的测试循环在数据集#2和#3中缺失，因此没有显示。下载：下载高分辨率图像（632KB）下载：下载全尺寸图像图3. 候选序列。(a) 数据集#1，(b) 数据集#2，(c) 数据集#3，(d) 数据集#4。在序列匹配过程中，将电流序列与每个候选序列结合并输入模型，以确定两者是否接近或相似，这类似于多个二元分类任务的堆叠。序列匹配显著增加了数据集中的样本量。例如，在数据集#1中，样本数量从原来的21,720个循环样本增加到序列匹配后的103,170个样本。两种序列的组合在不同模型构建策略中略有不同，这将在第3.4节中详细讨论。3.2. 大语言模型在计算资源有限、数据集稀疏和任务需求较低的场景下，较小的DL/ML模型可以实现更快的训练和推理，同时消耗更少的内存。然而，由于参数范围狭窄，较小的模型在处理复杂任务时表现较差，无法准确捕捉特征，导致精度低、泛化能力差和过拟合。近年来，大规模语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展，引发了人工智能技术的革命性变化。LLMs也被称为预训练的LLMs，指的是在大量语料库上进行预训练的超大规模深度神经网络，用于理解、生成和转化自然语言。与较小的模型相比，LLMs的参数规模超过数亿，使它们能够在特定任务中实现“智能涌现”。同时，丰富的先验知识、广泛的应用性和卓越的并行处理效率使其能够灵活地应用于各种领域。如今，基于LLMs的商业应用已经渗透到日常生活中，包括用于文本生成的聊天机器人、临床医学中的诊断支持工具和实时翻译服务。事实上，结合主流的模型微调技术，预训练的LLMs在回归/分类任务中也具有很好的前景。更明确地说，LLMs擅长处理非线性系统中的解耦问题，这与LIBs的退化特性非常吻合。几乎所有LLMs都源自Transformer架构，其优势在于自注意力机制。模型架构主要包括三种类型：仅编码器架构、仅解码器架构和编码器-解码器架构。仅编码器架构扫描和分析整个上下文，使其更适合命名实体识别、序列匹配和情感分析等任务。Transformer的双向编码器表示（BERT）遵循典型的仅编码器架构，有BERT-base和BERT-large两个版本[45]。本研究中的基模型是BERT-large，它包含24个编码器层、1024的隐藏状态大小和3.4亿个参数。该LLM的预训练由两个任务支持：掩码语言建模和下一句预测。图4描绘了BERT-large模型的架构。下载：下载高分辨率图像（705KB）下载：下载全尺寸图像图4. BERT-large模型的架构。原始输入经过三种嵌入——位置嵌入、段落嵌入和令牌嵌入——以实现排序、序列识别和文本分割。[cls]表示输入的全局令牌，[sep]用于分隔不同的序列。例如，在文本化后，浮点值[1.5459]可能被转换成令牌序列（例如[1015, 1012, 5139, 28154]）。在这种情况下，BERT模型仍然能够有效捕捉浮点值表示的数值信息以及整个时间序列的结构。首先，BERT通过多个具有自注意力机制的编码器层处理文本，使每个令牌能够与其他所有令牌交互。这使模型能够整合分割后的令牌信息并形成原始浮点值的连贯表示。其次，位置嵌入将绝对位置信息注入每个令牌，使BERT能够保持浮点值的时间顺序。更重要的是，在预训练期间，BERT从大量语料库中学习了常见的数据表示形式，包括整数、浮点值和分数。每个编码器层包含多头自注意力和前馈神经网络。Add & Norm负责残差连接和层归一化。通过24个编码器层后，嵌入的输入将生成模型输出。在BERT-large模型中，每个多头自注意力包括16个注意力头，它们的输出被连接起来进行进一步处理。每个头执行自注意力操作以计算注意力权重：(4)其中，X表示模型输入，WQ、WK和WV是可学习的参数矩阵，Q、K和V表示查询向量、键向量和值向量，dk表示K的维度。前馈神经网络包含两个线性层和GELU激活函数，对多头自注意力的输出进行非线性变换。与ReLU、Swish和ELU相比，GELU提供了更平滑的梯度，有助于有效防止梯度消失或爆炸。在工程实践中，GELU的近似形式为：(5)其中，x表示输入，tanh(·)表示双曲正切函数，π表示圆周率与直径的比率。3.3. SOH评估框架基于数据准备和BERT-large LLM，本研究开发了一个全面的SOH评估框架，如图5所示。首先，在工程实践中，BMS记录不完整的充电数据，随后用于提取电压阈值和dQ/dV序列。来自未知SOH电池的dQ/dV序列将被用作电流序列。电压阈值的作用是截断完整的候选序列以匹配不完整的充电序列。非常重要的一点是，与验证和评估不同，在微调此模型时，电流序列和候选序列都是完整的，没有截断。序列填充技术直接解决了评估过程中序列长度频繁变化的挑战。接下来，将电流序列与每个已知电池的候选序列结合，形成多个模型输入。然后将这些输入通过嵌入模块、编码器层、池化器和自定义输出模块，生成输出标签。最后，根据输出标签实现精确的SOH评估。作为一个二分类任务，输出标签是0和1，分别代表匹配失败和匹配成功。例如，当对应于92.5%相似度（SOH）的候选序列成功匹配当前序列时，说明相似度在95%到90%之间。下载：下载高分辨率图片（672KB）下载：下载全尺寸图片图5. SOH评估框架。有趣的是，对于这个二分类任务，输出模块的架构提供了多种选择，所有这些选择都可以实现类似的功能。在这方面，本文在第3.4节中详细介绍了三种主流的输出模块，并在第4.2节中讨论了它们在多种模型构建策略下的评估性能，以及第4.3节中讨论了对不同阈值的敏感性。

3.4. 模型微调
尽管大型语言模型（LLMs）通过预训练具备了广泛的基础知识，但在面对特定领域或任务时可能无法发挥最佳性能。这一点在电池智能管理中尤为明显，因为不同任务之间的差异限制了BERT-large模型在零样本学习中的能力。模型微调是指在个别数据集上对预训练模型进行进一步训练，以满足特定需求。微调技术分为全微调、部分微调和参数高效微调（PEFT），这些技术在自然语言处理（NLP）、计算机视觉和语音识别中广泛使用。低秩适应（LoRA）是PEFT中最流行的方法之一，因为它在提高模型性能的同时最小化了计算资源的需求[46]。在本研究中，LoRA在模型微调过程中被应用，其中引入了两个低秩矩阵来进行参数更新：
(6)
其中，A和B表示秩为8的低秩矩阵，W表示冻结的原始参数矩阵，W'表示更新后的矩阵。
在BERT-large模型中，LoRA被应用于注意力头和输出模块，使得可更新参数仅占总参数大小的约0.5%。此外，大多数LLMs只接受基于文本的输入，因此本工作需要对组合序列进行格式转换。为了处理批量数据中不同长度的序列，模型会自动填充每个序列，使其与最长序列的长度匹配。表2展示了模型微调的主要超参数。其中，学习率采用线性衰减策略以加快收敛速度。dropout和权重衰减技术可以缓解过拟合带来的问题。优化器仍然使用BERT中预配置的AdamW。所提出方法的微调和测试都在一台标准服务器上进行，该服务器配备了Intel(R) Xeon(R) Platinum 8268 CPU（24核和48线程）、NVIDIA GeForce RTX 4090 GPU（24 GB VRAM）和256 GB RAM。

4. 结果与讨论
4.1. 在不同数据集下的结果
在本研究中，引入的四个数据集在正极材料、环境温度、充放电速率和制造商方面存在差异，这带来了一系列挑战。基于此，本节讨论了在不同数据集下使用初始策略时的验证结果，强调了所提方法的可行性、可靠性和广泛的适用性。需要注意的是，与训练集类似，所有数据集的测试集中也存在正样本和负样本之间的不平衡。图7展示了在不同数据集下的结果。对于数据集#1，10,068个正样本中有9,937个被正确识别，41,232个负样本中有41,158个被正确识别。错误分类为负样本的真实正样本数量仅占总样本的0.26%，从而获得了99.6%的总体评估准确率（acc）。对于数据集#2、#3和#4，模型性能与数据集#1相似，评估准确率分别为98.9%、98.6%和99.0%。

实际上，多样化的评估指标帮助研究人员从多个角度评估所提方法的稳定性和鲁棒性，尤其是在这项二分类任务中。与传统估计方法不同，由于类别不平衡，所提方法不能仅仅依赖准确率（acc）作为单一指标。因此，本文引入了准确率（acc）、召回率（r）、精确度（p）和F1分数（F1）来全面评估模型性能：
(8)
(9)
(10)
(11)
其中，TP表示真实标签和输出标签均为正的样本数量，TN表示真实标签和输出标签均为负的样本数量，FP表示真实标签为负而输出标签为正的样本数量，FN表示真实标签为正而输出标签为负的样本数量。
上述四个指标在评估模型性能时扮演不同的角色，揭示了分类任务中更有意义的潜在逻辑。准确率（acc）是最基本和直观的指标，但在类别不平衡的情况下可能会高估模型性能。召回率（r）关注FN，更适合那些“漏报”比“误报”更严重的任务。相比之下，精确度（p）侧重于减少误报造成的损害。F1分数（F1）是召回率和精确度的调和平均值，提供了平衡的度量，但忽略了模型在负样本上的性能。对于本工作中的SOH评估任务，二分类任务的目标是在四个指标之间实现平衡和稳定性。表3描述了评估指标。对于这四个数据集，每个评估指标都超过了95%。与其他三个数据集相比，数据集#1的评估性能略有差异，这是由于各个电池单元的退化模式不同。可以得出结论，上述结果验证了所提方法在不同数据集下的可行性、可靠性和广泛适用性。

4.2. 在多种模型构建策略下的结果
对于不同的模型构建策略，序列组合方法和输出模块架构的差异可能会影响微调后的LLM在二分类任务中的性能。因此，本节讨论了在多种模型构建策略下的验证结果。需要注意的是，除了模型构建策略的交替调整外，其他超参数设置和微调过程保持不变。此外，在交叉策略和双重策略中，用于生成输出标签的阈值m1和m2被预设为0.5。对不同阈值的敏感性在第4.3节中讨论。为了便于表示和分析，初始策略、交叉策略和双重策略分别缩写为St.1、St.2和St.3。图8展示了不同模型构建策略的评估结果。
值得注意的是，所有三种策略都成功完成了序列匹配任务，因为所有数据集的评估指标都超过了93%。以数据集#1为例，St.3的评估指标明显低于其他两种策略。St.1和St.2的模型性能相对相似。在双重策略中，当前序列和候选序列分别输入模型，然后传递给输出模块进行相似度计算，这阻止了模型从全局角度提取更深入的信息。此外，在向量压缩过程中，充电序列之间的细微差异容易丢失。虽然相似度计算适用于强调效率的检索任务，但在捕捉序列匹配任务所需的区分特征方面效果较差。总体而言，St.2是本工作中最佳的模型构建策略，因为它在多个方面具有优势。首先，当前序列和候选序列的连接有助于模型捕捉序列之间的交互，从而提高准确率。其次，St.2中的输出模块提供了一个连续的一维分数，使模型能够进行更细粒度的评估。最后，St.2提供了更大的灵活性，允许根据不同的应用场景调整阈值。可以得出结论，交叉策略在本工作中具有更高的优先级。

4.3. 对不同阈值的敏感性
交叉策略和双重策略都涉及阈值（m1和m2），这些阈值可能会影响评估性能。在模型微调过程中，不同的策略应用相应的损失函数来更新参数，这个过程不涉及阈值。然而，在测试过程中，阈值直接决定了输出标签，这可能导致评估指标的波动。因此，本节考察了所提方法对不同阈值的敏感性。对于相同的微调模型，阈值依次调整为0.1、0.3、0.5和0.9。表4展示了两种策略下的验证结果。
表4. 对不同阈值的敏感性
策略阈值 acc rap F1
交叉策略 0.1 99.6% 99.8% 98.0%
0.3 99.7% 99.4% 99.0%
双重策略 0.5 99.7% 98.9% 99.6%
0.7 99.6% 98.4% 99.1% 0.9%
99.9%
双重策略 0.1 99.3% 99.4% 96.9%
0.3 99.2% 98.1% 98.9% 97.0%
0.5 99.2% 98.5% 97.5% 98.0%
0.7 99.5% 98.4% 99.2% 98.8%
0.9 99.5% 97.6% 99.7% 98.6%
对于交叉策略，当阈值m1为0.5时，性能最佳。对于双重策略，当阈值m2为0.7时，评估性能最优。这些差异源于输出模块中分数和相似度的不同计算方法。此外，当阈值较低时，模型倾向于将更多的负样本错误分类为正样本，从而提高召回率（r）。相反，当阈值较高时，模型会将一些正样本错误分类为负样本，导致精确度（p）异常增加。

4.4. 对不同已知参考电池单元的敏感性
对于基于充电序列匹配的所提出的电池SOH评估方法，当前序列和候选序列在电压维度上的准确匹配是影响评估性能的关键因素。因此，在序列匹配过程中选择已知参考电池单元来生成候选序列，决定了所提方法的可行性、鲁棒性和适用性。在这项工作中，我们构建了一个候选池，提供了已知的参考电池及其对应的候选序列，用于充电序列匹配过程。该候选池包含了具有典型工作条件和相对完整寿命的电池，从而确保了数据的全面代表性。本节探讨了选择不同的已知参考电池是否会影响在数据集#1上的评估性能，进而验证了所提出方法的稳健性，并提供了实证证据。具体来说，来自训练集的电池#13、#64、#81、#88和#91具有相对完整的寿命，并被交替用作已知参考电池来生成候选序列。所采用的模型构建策略被设定为初始的交叉策略。表5展示了使用不同已知参考电池时的相应评估指标。

表5. 对不同已知参考电池的敏感性
| 已知参考电池 | accr | F1分数 |
|---------|------|------|
| 电池#13 | 99.5% | 98.8% |
| 电池#64 | 99.6% | 98.7% |
| 电池#81 | 99.6% | 98.7% |
| 电池#88 | 99.7% | 98.7% |
| 电池#91 | 99.6% | 98.7% |

显然，当使用不同的已知参考电池来支持充电序列匹配过程时，评估性能并未出现显著下降。对于准确性（acc），不同参考电池造成的最大变化仅为0.2%，而对于F1分数，最大变化仅为0.4%。这些结果表明，本工作中采用的基于候选池的已知参考电池选择策略是可行且稳健的。评估指标的稳定性进一步证实了所提出方法不依赖于任何特定的候选序列集合，也不会出现过拟合问题，从而为验证结果和讨论提供了更有说服力的支持。

4.5. 与其他算法的比较
几种主流且成熟的算法已被广泛验证为在标准二分类任务（如异常检测、故障诊断和相似性分析）中有效且可行。在本节中，介绍了六种具有代表性的分类算法进行比较：One-Class SVM（OCSVM）、AutoEncoder（AE）、K最近邻（KNN）、一维CNN（1D-CNN）、Transformer和BERT-base [47]、[48]、[49]。其中，AE、1D-CNN、Transformer和BERT-base是基于神经网络的模型，属于DL算法；而OCSVM和KNN则基于统计学习原理和距离度量属于ML算法。值得注意的是，Transformer的架构与BERT-large中的编码器层是一致的。BERT-base是BERT的标准版本之一，包含12个编码器层、768的隐藏状态大小和1.1亿个参数。采用BERT-base作为比较模型的一项主要目的是研究不同参数规模的LLM如何影响所提出方法的评估性能。表6展示了这些算法使用的主要超参数。模型输入与所提出方法中使用的完全一致。图9展示了每种算法的相应结果。

表6. 其他算法的超参数
| 算法 | 超参数 | |
|------------|-------------------|------------------------------------|
| OCSVM | Nu | 0.5 |
| | Kernel | RBF |
| | Gamma | |
| | AutoEncoder | Learning rate | 2e-5 |
| | Batch size | 64 |
| |Epochs | 10 |
| | Dropout | 0.3 |
| | Weight decay | 0.01 |
| | Encoder type | Linear layer |
| | Encoding_dim | 256 |
| KNN |Neighbors | 11 |
| |Weights | Uniform |
| | Metric | Euclidean |
| 1D-CNN | Learning rate | 2e-5 |
| | Batch size | 64 |
| | Epochs | 10 |
| | Dropout | 0.3 |
| | Weight decay | 0.01 |
| | Num_layers | 3 |
| | Num_filters | 100 |
| | Kernel_size | [3], [4], [5] |
| Transformer | Learning rate | 2e-5 |
| | Batch size | 64 |
| | Epochs | 10 |
| | Dropout | 0.3 |
| | num_heads | 16 |
| | hidden_size | 1024 |
| BERT-base | num_heads | 12 |
| | hidden_size | 768 |
| 下载：高分辨率图片（887KB）| |
| 下载：全尺寸图片 | |

图9. 与其他算法的比较。(a) OCSVM, (b) AE, (c) KNN, (d) 1D-CNN, (e) Transformer, (f) BERT-base

在训练时间方面，这些算法之间存在显著差异。OCSVM、AE、KNN、1D-CNN和Transformer的训练时间分别为12分钟、48分钟、8分钟和21分钟。作为基于优化的算法，OCSVM和KNN的训练相对简单，但无法利用GPU加速；而作为代表性的DL算法，AE、1D-CNN和Transformer需要更长的训练时间。值得注意的是，BERT-large模型仅需11分钟即可完成微调，这得益于Transformer架构与GPU固有的并行处理能力之间的强兼容性。这些结果突显了模型性能与计算成本之间的权衡。

对于OCSVM（图9(a)），其总体准确率（acc）和精确度（p）分别达到了82.6%和99.1%。然而，该模型在校正阳性样本方面表现不佳，召回率（r）仅为11.4%。AE（图9(b)）和KNN（图9(c)）的评估性能相似，准确率（acc）均超过93%。但是，这些模型的可靠性存疑，因为AE和KNN分别有22.6%和30.1%的阳性样本未被正确识别。对于1D-CNN（图9(d)），所有样本都被归类为阴性，表明模型完全失败。Transformer（图9(e)）的评估性能略优于AE和KNN；然而，在召回率（r）和F1分数（F1）方面明显逊色于BERT-large模型。BERT-base模型（图9(f)）采用了与BERT-large模型相同的微调配置和程序，使其在性能上显著优于其他五种算法。尽管如此，由于其可学习参数数量较少，进一步改进的潜力受到限制。通过与其它算法的比较，进一步验证了微调后的BERT-large模型在充电序列匹配方面的优异性能。

5. 结论
电池的剩余寿命（SOH）是识别电动汽车（EV）电池退化程度的关键指标，但由于工程实践中的多种因素，其评估技术上具有挑战性。在这项工作中，我们提出了一种基于微调过的LLM的充电序列匹配方法，以实现准确、便捷且可靠的电池SOH评估。为了解决特征提取复杂性和数据稀缺性等挑战，我们创新地将分类方法引入状态评估中，用近似范围替代了精确的浮点数值。针对碎片化的充电行为，通过整合由电压和充电容量组成的一维充电序列，扩大了原始数据集的样本量，而无需额外的特征工程。考虑到DL/ML的现有局限性，LLM能够在不同数据集上执行预定义任务。这项研究使用了来自311个电池的超过80,300个循环样本。验证结果表明，所提出的方法具有出色的评估性能，总体准确率超过99%。此外，在多种模型构建策略中，交叉策略被确定为最有效的。通过对不同阈值的敏感性分析，进一步完善了交叉策略和双策略的评估特性。与其他主流算法相比，所提出方法的优越评估性能得到了进一步验证和加强。这项工作为LLM在电池智能管理和其他领域的跨学科应用提供了参考。此外，在特定场景下，所提出的基于分类的方法有潜力扩展到评估其他电池状态。

在这个探索性基础上，我们将进一步探索LLM在未来应用中的可扩展性。此外，这项工作的主要局限性在于缺乏使用真实世界驾驶数据或在动态负载条件下的验证。通过与电池制造商和EV公司的合作，我们希望推动研究成果在工程实践中的广泛应用。

CRediT作者贡献声明
Zhen Zhang：撰写——原始草稿，验证，软件，形式分析，数据整理。
Yunlong Shang：撰写——原始草稿，指导，资金获取，概念构思。
Xiangjun Li：指导，资源管理，项目管理，资金获取。
Zeyu Cheng：验证，指导，软件，数据整理。
Qi Zhang：资金获取，数据整理。
Yan Li：指导，研究调查，资金获取。

数据可用性
用于支持本研究发现的数据和材料可根据合理请求向相应的作者获取。

联系信箱：

粤ICP备09063491号

热点排行