促进电池质量分类：利用序列采样数据增强技术进行早期寿命预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《eTransportation》：Facilitating battery quality classification: Early life prediction with sequence-sampling data augmentation

【字体：大中小】 时间：2026年01月28日 来源：eTransportation 17

编辑推荐：

　　提出锂离子电池全生命周期终点寿命预测框架，结合序列采样虚拟电池构建与半监督学习，利用掩码自动编码器自动提取早期循环数据特征，仅需少量标注数据即可实现2.6%的验证集MAPE精度。

郭东旭|卢天鹏|孙涛|赖鑫|韩学兵|郑月久

上海科技大学机械工程学院，上海，200093，中国

摘要

随着电动交通系统的快速发展，锂离子电池（LIBs）的早期质量分类对于提高电池系统在整个生命周期内的整体性能至关重要。然而，LIBs复杂的退化机制导致在相同条件下各个电池的老化速率存在显著差异，这直接影响了早期质量分类的准确性。为了解决这一挑战，本文提出了一种新的框架，用于预测LIBs的整个生命周期结束（EOL），该框架结合了基于序列采样的虚拟电池构建方案和半监督学习。通过增强早期循环数据并利用掩码自编码器（MAE）的自动化特征提取能力，该框架仅使用最少的标记数据即可实现高精度的EOL预测。实验验证表明，验证集上的平均绝对百分比误差（MAPE）可以降低到2.6%。这项研究不仅提供了一种利用最少标记数据进行早期电池质量分类的新方法，还通过高效的数据利用和精确的预测能力，为提高电池组效率和预筛选异常电池提供了强有力的支持。

引言

在全球推动绿色和低碳发展的背景下，锂离子电池（LIBs）在现代电动交通系统的能量存储和供应中发挥着关键作用，包括新能源汽车[1]、电动船舶[3]、电动列车[4]及相关技术[5]。为了满足电动汽车等大规模应用的需求，需要将大量单个电池组装成更大的电池组[6]、[7]。在这个集成过程中，有效的电池质量分类对于确保电池系统的整体性能、耐用性和安全性至关重要[8]、[9]。

目前的质量分类方法主要依赖于在新鲜电池中测量的静态参数，包括初始容量、内阻（IR）或其他在电池成型、分级或性能测试期间可获得的特征指标[10]、[11]、[12]。Li等人比较了五种电池分类方法，表明低频阻抗一致性是实现电池分组动态特征均匀性的关键[13]。Rumpf等人通过实验表征量化了1100个商用LiFePO₄电池的制造差异，为电池匹配和模块设计提供了统计指导[14]。Lyu等人提出了一种基于电化学模型派生内部标准的电池质量分类方法，与传统方法相比，该方法提高了电池组的循环寿命和充电状态（SOC）的均匀性[15]。Xia等人开发了一种基于自组织映射神经网络聚类的电池质量分类框架，实现了分组模块中SOC的一致性[16]。

然而，LIBs多样的退化路径和固有的化学复杂性导致即使在相同的操作条件下，各个电池的老化速率也存在显著差异[17]、[18]。这种变异性直接影响了早期质量分类的准确性，并降低了后续电池组集成的安全性和可靠性[19]。An等人建立了一种电路建模方法来研究并行LIB模块的排序，展示了电池间异质性对模块容量的显著影响，并建议在排序标准中包含基于老化的描述符[20]。Wang等人通过实验发现，串联连接的LIB模块中的容量/电阻演变逐渐恶化，这种恶化因基于电压的均衡策略而加剧[21]。因此，研究能够快速预测电池寿命并进行基于早期循环退化的早期质量分类的方法对于缩短电池研究周期和确保最佳电池组性能至关重要[22]。

近年来，越来越多的研究开始探索利用极其有限的早期循环退化数据来快速分类电池寿命的可行性[23]、[24]、[25]。Severson等人首次提出了这一概念[26]。他们分析了放电容量-电压曲线的差异，并使用逻辑回归模型对电池寿命进行了分类。此后，Yang等人[27]、Xu等人[28]和Zhang等人[29]也提出了基于更多特征和不同机器学习模型的早期寿命预测和质量分类方法。然而，这些数据驱动的方法通常需要超过25%的生命周期数据来进行训练和参数更新[30]。对于一个典型的寿命超过2000次的LIB来说，至少需要前500次循环才能进行准确预测[31]。这种对大量数据的依赖导致了过长的实验时间和增加的研发成本，并且无法满足在生产过程开始时使用非常有限的数据进行快速质量分类的需求[32]。

Stock等人开发了一种用于早期电池质量分类的机器学习框架，将循环依赖性显著降低到20%，同时保持了高预测准确性[33]。Zou等人系统地分析了基于退化机制的100多个提取特征与电池寿命之间的相关性，开发了用于电池质量分类的机器学习模型[34]。为了进一步解决数据限制问题，最近的研究系统地探索了先进的学习范式。例如，Che等人首次建立了带有在线模型校正的迁移学习框架，以适应不同电池[35]。在此基础上，他们进一步将方法发展为半监督自学习范式，利用伪标签有效利用未标记数据[36]。这些发现强调了利用有限的早期循环数据进行准确电池寿命分类的巨大潜力。然而，实际的早期分类算法应该仅基于最初的三到五个循环进行操作，这是由于生产规模电池测试中的关键时间和成本限制[37]、[38]。

为了解决这些挑战，本文提出了一种基于掩码自编码器（MAE）的LIBs早期寿命预测框架，旨在支持快速和准确的电池质量分类。所提出方法的总体框架如图1所示。该五组件框架的核心创新包括一种基于序列采样的虚拟电池构建方法，该方法通过使用初始三个循环中的未标记电压、电流和SOC数据来增强有限的实验数据，从而实现MAE模型的大规模自监督预训练，使模型能够自动提取与退化相关的特征；以及一种微调程序，该程序使用最少的标记数据来适应预训练模型，以实现准确的寿命结束（EOL）预测，最终促进更可靠的质量分类方法。

本文的主要贡献可以概括如下：

(I)
提出了一种基于序列采样的虚拟电池构建方案和半监督学习框架用于寿命预测。该框架使用未标记数据对模型进行预训练，并用少量标记数据进行微调，从而实现高预测准确性。
(II)
采用MAE从早期循环的充放电数据中自动提取特征。该结构在来自前三个循环的大规模未标记数据上以无监督方式进行了预训练，消除了手动特征工程的主观性。
(III)
仅使用LIB数据的前三个循环，该方法能够提前预测整个生命周期的EOL，显著提高了电池组在其服务寿命内的性能均匀性。

本文的其余部分组织如下。第2节详细介绍了加速老化实验和大规模数据集的构建；第3节开发了结合虚拟电池构建和早期寿命预测的电池分类框架；第4节提供了全面的算法结果和比较分析；第5节提供了结论性意见。

实验数据集

鉴于LIBs的服务寿命通常长达数千次循环，采用了加速老化测试来促进与早期性能分类目标一致的快速评估。因此，使用圆柱形18650电池进行了大规模的加速老化测试，详细规格总结在表1中。

实验设置（示意图见补充图S1）包括四个主要组成部分。

(1)
DGBELL BTH-150C

方法论

本节首先介绍了基于序列的虚拟电池构建方法，该方法有助于为MAE增强的寿命预测框架系统地增强数据。接下来，详细阐述了基于MAE的寿命预测方法，包括在结合了实验数据和虚拟数据集上的预训练以及随后的领域特定微调。最后，提出了一种利用预测寿命的早期分类策略，以提高容量一致性

结果与讨论

本节展示了验证所提出方法在快速电池分类方面的有效性。为了严格防止模型评估期间的数据泄露，数据集首先在实验电池级别被划分为独立的训练集和验证集。具体来说，训练集仅包含实验电池的20%，用于后续的数据增强、MAE模型预训练和微调。

结论

本文提出了一种基于掩码自编码器的半监督学习框架，通过准确预测锂离子电池的整个生命周期结束（EOL）来促进其早期质量分类。为了解决数据稀缺和长期测试成本高昂的挑战，核心贡献是一种基于序列采样的数据增强技术，该技术构建了一个大规模的虚拟电池数据集。这个主要未标记的数据集首先被用于

CRediT作者贡献声明

郭东旭：撰写——原始草稿、方法论、调查、形式分析、概念化。卢天鹏：验证、方法论、数据管理。孙涛：调查、资金获取、形式分析、数据管理。赖鑫：撰写——审阅与编辑、监督、调查、资金获取。韩学兵：可视化、监督、方法论。郑月久：监督、项目管理、资金获取。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Gemini 2.5来提高手稿的可读性和语言质量。使用该工具后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了国家自然科学基金（NSFC）（资助编号52477216、52507260、52277222和52177217）、上海科学技术发展基金（资助编号22ZR14445000）以及人工智能促进研究范式改革跨越项目的资助。

联系信箱：

粤ICP备09063491号

摘要

引言

实验数据集

方法论

结果与讨论

结论

CRediT作者贡献声明

写作过程中生成式AI和AI辅助技术的声明

利益冲突声明

致谢

热点排行