《Computers & Chemical Engineering》:Kolmogorov-Arnold network driven soft sensors for chemical processes with distributed output
编辑推荐:
提出基于Kolmogorov-Arnold网络(KAN)的软传感器框架,通过可学习B样条函数增强非线性建模能力,解决数据稀缺场景下分布输出预测的维度不匹配与可解释性问题。实验表明,该模型在苯乙烯自由基聚合中相比传统深度学习模型具有更高预测精度和更优的物理机制可视化效果。
郭伟伟|刘昂鹏|贾明伟|刘毅
浙江工业大学过程装备与控制工程学院,杭州,310023,中国
摘要
在具有分布式输出的化学过程中,由于数据有限,描述产品分布的形状对于非线性映射和可解释性提出了重大挑战,这限制了传统深度学习模型的适用性。本研究提出了一种基于Kolmogorov-Arnold网络框架的深度学习软传感器,以提高产品分布的预测性能。该框架使用可学习的B样条函数替代深度学习模型中的线性权重,从而实现细粒度的局部非线性拟合,减少对大型数据集的依赖,并有效捕捉复杂的变量交互作用。通过可视化B样条函数,可以解释所提出模型的预测逻辑及其潜在机制,从而提高软传感器的可解释性。来自苯乙烯自由基聚合过程的实验结果表明,在数据有限的场景下,Kolmogorov-Arnold网络模型不仅具有高预测精度,还具有出色的非线性建模能力和可解释性。
引言
分布式输出化学过程中产品的性能受到其分布特性的显著影响,特别是分子量分布(MWD)的宽度和偏度,这些特性对聚合物的加工性能和最终用途性能至关重要。例如,聚合物的MWD会强烈影响产品的后续加工效率(Bharathi和Moore,2000年)。这些分布特性难以通过硬传感器在线准确识别,且过程通常会伴随严重的延迟。软传感器是一种有效的替代方案,因为它们能够基于易于测量的过程变量建立输入-输出模型(Jia等人,2023年)。分布式输出过程的软传感器建模面临一个关键挑战:输出必须是在单一输入下的完整概率密度函数(PDF),这导致了严重的输入-输出维度不匹配(Lynd和Hillmyer,2007年;Domanskyi等人,2020年)。单一操作条件无法完全捕捉整个分布,导致从过程数据中获取的信息极其有限。因此,模型必须从稀疏数据中提取关键变量交互作用(Venkatesan等人,2025年)。此外,由于这些过程中的多尺度及强耦合的非线性机制,软传感器需要强大的非线性映射来准确描述过程,并具有很强的可解释性,以便突出关键变量以确保过程安全(Jia等人,2025年)。
近几十年来,研究人员提出了各种模型来解决分布式输出软传感器建模中的这些关键问题,包括统计学习和机器学习,这些模型主要用于预测分布式输出过程的特性。深度学习(DL)因其强大的软传感器能力而在机器学习中受到了广泛关注(Jia等人,2025年)。统计学习模型主要包括偏最小二乘法(PLS)(Henniges等人,2009年)和高斯过程回归(GPR)(Deringer等人,2021年)。Song等人提出了一种基于PLS的数据驱动建模和优化方法用于批次冷却结晶(Song等人,2022年),Zhu等人开发了一种用于具有分布式输出的化学过程中的质量推断的偏置补偿GPR模型(Zhu等人,2024年)。然而,随着数据量的增加,更新这些模型可能会非常耗时和费力,因为需要手动调整和快速增加的计算成本。相比之下,机器学习模型可以自动学习特征并减少人工干预。Liu等人提出了一种基于支持向量回归(SVR)的软传感器用于分布式产品预测(Liu等人,2015年),Guo等人开发了一种用于分布式输出系统的B样条深度学习模型(Guo和Wang,2005年)。然而,在数据稀缺的情况下,这些模型的预测精度往往受到限制,因为它们的非线性表示不够充分。深度学习为分布式输出过程中的软传感器提供了一个有效的框架,得益于强大的非线性建模、自动特征提取和灵活的架构。例如,Gonzaga等人提出了一种基于ANN的软传感器用于聚对苯二甲酸乙二醇酯的在线估计(Gonzaga等人,2009年),Mora-Mariano等人使用深度学习模拟了苯乙烯聚合过程中的分子量分布(Mora-Mariano等人,2025年)。Guo等人提出了一种基于时间图卷积网络的软传感器模型,用于预测苯乙烯自由基聚合过程中的分子量分布(Guo等人,2024年)。与统计学习所需的高计算复杂性和手动参数调整以及传统机器学习在高维输出建模中的局限性相比,深度学习通过其多层网络和模块化架构有效处理多源数据和复杂的非线性关系,从而实现高维PDF的准确预测。尽管有这些优势,深度学习在数据稀缺的场景以及有限的可解释性和细粒度非线性拟合方面仍面临挑战,这促使进一步的研究(Mersch等人,2025年)。
Kolmogorov-Arnold网络(KAN)基于Kolmogorov-Arnold表示理论,通过用可学习的单变量B样条函数替代传统的线性权重,从而实现更精细和更灵活的局部拟合(Liu等人,2024年;Koenig等人,2024年;Yang等人,2025年;Kashefi,2025年)。得益于B样条的局部支持,KAN能够在预测分布的离散区间(例如,晶体尺寸或聚合物链长的区间)上进行局部细化,并具有紧凑的参数化,有助于缓解输入-输出维度不匹配问题(Zaidi,2012年)。可视化这些可学习的激活函数揭示了KAN如何捕捉非线性机制并识别关键变量及其影响,从而提高了可解释性。KAN将B样条激活集成在分层模块化网络设计中,允许灵活的非线性近似,而不改变整体结构。这种紧凑的B样条参数化结合显式的激活可视化,提高了数据效率和模型透明度,解决了传统深度网络在数据稀缺场景中的局限性。
本研究提出了一种基于KAN的软传感器框架,以提高具有分布式输出的化学过程中深度学习模型的性能。通过用可学习的B样条函数替代传统深度网络中的线性权重,该框架能够在产品分布的不同区间内进行灵活的局部调整。这种结构不仅能够捕捉过程数据中的微妙和复杂的非线性关系,还能通过可视化B样条激活函数提高模型的可解释性。在苯乙烯自由基聚合案例中的实验结果表明,基于KAN的模型在数据有限的情况下实现了显著更高的预测精度,并比传统深度学习模型更准确地重建了整个产品分布。此外,学习到的激活函数反映了潜在的物理规律,表明所提出的框架确保了机制一致性。总体而言,它为复杂化学过程中的分布式输出建模提供了一种实用且通用的解决方案。
部分摘录
具有分布式输出的化学过程
在具有分布式输出的化学过程中,产品分布会随操作条件的变化而变化(Zaidi,2012年)。图1中的数据部分显示了在第m个操作条件下的产品分布。假设在时间t第m个操作条件下,产品尺寸范围对应于第k个产品尺寸区间,那么该区域内的数据可以表示为
mtk∈?×NT,其中S是变量数量,N_T是时间步数总数,数据集为
基于KAN的模型框架
KAN是一种旨在处理高维非线性映射的深度学习架构。通过用可学习的B样条函数替代传统的线性权重,KAN为具有分布式输出的化学过程中的软传感器提供了一种高效且可解释的建模方法。KAN中的B样条函数非常适合建模不同尺度的数据的非线性,而无需过度依赖大量数据。因此,这些特性有助于
实验结果与讨论
为了评估基于KAN的深度学习软传感器的实际应用,本研究以苯乙烯自由基聚合为例进行了案例研究。基线模型包括LSTM、CNN、Transformer和MLP:LSTM捕捉时间依赖性,CNN通过局部连接和权重共享提取局部模式,Transformer模型通过多头自注意力捕捉全局依赖性,MLP作为基线模型,以突出KAN的可学习B样条激活的优势。五个基线的参数
结论
为了解决具有分布式输出的化学过程中非线性建模和模型可解释性不足的问题,本研究提出了一种基于KAN框架的深度学习方法。该方法将KAN的可学习B样条函数与深度学习的多层特征提取能力相结合,从而精确建模变量之间的非线性交互作用,实现高精度的产品预测
作者致谢
郭伟伟:方法论、软件、数据分析、写作——原始草稿。
刘昂鹏:数据分析、写作——审稿。
贾明伟:方法论、实验。
刘毅:资金获取、方法论、项目管理、监督、写作——审稿与编辑。
术语表
| ARMSE | 平均均方根误差 |
|---|
| CNN | 卷积神经网络 |
|---|
| DL | 深度学习 |
|---|
| FFN | 前馈网络 |
|---|
| GPR | 高斯过程回归 |
|---|
| KAN | Kolmogorov-Arnold网络 |
|---|
| KANCNN | 基于KAN框架的改进CNN模型 |
|---|
| KANLSTM | 基于KAN框架的改进LSTM模型 |
|---|
| KANTransformer | 基于KAN框架的改进Transformer模型 |
|---|
| KAT | Kolmogorov-Arnold表示定理 |
|---|
| LSTM | 长短期记忆网络
|---|
| MLP | 多层感知器
|---|
| MWD | 分子量分布
|---|
| PDF | 概率密度函数
|---|
| PLS | 偏最小二乘法
|---|
符号说明
| b | 偏置项
|---|
| b′ | KANCNN中全连接层的偏置
|---|
| bout | KANLSTM中全连接层的偏置
|---|
| bq | 查询特征向量的偏置项
|---|
| bu | 关键特征向量的偏置项
|---|
| bv | 值特征向量的偏置项
|---|
| by | KANTransformer中的最终偏置项
|---|
Bp,d(z)度数为d的B样条基函数
cl,j,i,p可训练系数
Cm,tk更新后的单元状态
C′m,tk候选单元状态
| Conv(., .) | 卷积操作
|---|
Cl-1第l-1层的输入通道数
| C |
|---|
未引用的参考文献
(Hu等人,2025)
CRediT作者贡献声明
郭伟伟:写作——原始草稿、软件、方法论、数据整理。
刘昂鹏:写作——原始草稿、数据整理。
贾明伟:软件、方法论。
刘毅:写作——审稿与编辑、监督、方法论、资金获取。