编辑推荐:
推力轴承温度预测中,针对跨航次分布偏移(Kolmogorov-Smirnov检验达0.57)和Transformer注意力退化问题,提出PM-KMNet混合架构。通过科尔莫戈洛夫-阿诺德网络(KAN)实现物理参数自适应估计,结合Mamba状态空间模型补偿残差动态,并采用渐进训练策略(物理优先→残差校准→联合调优)避免梯度偏置。在VLCC真实数据(17.5万样本)验证中,模型RMSE达0.667°C,R2为0.9656,物理分支解释82.6%动态,参数α≈0.91,β≈0.52符合摩擦学理论。
张萌|刘继龙|韩冰|董胜利|崔彤|任彦
沈阳航空航天大学人工智能学院,中国沈阳,110136
摘要 准确预测推力轴承垫的温度对于监测船舶推进系统的健康状况至关重要。然而,传统的数据驱动方法在面对分布外(OOD)泛化 问题时表现不佳——在某次航行中训练出的模型往往无法适应具有不同操作特性的后续航行。这一挑战因海上领域跨条件操作数据的稀缺而加剧,商业敏感性和操作多样性严重限制了数据的可用性。同时,最近的研究表明,基于Transformer的时间序列模型存在注意力退化 现象,即注意力机制会简化为简单的平均操作。
本文提出了PM-KMNet (物理引导的Mamba-KAN网络),该混合框架通过三项创新解决了这些问题。首先,我们提出了一种串行物理-神经架构 ,其中由Kolmogorov–Arnold网络(KAN)参数化的热力学模型作为预测核心,而基于Mamba的状态空间模型则用于补偿残余动态——通过选择性状态空间公式避免了注意力退化。这种设计在结构上强化了物理规律的主导地位,而不是将物理定律视为软约束。其次,我们引入了一种渐进式训练策略 ,包括物理优先级处理、残差校准和联合微调,以防止神经组件在优化过程中绕过物理规律。第三,KAN的样条基激活函数实现了自适应物理参数估计 ,具有可解释且平滑的变化。
我们在一个来自运营中的VLCC(Very Large Container Carrier)的罕见跨航行数据集上验证了PM-KMNet的性能,该数据集包含175,672个样本,涵盖了在对比装载条件(载货与压载)下的两次完整航行。在显著的分布偏移(11个特征上的平均Kolmogorov–Smirnov统计量为0.570)情况下,PM-KMNet的均方根误差(RMSE)为0.667°C,R 为0.9656,90%的误差低于0.94°C。能量分解显示物理分支解释了82.6%的热动态变化。消融研究证实渐进式训练最为关键(去除后RMSE增加了132.5%),而学习到的参数(α ≈ 0 .91 β ≈ 0.52 )与摩擦学理论一致,验证了物理可解释性。所展示的跨航行泛化能力满足了船舶行业向自主操作转型的关键需求。
引言 远洋船舶在动态环境中运行,推进系统的可靠性对安全和效率至关重要[1]、[2]、[3]。作为核心组件的推力轴承垫温度表现出受热力学原理支配的热行为[4]、[5]。然而,由于分布外(OOD)泛化 问题,准确的温度预测仍然具有挑战性:在有限历史航行数据上训练出的模型在应用于具有不同海水温度或货物载荷的新场景时往往性能下降[6]、[7]。这一问题因机械参数(如摩擦系数和热惯性)的不可避免的漂移而更加严重,这使得静态分析模型变得不适用[8]、[9]。
当前的方法面临一个根本性的二分法。深度学习模型虽然在模式识别方面强大,但作为“无视物理”的统计近似器,容易过拟合特定航行的偏差[10]、[11]。相反,基于第一原理的物理模型虽然确保了可解释性,但缺乏捕捉老化机械中复杂退化因素的灵活性[4]、[12]。
物理信息机器学习(PIML)试图弥合这一分歧[13],但现有的架构通常依赖于“并行融合” 策略,其中物理约束仅作为正则化项[14]。我们认为这种设计存在一个关键的结构缺陷:梯度病理 。由于数据驱动分支的收敛速度比物理分支快,神经网络倾向于找到绕过物理定律的优化“捷径”[15]。结果,这些耦合模型无法将低频参数漂移与高频环境干扰分开,从而在非稳态条件下影响了可靠性[16]。
为了解决这一冲突,我们引入了物理引导的Mamba-KAN混合网络(PM-KMNet) 。我们没有将物理规律视为辅助约束,而是将其直接嵌入到预测核心中[12]、[14]。这强化了层次依赖性:物理定律支配基线动态,而神经组件仅补偿物理简化无法解释的残差。我们选择KAN是因为其符号回归能力(捕捉漂移的物理参数)[12],以及Mamba的高效瞬态建模能力(处理残余动态)[10]、[11]、[17]。
本工作的贡献有三方面:
1. 通过串行融合恢复物理主导地位: 我们提出了一个混合框架,其中符号物理控制器 (使用Kolmogorov–Arnold网络,KAN)动态识别时变热力学系数的低维流形。这与残差补偿器 (基于Mamba SSM)相结合,用于捕捉高频瞬态,从而在结构上确保神经预测遵循物理基线。
2. 非对称学习动态: 为了缓解优化冲突,我们引入了一种课程学习策略(物理热身 → 残差校准 → 联合微调)以及非对称学习率调度 。通过在早期训练中保持300:1的学习率比例,我们确保物理参数在神经补偿激活之前收敛,防止快速收敛的神经网络绕过物理约束[15]。
3. 经过验证的OOD鲁棒性: 在真实世界的VLCC数据集上的实验表明,与最先进的基线方法相比,PM-KMNet显著降低了未见航行中的预测误差[6]。除了准确性之外,该模型还展示了模式发现能力 ,成功恢复了与热力学机制一致的可解释参数漂移。
本文的其余部分组织如下。第2节回顾了相关工作。第3节介绍了所提出的方法论。第4节描述了实验设置,并展示了包括消融研究、敏感性分析、跨船舶泛化和部署评估在内的全面结果。第5节讨论了意义和局限性。第6节总结了本文。
相关研究 有效的船舶系统预测需要平衡数据驱动的灵活性和物理一致性。本节将我们的方法置于三个研究领域中进行背景介绍:时间序列预测中的注意力机制、物理信息机器学习,以及解决这些局限性的新兴架构。
方法论 本节介绍了用于跨航行轴承温度预测的物理引导的Mamba-KAN混合网络(PM-KMNet)。我们描述了问题表述、整体架构、物理信息参数估计、残差补偿和渐进式训练策略。
实验设置 数据来源。 实验数据来自COSCO航运能源运输有限公司运营的两艘船舶。主要船舶是VLCC 远孚洋 (IMO: 9843314),其主要参数在表3中总结。为了评估跨船舶泛化(第4.7节),我们还使用了油轮远北海 (IMO: 9843352)的操作数据,其参数在表4中总结。这两艘船舶由相同的运营商和数据采集基础设施支持。
讨论 本节讨论了我们的发现对物理信息机器学习的影响,并指出了未来研究的方向。
结论 本文提出了PM-KMNet,一种用于跨航行轴承温度预测的物理引导的Mamba-KAN混合网络。该框架引入了三项关键创新:(1)串行物理-神经架构 ,其中基于KAN的参数估计提供预测核心,而基于Mamba的残差补偿捕捉未建模的动态,从而在结构上强化了物理规律的主导地位(82.6%),同时保持了神经系统的灵活性(17.4%);(2)渐进式训练策略 ,包括三个
CRediT作者贡献声明 张萌: 监督。 刘继龙: 写作——审稿与编辑,撰写——初稿,可视化,验证,软件,资源,项目管理,方法论,概念化。 韩冰: 资源,数据管理。 董胜利: 数据管理。 崔彤: 监督。 任彦: 监督。
写作过程中生成式AI和AI辅助技术的声明 在准备本工作时,作者使用了ChatGPT来润色语言和提高可读性。使用该工具后,作者根据需要对内容进行了审阅和编辑,并对出版物的内容负全责。
利益冲突声明 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢 作者感谢COSCO航运能源运输有限公司提供了VLCC远孚洋和油轮远北海的操作数据。