Time-FLM：一种通用的大型模型，用于批量处理过程的时间序列预测

《Knowledge-Based Systems》：Time-FLM: Universal Large Model for fed-batch process Time Series Forecasting

【字体：大中小】 时间：2026年02月18日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对连续发酵工艺中传统时间序列模型泛化能力不足的问题，本文提出Time-FLM模型，结合Transformer架构、因果自注意力机制和混合专家机制，开发了适配批次添加工艺的大规模数据集FLM-Data，实验表明该模型在零样本和微调场景下均优于现有方法。

孙一飞|严雪峰

教育部能源化工过程智能制造重点实验室，华东理工大学，上海，200237，中国

摘要

时间序列数据是建模现实世界动态系统的主要方式。然而，领域异质性往往限制了统一时间序列基础模型的泛化能力，导致在特定应用中的性能不佳。为了解决这一挑战，我们提出了Time-FLM，这是一种专为 fed-batch（分批）过程设计的多变量时间序列预测的统一基础模型。Time-FLM采用了增强因果注意力的Transformer架构和专家混合（Mixture-of-Experts, MoE）堆叠机制，能够有效表示生物反应器的非线性和动态行为。我们进一步开发了一种专为fed-batch过程数据设计的预训练策略，支持具有不同输入上下文长度的灵活预测范围。此外，我们还发布了FLM-Data，这是一个包含超过400万个数据点的真实世界fed-batch数据集，涵盖了四个生产过程和多种采样频率。实验评估表明，Time-FLM在零样本（zero-shot）性能上显著优于预训练的时间序列基础模型，并且在针对特定任务进行充分微调后，其性能超过了大多数现有的深度学习方法。这些结果突显了领域自适应时间序列基础模型在复杂工业过程建模中的潜力。

引言

时间序列数据是表示现实世界动态系统的主要方式，广泛应用于能源、气候、金融和工业等多个领域（L [25]）。由于它们的内在复杂性和分布变异性，分析时间序列数据是一项具有挑战性的任务；然而，它在揭示领域特定知识和优化决策过程方面发挥着关键作用[3]。传统上，时间序列预测模型是使用针对特定端到端任务（end-to-end tasks）训练的统计或深度学习方法开发的（X [15]）。虽然这些方法在数据量较大时表现良好，但在样本有限或为零的情景下往往失效。与连续过程相比，批量过程通常每天只进行有限次的运行，导致数据稀缺——这在生物过程发酵等长时间、高成本的程序中尤为明显。近年来，大型语言模型（Large Language Models, LLMs）的广泛应用激发了对统一建模方法的探索，因为它们具有强大的零样本推理和泛化能力（[4]; J [29]）。鉴于时间序列数据与自然语言处理（Natural Language Processing, NLP）中的文本数据之间存在很强的相似性，利用大型语言模型的训练范式来构建统一的大规模时间序列模型已成为应对零样本挑战的一个有前景的方向。具体来说，这两种模式都需要从序列标记（tokens）中学习有意义的语义：时间序列中的数值观测值就像文本中的单词一样，携带依赖于时间或语法依赖性的上下文语义。此外，时间序列建模面临的挑战与NLP中的挑战类似，包括跨异构尺度的数值语义表示（类似于词汇不平衡）、变量间的尺度不匹配（类似于标记间的频率变化），以及不规则或缺失的采样（类似于变长和不完整的文本序列）。这些结构上的对应关系为将LLM训练范式应用于时间序列建模提供了坚实的基础。

传统的时间序列预测方法通常作为端到端模型在特定数据集上进行训练，通过定义固定的输入和输出序列长度来学习从历史观测到未来预测的映射。在统计学习中，自回归积分移动平均（Autoregressive Integrated Moving Average, ARIMA）模型[22]通过其自回归（AR）和移动平均（MA）组件捕捉时间序列中的线性依赖性。另一方面，支持向量回归（Support Vector Regression, SVR）[14]则拟合一个最小化估计值和真实值之间预测误差的超平面。然而，这些方法在模拟长期依赖性方面往往能力有限，难以捕捉复杂的非线性模式。

随着深度学习的出现，时间序列预测取得了显著进展。深度神经网络提供了强大的特征提取和非线性建模能力，为序列预测提供了新的视角和方法论。循环神经网络（Recurrent Neural Networks, RNNs）[9]及其变体（如长短期记忆网络Long Short-Term Memory networks, LSTMs）[11]旨在捕捉序列中的短期和长期依赖性，从而提高预测性能。Transformer[28]架构由于其自注意力机制在自然语言处理中取得了显著成功，已被广泛用于时间序列预测。例如，Informer [40]通过ProbSparse自注意力降低了长序列的计算复杂性。后续模型如Autoformer [34]和FEDformer [34]分别通过结合变量自相关机制和季节趋势分解进一步提升了性能。基于这些进展，提出了一些面向任务的Transformer模型，以解决实际时间序列应用中的挑战，如用于空气质量预测的多粒度时空融合[36]、考虑频率的非平稳建模用于剩余使用寿命估计[6]，以及在缺失值下的稳健多变量预测[36]。

PatchTST [23]引入了补丁嵌入（patch embedding）和通道独立建模（channel-independent modeling），为处理时间序列数据提供了一种通用范式。尽管这些模型取得了成功，但它们通常需要大量的训练数据。当模型参数数量超过可用数据时，性能往往会下降。此外，它们通常需要训练多个模型来适应不同的预测范围，这限制了它们在现实世界应用中的一致性和稳健性。

近年来，LLMs的快速发展对时间序列预测领域产生了深远影响。利用它们在上下文理解、模式识别和少样本学习方面的强大能力，LLMs不仅引入了方法论创新[13]，还重新定义了该领域的研究范式[35]。这种跨学科整合并非偶然：一方面，时间序列和自然语言都是序列性的，并表现出类似的自回归生成特性；另一方面，LLMs通过大规模预训练获得的推理能力可以弥补传统时间序列模型在领域适应性和可解释性方面的局限性。因此，使用基于LLM的架构构建大规模时间序列模型已成为该领域日益关注的研究焦点（X [18]）。

fed-batch培养（Fed-batch cultivation）[21]是生物化学和化学工程中常用的模式，特别是在微生物发酵和细胞培养过程中。与连续过程不同，fed-batch操作的核心特点是在反应器中分阶段添加营养物质，而不是一次性添加所有成分。这种分阶段喂养策略允许操作员根据培养过程的变化需求动态调整营养供应，从而优化生长和代谢条件。例如，在微生物发酵中，fed-batch策略有助于避免高浓度营养物质引起的抑制，延长发酵时间，并在过程结束时一次性收获目标产品。因此，fed-batch过程中的每个批次都是独立的，数据采样必须遵循批次边界。然而，为连续过程设计的大型时间序列模型通常不符合fed-batch场景的采样和结构要求。直接将这些模型应用于fed-batch预测任务往往会导致性能下降，因为它们无法考虑批次独立性和动态变异性，从而导致有偏差或不准确的预测。

为了解决这些挑战，我们提出并开发了一个针对fed-batch过程的大型通用时间序列基础模型，命名为Time Series Fed-batch Large Model（Time-FLM）。我们的贡献如下：

1. 我们引入了Time-FLM，这是一种用于fed-batch场景的时间序列预测基础架构。为了明确模拟fed-batch过程的分阶段特性，我们提出了一种时间阶段嵌入（Time Stage embedding）方案，并将其集成到时间阶段感知的专家混合（Time Stage-aware Mixture-of-Experts, MoE）框架中，以实现稀疏计算。Time-FLM在保持高计算效率的同时，显著提高了fed-batch任务的零样本预测准确性。

2. 我们提供了一个大规模的工业fed-batch数据集FLM-Data，其中包含来自四个真实世界生产过程的数据，超过400万个数据点。我们提供了一种与各种fed-batch场景兼容的批次感知数据加载方法，并提出了一种用于预训练大型时间序列模型的动态[MASK]策略。

3. 我们在FLM-Data上对Time-FLM进行了预训练，并进行了广泛的比较实验。结果表明，Time-FLM在零样本设置中优于通用时间序列模型。此外，在全样本任务中，经过微调的Time-FLM的表现与标准端到端模型相当或更优。

虽然大规模预训练显著增强了零样本泛化能力，但需要注意的是，对于大多数数据驱动模型来说，极其稀疏或高度不一致的时间序列仍然具有挑战性[38]。在这项工作中，我们主要针对现实中的工业fed-batch场景，其中历史数据有限，但表现出结构化的时间模式和阶段规律性。Time-FLM通过利用参数共享、时间阶段感知的专家路由以及在异构fed-batch数据集上的跨过程预训练，在此类条件下提高了鲁棒性。

章节片段

零样本预测的预训练

这些模型结合了大规模参数和先进的架构设计，能够在大规模数据集上进行训练。TimeGPT-1 [10]是第一个引入基于Transformer的时间序列预测序列生成模型的，提供了零样本预测能力和API级别的微调支持。TimesFM [7]构建了一个仅解码器的基础模型，适用于各种领域、预测范围和时间粒度的全零样本预测。

方法

我们提出了Time-FLM，这是一种基于专家混合（Mixture-of-Experts）设计的仅解码器Transformer架构。该模型包括三个关键组件：（1）时间阶段嵌入（Time Stage Embedding），（2）因果自注意力（Causal Self-Attention），以及（3）专家混合（Mixture-of-Experts）。据我们所知，我们是第一个为fed-batch过程中的大型时间序列模型专门设计数据加载和训练方法的人。Time-FLM在通用大规模时间序列预测中显著提高了零样本预测性能。

FLM-Data

预训练大规模时间序列模型需要访问大量高质量的数据。然而，现有的开源大规模时间序列数据集（如LOTSA Data [32]、BasicTS+ [24]、Google Trends、Wiki Pageviews和Time-300B [35]）都是基于连续过程的，目前仍缺乏针对fed-batch过程的公开可用数据集和数据加载方法。连续过程通常是持续进行的，表现出全局周期性和局部

开发环境和参数设置

所有实验均使用Python 3.11和PyTorch 2.6深度学习框架进行。实验在配备Intel(R) Xeon(R)处理器E5-2690 @ 2.90 GHz CPU、128 GB RAM和NVIDIA A100 GPU（80 GB）的服务器上进行，使用BF16精度。所有实验都使用相同的硬件环境和软件配置，以确保公平和一致的比较。

所有时间序列数据都使用z分数归一化进行了独立标准化，

结论

本文提出了一个针对批处理喂养过程的大规模预训练框架。所提出的Time-FLM框架通过利用时间阶段嵌入（Time Stage embeddings）显式编码采样点的阶段信息，支持在灵活的预测范围内进行零样本时间序列预测。此外，引入了一种具有时间阶段感知的专家混合（Time Stage-aware Mixture-of-Experts）机制的混合Transformer架构，以提高泛化性能

未来工作

尽管Time-FLM表现出强大的性能，但在极端稀疏、高噪声或严重不一致的时间序列建模方面仍然是一个挑战，特别是在长预测范围和数据受限的工业环境中。未来的工作可能会研究更先进的预训练策略和架构改进，以进一步提高在这些极端条件下的鲁棒性。有前景的方向包括结合显式的缺失值建模、引入更强的领域特定先验等

贡献声明

孙一飞：概念化、形式分析、研究、方法论、验证、撰写-原始草稿。严雪峰：数据整理、资金获取、研究、监督、撰写-审稿编辑。

未引用参考文献

[20,37]

CRediT作者贡献声明

孙一飞：撰写-原始草稿、验证、方法论、研究、形式分析、概念化。严雪峰：撰写-审稿与编辑、监督、研究、资金获取、数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言