时间序列数据是表示现实世界动态系统的主要方式,广泛应用于能源、气候、金融和工业等多个领域(L [25])。由于它们的内在复杂性和分布变异性,分析时间序列数据是一项具有挑战性的任务;然而,它在揭示领域特定知识和优化决策过程方面发挥着关键作用[3]。传统上,时间序列预测模型是使用针对特定端到端任务(end-to-end tasks)训练的统计或深度学习方法开发的(X [15])。虽然这些方法在数据量较大时表现良好,但在样本有限或为零的情景下往往失效。与连续过程相比,批量过程通常每天只进行有限次的运行,导致数据稀缺——这在生物过程发酵等长时间、高成本的程序中尤为明显。近年来,大型语言模型(Large Language Models, LLMs)的广泛应用激发了对统一建模方法的探索,因为它们具有强大的零样本推理和泛化能力([4]; J [29])。鉴于时间序列数据与自然语言处理(Natural Language Processing, NLP)中的文本数据之间存在很强的相似性,利用大型语言模型的训练范式来构建统一的大规模时间序列模型已成为应对零样本挑战的一个有前景的方向。具体来说,这两种模式都需要从序列标记(tokens)中学习有意义的语义:时间序列中的数值观测值就像文本中的单词一样,携带依赖于时间或语法依赖性的上下文语义。此外,时间序列建模面临的挑战与NLP中的挑战类似,包括跨异构尺度的数值语义表示(类似于词汇不平衡)、变量间的尺度不匹配(类似于标记间的频率变化),以及不规则或缺失的采样(类似于变长和不完整的文本序列)。这些结构上的对应关系为将LLM训练范式应用于时间序列建模提供了坚实的基础。
传统的时间序列预测方法通常作为端到端模型在特定数据集上进行训练,通过定义固定的输入和输出序列长度来学习从历史观测到未来预测的映射。在统计学习中,自回归积分移动平均(Autoregressive Integrated Moving Average, ARIMA)模型[22]通过其自回归(AR)和移动平均(MA)组件捕捉时间序列中的线性依赖性。另一方面,支持向量回归(Support Vector Regression, SVR)[14]则拟合一个最小化估计值和真实值之间预测误差的超平面。然而,这些方法在模拟长期依赖性方面往往能力有限,难以捕捉复杂的非线性模式。
随着深度学习的出现,时间序列预测取得了显著进展。深度神经网络提供了强大的特征提取和非线性建模能力,为序列预测提供了新的视角和方法论。循环神经网络(Recurrent Neural Networks, RNNs)[9]及其变体(如长短期记忆网络Long Short-Term Memory networks, LSTMs)[11]旨在捕捉序列中的短期和长期依赖性,从而提高预测性能。Transformer[28]架构由于其自注意力机制在自然语言处理中取得了显著成功,已被广泛用于时间序列预测。例如,Informer [40]通过ProbSparse自注意力降低了长序列的计算复杂性。后续模型如Autoformer [34]和FEDformer [34]分别通过结合变量自相关机制和季节趋势分解进一步提升了性能。基于这些进展,提出了一些面向任务的Transformer模型,以解决实际时间序列应用中的挑战,如用于空气质量预测的多粒度时空融合[36]、考虑频率的非平稳建模用于剩余使用寿命估计[6],以及在缺失值下的稳健多变量预测[36]。
PatchTST [23]引入了补丁嵌入(patch embedding)和通道独立建模(channel-independent modeling),为处理时间序列数据提供了一种通用范式。尽管这些模型取得了成功,但它们通常需要大量的训练数据。当模型参数数量超过可用数据时,性能往往会下降。此外,它们通常需要训练多个模型来适应不同的预测范围,这限制了它们在现实世界应用中的一致性和稳健性。
近年来,LLMs的快速发展对时间序列预测领域产生了深远影响。利用它们在上下文理解、模式识别和少样本学习方面的强大能力,LLMs不仅引入了方法论创新[13],还重新定义了该领域的研究范式[35]。这种跨学科整合并非偶然:一方面,时间序列和自然语言都是序列性的,并表现出类似的自回归生成特性;另一方面,LLMs通过大规模预训练获得的推理能力可以弥补传统时间序列模型在领域适应性和可解释性方面的局限性。因此,使用基于LLM的架构构建大规模时间序列模型已成为该领域日益关注的研究焦点(X [18])。
fed-batch培养(Fed-batch cultivation)[21]是生物化学和化学工程中常用的模式,特别是在微生物发酵和细胞培养过程中。与连续过程不同,fed-batch操作的核心特点是在反应器中分阶段添加营养物质,而不是一次性添加所有成分。这种分阶段喂养策略允许操作员根据培养过程的变化需求动态调整营养供应,从而优化生长和代谢条件。例如,在微生物发酵中,fed-batch策略有助于避免高浓度营养物质引起的抑制,延长发酵时间,并在过程结束时一次性收获目标产品。因此,fed-batch过程中的每个批次都是独立的,数据采样必须遵循批次边界。然而,为连续过程设计的大型时间序列模型通常不符合fed-batch场景的采样和结构要求。直接将这些模型应用于fed-batch预测任务往往会导致性能下降,因为它们无法考虑批次独立性和动态变异性,从而导致有偏差或不准确的预测。
为了解决这些挑战,我们提出并开发了一个针对fed-batch过程的大型通用时间序列基础模型,命名为Time Series Fed-batch Large Model(Time-FLM)。我们的贡献如下:
1. 我们引入了Time-FLM,这是一种用于fed-batch场景的时间序列预测基础架构。为了明确模拟fed-batch过程的分阶段特性,我们提出了一种时间阶段嵌入(Time Stage embedding)方案,并将其集成到时间阶段感知的专家混合(Time Stage-aware Mixture-of-Experts, MoE)框架中,以实现稀疏计算。Time-FLM在保持高计算效率的同时,显著提高了fed-batch任务的零样本预测准确性。
2. 我们提供了一个大规模的工业fed-batch数据集FLM-Data,其中包含来自四个真实世界生产过程的数据,超过400万个数据点。我们提供了一种与各种fed-batch场景兼容的批次感知数据加载方法,并提出了一种用于预训练大型时间序列模型的动态[MASK]策略。
3. 我们在FLM-Data上对Time-FLM进行了预训练,并进行了广泛的比较实验。结果表明,Time-FLM在零样本设置中优于通用时间序列模型。此外,在全样本任务中,经过微调的Time-FLM的表现与标准端到端模型相当或更优。
虽然大规模预训练显著增强了零样本泛化能力,但需要注意的是,对于大多数数据驱动模型来说,极其稀疏或高度不一致的时间序列仍然具有挑战性[38]。在这项工作中,我们主要针对现实中的工业fed-batch场景,其中历史数据有限,但表现出结构化的时间模式和阶段规律性。Time-FLM通过利用参数共享、时间阶段感知的专家路由以及在异构fed-batch数据集上的跨过程预训练,在此类条件下提高了鲁棒性。