面向动态生物系统中基于仿真的迁移学习成功选择合成数据

《BMC Bioinformatics》：Selecting synthetic data for successful simulation-based transfer learning in dynamical biological systems

【字体：大中小】 时间：2026年05月20日 来源：BMC Bioinformatics 3.3

编辑推荐：

　　背景：准确预测生物系统的时间动态对于及时有效的干预至关重要，例如在生态学或流行病学背景下，或用于治疗中的方案调整。尽管机器学习（ML）已证明其概括此类系统潜在非线性动力学的能力，但释放其预测能力往往受限于大型精选数据集的有限可用性。为了补充真实世界数据，通过使

背景：准确预测生物系统的时间动态对于及时有效的干预至关重要，例如在生态学或流行病学背景下，或用于治疗中的方案调整。尽管机器学习（ML）已证明其概括此类系统潜在非线性动力学的能力，但释放其预测能力往往受限于大型精选数据集的有限可用性。为了补充真实世界数据，通过使用常微分方程（ODE）模拟得出的合成数据经由迁移学习（TL）来指导机器学习已成为一种前景广阔的解决方案。然而，该方法的成功高度依赖于所设计的合成数据特征。结果：研究人员建议仔细审查这些基于常微分方程（ODE）的合成时间序列数据集的特征，例如大小、多样性和噪声。此处，研究人员演示了如何系统评估此类设计选择对迁移学习性能的影响。研究人员对三个简单但广泛使用的系统和四个真实世界的数据集进行了概念验证研究。研究人员发现合成数据集大小与多样性效应之间存在强烈的相互依赖性。良好的迁移学习设置在很大程度上依赖于真实世界数据特征以及数据与合成数据底层模型动力学的一致性。与未经过指导的深度学习相比，基于仿真的迁移学习在平均绝对误差（MAE）方面实现了高达95%的性能提升。结论：该研究强调了仔细选择合成数据属性以利用常微分方程模型中所含宝贵领域知识进行基于机器学习的预测的相关性。代码可在 https://github.com/DILiS-lab/opt-synthdata-4tl获取。

论文解读：基于常微分方程（ODE）合成数据特性优化的动态生物系统仿真迁移学习研究

本研究发表于《BMC Bioinformatics》。在生物系统的时间动态预测领域，准确预测诸如生态种群变化、传染病传播趋势或治疗反应等时间序列数据，对于制定及时有效的干预措施具有重要意义。然而，生物系统通常具有高度非线性的依赖关系、较高的测量不准确性和生物变异性，这使得预测任务极具挑战性。虽然机器学习（Machine Learning, ML）已被证明能够概括此类非线性动力学，但其预测能力的发挥往往受限于大型、精选数据集的稀缺。在生物领域，数据收集通常成本高昂甚至涉及伦理问题（如临床试验或新药反应测试），而在传染病暴发初期等问题中，可用的数据点本身就极为有限。因此，小规模生物数据常成为在生物科学中利用机器学习能力的主要障碍。

为解决小数据问题，利用基于常微分方程（Ordinary Differential Equations, ODE）模拟生成的合成数据来补充真实数据，并通过迁移学习（Transfer Learning, TL）指导机器学习模型训练，已成为一种新兴且有前景的方案。ODE作为机制数学模型，能够明确表达变量间潜在的复杂依赖关系，且已针对多种生物系统进行了整理和策展，代表了领域专家对动态生物系统深入研究的结晶。然而，这种基于仿真的迁移学习（simulation-based TL）的成功高度依赖于所生成的合成数据的设计特征（如大小、多样性、噪声等），不合适的合成数据设置甚至可能导致性能下降（即负迁移）。目前，缺乏系统的方法来探究和选择这些合成数据特征以优化迁移学习性能。

为此，研究人员开展了一项研究，旨在设计一个流程（pipeline），以多变量方式调查和选择与常微分方程（ODE）衍生数据集相关的特征（大小、多样性、噪声），并评估其在真实世界数据预测中的迁移学习性能。研究人员通过对三个简单但广泛使用的生物系统（分别对应SIR模型、SAR模型和Lotka-Volterra模型）和四个真实世界数据集（德国第四波COVID-19感染数据、轮虫-藻类捕食者-猎物生态数据及其相干/非相干子集、猞猁-雪鞋兔种群数据）进行概念验证研究，系统评估了合成数据集大小（1、10、100、1000个时间序列）、多样性（通过初始条件IC和动力学参数KP的采样区间大小S、M、L、XL控制）以及噪声（测量噪声和环境噪声，加性或乘性）对基于仿真的迁移学习性能的影响。研究中使用的深度学习（Deep Learning, DL）模型包括长短期记忆网络（LSTM）、门控循环单元（GRU）、卷积神经网络（CNN）和密集神经网络（DNN）。预训练后的模型仅在真实世界目标数据集的训练集上对最后两层（多层感知机）进行5个周期的微调。评估指标包括平均绝对误差（Mean Absolute Error, MAE）、均方根误差（Root Mean Squared Error, RMSE）和预测趋势准确度（Prediction Trend Accuracy, PTA，以1-PTA形式呈现，值越低越好）。此外，研究人员还将基于仿真的迁移学习结果与两个基线进行了比较：一是不进行预训练的纯深度学习基线（模型仅在真实世界数据上训练），二是对ODE模型进行参数校准（拟合动力学参数KP）后直接通过模拟进行预测的ODE校准基线。为了评估合成数据与真实数据之间动力学轨迹形状的相似性，研究人员还使用了多元动态时间规整（Multivariate Dynamic Time Warping, DTW）和导数动态时间规整（Derivative DTW, DDTW）。

主要关键技术方法包括：1. 基于常微分方程（ODE）模型生成具有可控特征（大小、初始条件和动力学参数采样区间、噪声类型和水平）的合成时间序列数据集；2. 构建基于仿真的迁移学习流程，使用合成数据预训练深度学习模型，随后使用真实世界数据微调模型最后两层；3. 使用MAE、RMSE和1-PTA作为预测性能指标，并使用分块自助法（blocked bootstrap）估计置信区间以评估性能差异的统计学显著性；4. 利用多元DTW和DDTW距离评估合成数据集与真实世界数据集在时间序列形状及局部趋势上的相干性（coherence）；5. 选取三个经典生物ODE模型（SIR、SAR/Lotka-Volterra扩展、Lotka-Volterra）及四个对应的公开真实世界时间序列数据集进行实证分析。

研究结果如下：

Beneficial synthetic dataset characteristics（有益的合成数据集特征）：研究人员通过流程识别出的各数据集最优合成数据配置下，基于仿真的迁移学习在四个数据集中均优于两个基线（至少在1-PTA方面），且在四个数据集中的三个上MAE小于深度学习基线和ODE基线。对于COVID-19数据集，基于仿真的迁移学习相较深度学习基线取得了最大的相对改进，并且任何类型的预训练都能提升LSTM和GRU的预测性能。在相干性较低（至少部分不相干）的设置中（如不相干轮虫-藻类和猞猁-雪鞋兔数据集），基于仿真的迁移学习的MAE和RMSE仅略微逊色于基线（最多7.6%），但在1-PTA上仍有显著改进。在不相干的轮虫-藻类数据集中，最佳性能来自于使用极小的合成数据集（单个时间序列），此时建议选择深度学习基线。

Impact of synthetic dataset size（合成数据集大小的影响）：对于合成数据与真实世界数据时间序列动力学相干的数据集（COVID-19、相干轮虫-藻类），通常可通过增加合成数据集大小来改善迁移学习的中位MAE性能；但预训练在100（而非1000）个时间序列时，为较相干的轮虫-藻类数据集产出了绝大多数最佳性能配置，这可能是由于合成与真实数据间的细微差异，或是预训练的深度学习模型难以对较大合成数据集中过于多样的时间序列进行泛化。对于不相干的数据集（不相干轮虫-藻类、猞猁-雪鞋兔），较大的数据集大小会导致中位性能下降，但较大数据集大小下不同多样性和深度学习架构的预测性能方差显著增加，因此需要借助该流程对不同配置进行细致表征。

Impact of synthetic dataset diversity（合成数据集多样性的影响）： multivariate分析显示，通过改变动力学参数（KP）采样区间来改变数据集多样性，对较大数据集大小的预测性能有特别强的影响。在合成与真实世界数据集动力学更相干时（COVID-19和相干轮虫-藻类），增加多样性（尤其是从小的S到中的M KP采样区间）可改善MAE；而在不相干的数据集（不相干轮虫-藻类、猞猁-雪鞋兔）中，特别是较大合成数据集大小下，性能随多样性增加而下降，因为增加的多样性促使深度学习模型偏向于目标数据集中不存在的系统行为。相比之下，通过改变初始条件（IC）采样区间来操纵多样性对性能的影响较小，因为不同IC常导致相似的时间序列动力学。

Impact of synthetic noise in synthetic datasets（合成数据集中合成噪声的影响）：使用最优性能配置，研究人员评估了乘性合成噪声（测量噪声和环境噪声）的影响。对于动力学相干的数据集（COVID-19和相干轮虫-藻类），较小的合成噪声水平是有益的；而对于不相干的数据集，较大的合成噪声水平可将性能提升至基线深度学习性能（不相干轮虫-藻类）或接近最佳迁移学习性能（猞猁-雪鞋兔的环境噪声）。在相干设置中，有限的合成数据集多样性（源于小的KP采样区间或极小的合成数据集大小）可能仅提供不合适的时间序列样本，导致预训练将预测模型偏向错误方向，从而观察到负迁移。

讨论与结论部分总结：研究人员介绍了一种用于研究常微分方程（ODE）生成数据集特征对于基于仿真的迁移学习影响的流程，并将其应用于多个广泛研究的生物系统和真实世界时间序列数据集。研究确认，合成与真实世界数据集间时间序列动力学的相干性是决定基于仿真的迁移学习优于纯深度学习的重要因素。在相干设置中，在较大或更多样化的合成数据集上预训练（即使用更宽的IC和KP采样区间）以及低合成噪声水平，可以改善基于仿真的迁移学习性能。当不相干占主导时，则会观察到高数据集多样性和大型预训练数据集尺寸的有害影响，此时增加合成噪声水平可能变得有益。若在相干设置中，受限的合成数据集多样性会导致负迁移。这些发现虽在直觉上可预期，但难以绝对确定ODE模型是否与给定数据集相干或不相干，因此评估合成数据特征的影响是必要的，以便最优地利用ODE模型中的知识。该流程提供了评估策略，且基于仿真的迁移学习通常得以改善。若时间序列动力学不相干且未达到基线性能，流程结果自然会建议更适合的非迁移学习设置。

最大的相对性能提升出现在COVID-19数据集上，这可能是因为小数据设置中只有部分非周期性感染波可用，导致基线深度学习模型无法推断未观察到的动力学，而简单的ODE校准在此易过拟合到最初不具代表性的系统行为；基于仿真的迁移学习则使深度学习模型预训练到预期的但尚未观察到的系统行为（如波峰后感染数下降），从而所有迁移学习运行都以不同程度上超越了深度学习基线。在周期性猞猁-雪鞋兔和轮虫-藻类数据中，这种相对于深度学习基线的实质优势较不明显，可能是因为训练集中已包含完整的振荡周期。因此，基于仿真的迁移学习及该流程似乎在动态特征观察不完整的小数据场景中尤为有益。研究未涉及分岔或多稳态等更复杂动力学，也未考虑随时间分布的偏移（如病原体遗传进化或人类行为变化），这些有待未来研究。

研究也存在局限性：调查仅限于数据集大小、多样性和噪声的指定配置，可根据系统兴趣扩展；虽然使用了简单的动力学参数和初始条件先验分布，但该流程兼容更复杂的分布（如校准方法获得的）。噪声类型也可更复杂（如测量与环境噪声组合、系统不同部分不同噪声水平）。可研究替代ODE模型以考察模型复杂性与适用性的影响，也可使用其他更复杂的深度学习预测架构（如图神经网络GNN、Transformer、神经ODE等）。另一限制是ODE校准基线使用了简单的参数估计方法，深度学习模型也使用了直接架构，旨在匹配复杂度并确保可比性；两者均可设计得更复杂以提升各自性能。基于仿真的迁移学习的成功程度高度依赖于可提供适合真实世界数据集的合成时间序列的ODE模型的可用性，需开展工作开发合适ODE模型或调整已发布模型。在某些迁移学习设置中观察到负迁移，但在不相干设置中仍存在有益的合成数据设置，使得基于仿真的迁移学习不差于纯深度学习基线。持续负迁移可能表明数据与ODE模型不相干，建议使用DTW或DDTW等措施检测潜在负迁移；并建议在使用该流程时结合另一验证集以在部署前检测ODE模型是否足够适合真实世界目标数据集，从而允许在数据科学家观察到负迁移时放弃迁移学习而选择替代预测方法。

展望：该流程及结果还可帮助基准更多带有ODE系统的数据集，并可扩展以更好利用更复杂模拟（如感染地理传播、气候模型）的现有领域知识。但合成数据生成可能在复杂情况下成为瓶颈：更复杂过程表现出更多潜在时间序列形状，需要覆盖高维参数空间，且数值求解系统需更多计算资源（尤其刚度频繁时）。在这些复杂设置中，将基于仿真的迁移学习与其他ODE指导的机器学习方法（如定制损失函数以强制物理/生物约束、在深度学习模型中估计动力学参数或ODE功能形式）进行比较甚至结合可能是有益的。此外，探索参数基迁移学习之外的进一步替代方案也值得考虑。

热点排行