基于Transformer模型整合多源数据解析时空关系以预测大豆籽粒产量、油脂和蛋白质含量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月26日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文推荐一篇利用30年北美大豆统一测试数据，构建基于Transformer的深度学习框架的研究。该模型整合了多变量时间序列气象数据、基因型亲缘关系、成熟度组和地理位置，准确预测了不同环境下大豆品种的产量、油脂和蛋白质含量，并借助自注意力机制实现了模型的可解释性，揭示了太阳辐射和温度是影响产量形成的关键预测变量，为大豆育种和农业决策提供了兼具高精度与可解释性的预测工具。

引言

在育种策略优化和应对气候变化风险的背景下，准确、可解释地预测栽培品种表现至关重要。作物产量等性状表现受到遗传因素与环境条件之间复杂交互作用的影响，这为建立可靠的预测模型带来了挑战。预测未测试环境下的作物表现是植物育种领域的持久挑战。传统作物建模方法（如基于过程的模型和统计模型）虽然广泛应用，但通常需要大量数据集，且难以捕捉变量间复杂的非线性关系。机器学习，特别是深度学习，为产量预测提供了替代方案，但历史上在可解释性方面存在局限，这对于育种和管理决策的领域专家至关重要。此外，训练机器学习模型需要大量数据集，而这些数据的生成通常成本高昂且耗时。大豆是北美种植最广泛的作物之一，育种工作广泛。作为北美大豆育种工作的一部分，美国农业部自1941年起协调年度大豆统一测试，为预测作物表现提供了宝贵的、可公开获取的历史和当前大豆数据。这类大型合作网络为农业和育种应用中的机器学习模型开发提供了巨大机遇。

材料与方法

本研究的数据准备工作基于1989-2018年的大豆统一测试的PDF文件，并遵循既定协议将其转换为表格文件。经过清理和标准化，最终数据集包含29年间的103,955条表现记录，涵盖11,506个独特基因型。每条表现记录包含对应于生长季的214天多变量时间序列数据，并由成熟度组变量表征。所有年份/地点的组合的每日天气记录从NASA Power获取，天气数据包括最高、最低和平均气温、相对湿度、平均降水量和总太阳辐照度。由于油脂和蛋白质的表现记录存在大量缺失，这促使本研究探索迁移学习策略。在基因型聚类方面，由于缺乏分子标记数据，本研究基于公开的系谱信息为所有基因型构建了亲缘关系A矩阵，并利用K-means聚类方法（最佳聚类数为40）将基因型分配到不同的簇中，以捕获遗传变异。本研究的模型架构采用基于Transformer编码器的模型，利用自注意力机制并行捕捉时间步之间的依赖关系。预测任务被构建为一个多对一的回归问题，输入包括时间序列天气数据以及基因型和农学变量。输入序列被构建为令牌，通过将每日天气变量聚合到多天区段中形成输入令牌。如图1所示，模型架构整合了天气变量、基因型簇、成熟度组和位置信息，通过嵌入和位置编码后，传递给由堆叠的Transformer编码器层组成的统一编码器。最终输出通过回归头得到产量、油脂和蛋白质的预测值。模型使用均方误差损失进行训练。针对油脂和蛋白质预测数据有限的问题，本研究采用了迁移学习方法，评估了两种策略：端到端微调整个模型，以及冻结预训练编码器权重仅训练新回归头。所有分析均基于PyTorch实现，并在高性能计算集群上完成。为评估Transformer模型的有效性，本研究将其性能与多个基线模型进行了比较，包括支持向量回归、最小绝对收缩和选择算子回归、双向长短期记忆网络和双向循环神经网络。模型采用Adam优化器进行优化，数据集随机分为80%训练集、10%验证集和10%测试集，并采用早停和dropout等技术防止过拟合。模型性能通过均方根误差、平均绝对误差和决定系数R²来评估。在模型可解释性方面，本研究对训练好的Transformer模型采用了事后注意力机制和基于归因的方法。通过提取自注意力图，并比较注意力分数与基于梯度的归因方法的性能，来识别对性状预测有强烈影响的天气模式。为了在没有真实解释的情况下定量评估可解释性，本研究采用了基于扰动的度量方法，通过计算综合性和充分性，以及其回归导向的扩展——回归扰动曲线下面积，来评估不同解释方法的忠实度。

结果

在模型性能评估方面，对于产量预测，本研究评估了五种模型。在传统机器学习方法中，支持向量回归-径向基函数核的表现优于最小绝对收缩和选择算子回归，但两者均被深度学习模型超越。在循环神经网络家族中，双向长短期记忆网络取得了比双向循环神经网络更好的结果，但性能差异不大。最佳性能由Transformer模型实现，其获得了最高的R²分数（0.776 ± 0.002），并且均方根误差和平均绝对误差在所有测试模型中最低，如表1所示。这证明了基于注意力的架构在建模天气驱动产量预测中复杂时间模式方面的有效性。对于油脂和蛋白质预测，本研究评估了两种迁移学习策略，并将其与无预训练的基线直接微调进行比较。结果如图2所示。对于油脂预测，模型的端到端微调获得了最佳性能，R²分数达到63.9 ± 4.7%，基于冻结编码器的迁移策略也取得了可比的性能。蛋白质预测也呈现出类似趋势，对编码器进行完全微调导致R²显著提升（79.3 ± 2.3%）。这些发现表明，预训练模型已经捕获了与其他种子性状相关的、可推广的时间模式。为了确定编码天气输入的最佳时间分辨率，本研究评估了模型在使用不同采样间隔（即每个输入令牌代表的天数）时的性能。预测性能随时间窗口的大小而变化，在所有任务中，以14天/时间点的采样间隔观察到的R²最高，达到峰值0.776，如图3所示。过于精细的采样导致性能略有下降，而过于粗糙的分辨率则降低了时间粒度。测试集上的最佳性能是通过每个令牌14天实现的，这表明了输入压缩和时间保真度之间的平衡。关于产量模型的可解释性，除了产量预测，本研究还通过应用各种可解释性方法，研究了哪些方法在综合性和充分性方面表现出最佳的忠实度。基于注意力的方法在这两个指标上都具有最佳的忠实度，其综合性得分最高，充分性得分最低，如表2所示。因此，本研究使用基于注意力的方法进行后续分析。接下来，本研究分析了训练好的Transformer模型的注意力权重。这个基于注意力的可解释性框架突出了模型认为与产量预测最相关的令牌。图4说明了在测试集中所有样本上，在整个生长季中分配给各个天气变量的平均注意力权重，采样配置为14天/时间点。值得注意的是，在所有采样间隔中，最高气温和太阳辐射令牌始终获得较高的注意力权重，这与它们对产量形成的既定农学影响相一致。本研究还探讨了动态天气特征与静态上下文令牌的相对重要性量化。将所有时变天气输入聚合到一个令牌中，并将其平均注意力权重与静态变量（成熟度组、基因型簇和位置）进行比较，如图5所示。复合天气令牌获得了最高的总体注意力权重，其权重大于任何单独的上下文。为了验证时空特征对预测性能有意义的贡献，本研究训练了多个模型变体。研究观察到，随着将额外的信息纳入遗传特征，性能持续改善。这强化了生长季天气动态在产量决定中的核心作用，尽管基因型簇等上下文特征也对预测做出了有意义的贡献。为了进一步研究Transformer模型如何捕捉变量交互，本研究分析了在不同成熟度组上训练和测试时的注意力权重分布。图6说明了每个成熟度组在生长季的平均注意力权重。与辐射相关的令牌在所有成熟度组中都具有最高的注意力权重，最高温度在早熟组中位居第二。早熟组在生长季早期对辐射和温度给予更多关注，而晚熟组则强调其他变量的混合。

讨论

本研究提出了一个用于大豆性状预测的综合多模态框架，该框架整合了北美多个地点和年份的基因型亲缘关系、成熟度组和天气特征。与以往研究相比，本数据集涵盖了不同的成熟度带和气候条件，代表了北美大豆育种计划中的遗传多样性。基于Transformer的架构利用了先进的注意力机制，捕捉了时间依赖性，同时使得在这个跨越数十年、地点、生长条件和基因型的大量数据集上进行跨模态特征学习成为可能。本研究中提出的Transformer框架捕获了环境、遗传和管理变量之间的长期依赖关系，提供了一个可以适应多种性状的统一架构。观察到的预测准确性改进，凸显了在数据中明确建模时空交互作用的重要性。作物发育和产量形成本质上是时间依赖性的，生理过程对环境和管理变化做出动态响应。Transformer的时间注意力使模型能够对关键生长期赋予不同的权重，这些时期的天气和土壤相互作用对最终结果影响最大。本研究的计算方法，即基于Transformer的模型，突出了不同的环境变量在预测产量时具有较高的注意力权重。例如，北部和南部纬度地区都将太阳辐射和温度视为最具预测性的因素。虽然这在预期之中并符合生理学原理，但值得注意的是，本研究模型仅凭天气变量和特定地点的系谱信息，就在基因型水平产量预测上表现出了高精度。基于注意力的可解释性揭示了温度和太阳辐射变量在大豆生长季受到最多关注，证实了它们在种子发育期间调节光合活性的核心作用。气温先前已被报道影响种子产量、油脂和蛋白质，较高的温度通常会缩短生长季，从而降低产量和油脂含量，并降低种子品质。太阳辐射也已知会影响大豆发育，包括影响生物量、种子产量和种子成分。虽然本研究不将注意力权重解释为变量重要性的绝对度量，但它们反映了模型在每个时间序列上变量间交互作用条件下的关注点。本研究表明，模型有效学习了具有生理学意义的关联，而无需预先编程分配权重。此外，自注意力的使用为未来的建模工作提供了指导机制。所提出的框架通过实现对跨性状和地点的基因型进行可推广、可解释和多目标推断，推进了性状预测建模的现状。然而，挑战依然存在。跨成熟度带的数据不平衡以及极端天气事件代表性有限，可能会影响不确定生长天气条件下的性能。此外，虽然注意力机制提供了可解释性，但它们仍然是相关性而非因果性的。因此，需要与基于领域的机理模型集成以进行更深层次的推断。还需要纳入基因组数据，以增强基因型特异性预测，并提高模型在更精细分辨率上捕捉基因型与环境互作的能力。另一个有前景的方向涉及整合其他高通量表型数据，以用更多生理背景丰富时间建模。

结论

在本研究中，本研究开发并评估了一个基于Transformer的深度学习框架，用于预测美国多环境测试中的大豆产量，该框架整合了时间天气数据、基因型簇和上下文信息。本研究的方法实现了高预测性能，Transformer模型在产量预测方面优于传统模型和循环基线模型。通过系统改变时间分辨率，本研究确定了中等采样间隔在时间保真度和模型效率之间提供了最佳平衡，这一见解有助于设计未来基于Transformer的农学建模中的数据嵌入策略。本研究还证明，从产量预测中预训练的时间表征可以有效地迁移到下游任务，这展示了所学特征的可推广性，并为用有限标签数据建模性状提供了一种实用策略。利用Transformer固有的自注意力机制，本研究的可解释性分析展示了基于注意力的模型不仅作为一种预测工具，而且作为为育种和作物管理产生可操作见解的工具的潜力，这与现有的事后可解释性方法类似。这可以作为构建明确可解释的深度学习模型的重要一步，尽管这需要在其他作物物种的可迁移性上进行进一步测试。

联系信箱：

粤ICP备09063491号

热点排行