编辑推荐:
本文推荐一篇探讨贝叶斯模型平均(Bayesian Model Averaging, BMA)在农业领域应用价值的研究。文章系统性地介绍了BMA及其相关贝叶斯推断概念,并通过模拟和田间试验数据验证了BMA在估算农作物经济最优氮肥施用量(EONR)方面的优势。结果表明,相较于单一模型,BMA能有效整合模型不确定性,在不同数据质量下提供更稳健的EONR估计,为精准农业中的氮肥管理决策提供了新颖且有力的统计分析框架。
Highlight:研究成果亮点
Introduction:引言
氮(N)是限制农作物产量的重要因素。因此,通过施肥增施氮素有助于提升作物表现。然而,过量的氮肥施用会导致负面的环境影响(Cassman等人,2002;Galloway等人,2003)。另一方面,施用少于最优量的氮肥会负面影响作物生产力,影响农民利润,并威胁粮食安全(Banger等人,2020)。因此,需要准确且精确地估算氮肥施用量。
大量研究致力于寻找能使农民利润最大化的氮肥施用量,即所谓的经济最优氮肥施用量(Economic Optimum N Rate, EONR)。估算EONR的过程是基于模型的,这意味着对EONR的推断取决于所选模型。对于玉米(Zea maysL.),研究表明不同的统计模型会给出不同的EONR估计值(Morris等人,2018)。因此,选择单一模型可能导致对EONR的低估或高估(Kyveryga等人,2007;Jaynes,2011)。
采用模型平均是一种明智的方法,可以考量模型不确定性,从而获得更准确和更精确的EONR估计(Burnham和Anderson,2002)。先前的研究已经评估了基于信息准则的模型平均在估算EONR中的应用(Miguez和Poffenbarger,2022;Matavel等人,2024)。最近的一项研究(Matavel等人,2025)提出了一个考虑贝叶斯模型平均(BMA)的贝叶斯最优实验设计框架,以优化氮肥施用量实验。此外,在一篇姊妹手稿中,Palmero等人(2025)提出了使用Bagging作为估算EONR的模型平均技术。
在本研究中,我们扩展了Matavel等人(2025)的工作,将关注点从使用BMA进行最优设计,转向将BMA作为一种技术引入模型不确定性进行分析的性能评估。因此,本研究的目标是:(i)介绍与贝叶斯推断和BMA相关的概念和术语;(ii)使用模拟数据评估BMA在不同实验设计(数据质量)下估算EONR的能力;(iii)利用田间试验收集的数据应用此技术。本研究主要关注玉米籽粒产量对氮肥的响应以估算EONR。然而,BMA也可轻松应用于其他作物和目标,例如估算农学最优氮肥施用量(AONR)、最优播种密度和模型预测。
Methods:研究方法
在本节中,我们描述了与贝叶斯推断和BMA相关的主要概念。理解后续内容需要概率论的基础知识。我们从贝叶斯推断的基本数学和符号开始,然后进一步详细阐述BMA。
贝叶斯推断的主要特点是,关于参数向量θ的统计结论是以观测数据值向量 y 为条件的。我们称之为p(θ|y),其中p(.|.)表示条件概率分布。在这一点上,贝叶斯推断与更为人熟悉的经典统计学不同,后者是在真实的未知θ值条件下,基于可能的y值分布来估计θ,即p(y|θ)。
利用条件概率的基本知识,我们可以将给定数据的θ条件概率表示为 p(θ|y) = p(θ, y) / p(y)。其中分子p(θ, y)是问题中可观测量(y)和不可观测量(θ)的联合概率分布。联合概率分布可以分解为给定θ条件下y的概率和θ的边缘分布。因此,等式(1)也可以写成 p(θ|y) = [p(y|θ) p(θ)] / p(y),这就是著名的贝叶斯定理。在等式(2)中,p(θ)是参数的边缘分布,也称为先验分布,p(y|θ)是数据分布。先验允许我们使用概率分布来总结关于模型参数的先前知识。由于p(y|θ)对于固定的y被视为θ的函数,p(y|θ)被称为似然函数。分母p(y)是数据的边缘分布,作为归一化常数,确保后验在参数的支持集上求和或积分为1。由于y以θ为条件,根据全概率定律,p(y) = Σθp(y|θ) p(θ) 或 p(y) = ∫θp(y|θ) p(θ) dθ,分别对应离散和连续的θ。
数据收集后,∫θp(y|θ) p(θ) dθ(或Σθp(y|θ) p(θ))是一个已知的固定常数,与θ无关。因此,等式(2)的一个等价表达被认为是 p(θ|y) ∝ p(y|θ) p(θ)。这个比例关系允许我们避免解析地求解p(y),这对于某些复杂模型来说是困难甚至不可能的。等式(3)的表达式包含了我们需要了解的关于后验分布的所有信息,直至一个比例常数。因此,我们可以看到,参数的后验分布与当前检索到的关于θ的信息(数据y)和θ的先验知识的乘积成正比。等式(3)用于获得未归一化的后验密度,通过使用计算方法是(如马尔可夫链蒙特卡洛(MCMC)算法)来近似正确的后验分布p(θ|y)。这些简单的数学表达式代表了贝叶斯推断的核心。
在BMA中,我们处理一组模型 M = (M1, ..., Mk, ..., MK)。我们假设这些模型能够合理地代表所研究过程(在本例中是产量对氮肥的响应)机制的不同观点(假设)。对于集合中的每个模型,我们都有一个共同的兴趣量,它可以是参数或数据的函数,或其他量。在我们的问题中,模型集合中共有的兴趣量是EONR,它是模型参数的函数(衍生量)。
令 g ≡ g(θ) 表示EONR。由于BMA是一种组合后验分布的方法,它允许我们获得g的(在模型集合上)平均后验分布。函数g以数据和模型为条件,因此根据全概率定律,给定y时g的平均后验由下式给出: p(g|y) = Σk=1Kp(g|y, Mk) p(Mk|y)。在这个方程中,p(g|y, Mk) 是模型Mk下g的后验分布,p(Mk|y) 是给定数据的模型后验概率。因此,我们可以看到,给定y时g的平均后验只是所有模型后验分布的加权平均,其中模型的概率作为权重。
如果我们能找到等式(4)右边的量,那么我们就能找到g的平均后验。由于g是θ的函数,而θ是随机向量,因此g是随机变量。因此,如果我们用MCMC算法来求p(θ|y),根据MCMC的等变性,我们可以在MCMC的每次迭代中计算g来得到后验分布p(g|y, Mk)。如上所述,等式(2)允许我们处理条件概率。因此,我们可以应用贝叶斯定理来求p(Mk|y): p(Mk|y) = [p(y|Mk) p(Mk)] / [Σi=1Kp(y|Mi) p(Mi)],其中p(Mk)是先验模型概率,p(y|Mk)是模型k的数据边缘分布。因此,我们可以看到,p(y|Mk)对应于模型k的等式(2)中的分母。为了获得数据的边缘分布,我们必须求解 p(y|Mk) = ∫θp(y|θ, Mk) p(θ) dθ,也就是说,我们必须计算在等式(3)中为避免计算参数后验分布而绕开的积分。概率p(y|θ, Mk)是一种模型区分度量,因为如果模型能很好地表示数据,则对于相同的数据集该值较大,否则较小。求解等式(6)中给出的积分是困难的,因为它通常涉及高维积分。这就是为什么大多数贝叶斯研究使用数值算法来近似它,而不是解析计算。此外,随着模型集合M中模型数量的增加,等式(5)中的分母可能变得难以处理。因此,尽管BMA有强大且吸引人的支持,但挑战在于其实施。有多种方法可以获得p(y|Mk),其中一些包括可逆跳转MCMC(Green, 1995)、桥抽样(Meng and Wong, 1996)、乘积空间方法(Carlin and Chib, 1995)和路径抽样(Gelman and Meng, 1998)等。
Results:结果
在本节中,我们介绍了在十二种情景(由三种不同数据质量和四种真实数据生成过程组合而成)下进行的模拟研究的结果。对于每种情景,我们在500个模拟数据集上评估了各个模型和BMA的偏差和方差。当数据生成过程为二次模型时,该信息如表1所示。在各个模型中,二次平台模型和Mitscherlich模型具有...
Discussion:讨论
在本研究中,我们引入了BMA(及其相关概念)作为一种多模型推断技术来估算农作物的EONR。该方法通过模拟数据进行了测试,然后应用于一个真实数据集实例。之前的研究已经提出了使用通过AIC权重的模型平均来估算EONR或AONR(Matavel等人,2024;Miguez和Poffenbarger,2022)。在最近的一篇手稿中(Matavel等人,2025)确定了在考虑BMA和模型不确定性的田间试验中需要实施的氮肥施用量数量...
Conclusion:结论
在本研究中,我们引入了BMA,使用模拟和真实数据来估算玉米在不同实验设计下的EONR。即使在观测数量较少的情况下,BMA的表现也优于各个模型。只需微调即可使此框架适应于获取其他衍生量,例如AONR、最优播种密度或使用一组候选模型进行产量预测。我们相信,我们的BMA框架为农业研究人员的统计工具箱提供了一种新的方法...
注:原文在“结果”和“讨论”部分后还有一个“结论”部分,但根据用户指示“从Highlight开始到第二个Conclusion”,第二个“结论”即全文最后的结论部分已翻译完毕,故翻译至此结束。用户提供的文档内容在“讨论”部分后直接是“结论”,与指示略有出入,已按文档实际结构和用户指示范围处理。