《Journal of Agriculture and Food Research》:Machine Learning-based Prediction of Hard Red Spring Wheat Dough and Baking Quality using GlutoPeak
编辑推荐:
GlutoPeak谷蛋白聚集测试是一种可替代传统粉质仪与烘焙测定的快速检测方法,然而其在硬红春(HRS)小麦多性状预测中的应用仍待深入探索。研究人员开发了偏最小二乘(PLS)、随机森林回归(RFR)、支持向量回归(SVR)、极限梯度提升(XGB)及多层感知机(
GlutoPeak谷蛋白聚集测试是一种可替代传统粉质仪与烘焙测定的快速检测方法,然而其在硬红春(HRS)小麦多性状预测中的应用仍待深入探索。研究人员开发了偏最小二乘(PLS)、随机森林回归(RFR)、支持向量回归(SVR)、极限梯度提升(XGB)及多层感知机(MLP)模型,以同步预测湿面筋、粉质仪性状(吸水率、面团形成时间、稳定性)、烘焙吸水率及面包体积。数据集包含846份HRS小麦样品,涵盖两年五个地点的70个品种,以籽粒蛋白质含量与GlutoPeak指数为预测因子。独立测试验证结果显示,湿面筋与粉质仪吸水率的预测精度最高:集成树模型RFR与XGBoost对湿面筋的预测表现优异(R2=0.89,RPD=3.05–3.08);XGBoost对粉质仪吸水率的预测最优(R2=0.81,RPD=2.27)。面团形成时间(DDT)(R2=0.49,RPD=1.41)与稳定性(R2=0.40,RPD=1.29)的预测精度有限,但仍可用于初步排序或筛选。XGBoost在烘焙吸水率(R2=0.59,RPD=1.56)与面包体积(R2=0.51,RPD=1.44)预测中表现最佳。总体而言,基于GlutoPeak的预测模型能以较高精度预测湿面筋与吸水相关性状,并为DDT、面团稳定性及面包体积提供筛选级估计,可用于育种早期筛选,减少耗时常规检测的样本量,支持加速培育并推广具有优良终端加工性能的HRS小麦品种。
本研究由北达科他州立大学研究人员完成,发表于《Journal of Agriculture and Food Research》。研究背景聚焦于美国北部平原主栽作物硬红春(HRS)小麦,其高蛋白与强面筋特性决定了它作为优质面包小麦的市场地位,因此终端加工品质是育种的核心目标。然而,传统湿面筋测定、粉质仪(Farinograph)流变学测试及面包烘焙试验存在耗时长、耗材量大、通量低的问题,难以满足大规模早期育种世代的筛选需求。在此背景下,GlutoPeak作为一种仅需数克样品、数分钟即可完成的快速面筋聚集测试,被视为潜在的高通量替代工具,但其在HRS小麦中缺乏针对多性状的系统化预测模型,且既往研究受限于样本规模、环境单一及模型比较不足,导致预测稳定性与适用性存疑。为此,研究人员构建了覆盖多环境的大样本数据集,系统评估了五类算法在GlutoPeak指标结合籽粒蛋白含量基础上对六项关键品质性状的预测能力,以期为育种提供可部署的快速筛选框架。
关键技术方法方面,研究人员采用2018至2019年美国北达科他州东部与西部共五个地点的846份HRS小麦样品(含70个品种)作为样本队列。实验测定了籽粒蛋白质含量及GlutoPeak参数(峰值最大时间PMT、最大扭矩MT、峰前15秒扭矩AM、峰后15秒扭矩PM、聚集能量AE),并以标准方法测定湿面筋含量、粉质仪吸水率、面团形成时间(DDT)、粉质仪稳定性、烘焙吸水率及面包体积作为参考值。建模环节采用分层抽样划分训练集(70%)与独立测试集(30%),依次构建并优化PLS、RFR、SVR、XGBoost及MLP模型,通过五折交叉验证调参,最终以独立测试集评估性能,并采用SHapley加法解释(SHAP)分析特征贡献度。
研究结果部分,首先,HRS小麦种质资源目标性状分布与区域差异显示,西部产区样品的湿面筋含量、粉质仪与烘焙吸水率、面团形成时间与稳定性及面包体积均显著高于东部,体现了环境效应对品质性状的显著影响,为模型构建提供了表型多样性基础。其次,GlutoPeak参数与目标性状的相关性分析表明,籽粒蛋白与GlutoPeak能量及扭矩类指标与湿面筋、吸水率呈显著正相关,而峰值时间PMT与吸水率呈负相关;面团形成时间与稳定性仅与部分指标弱相关,面包体积则受蛋白与聚集指标共同影响,且东西部相关性模式存在差异,提示需考虑基因型与环境互作效应。第三,预测模型开发与验证结果显示,湿面筋预测精度最高,RFR与XGBoost的R2可达0.89左右,RPD超过3.0,具备定量可靠性;粉质仪吸水率次之,XGBoost的R2约0.81,RPD超过2.2;面团形成时间与稳定性的R2分别为0.49与0.40,适用于筛选排序;烘焙吸水率与面包体积的R2约为0.59与0.51,可用于初步排除低潜力材料。第四,SHAP特征重要性分析表明,湿面筋预测主要由籽粒蛋白主导(约77%),粉质仪吸水率与烘焙吸水率则更多依赖GlutoPeak聚集能量(AE)与最大扭矩(MT),面团稳定性与PMT高度相关,面包体积仍以蛋白贡献为主,GlutoPeak指标提供补充信息。第五,模型适用性与部署潜力评估发现,配对样本检验无系统性偏差,可靠性系数达0.72–0.97;去除蛋白后的GlutoPeak单模仍能满足初筛需求;区域特异性模型在东部表现优于西部,验证了环境异质性对预测性能的影响。
讨论与结论部分指出,该研究首次在大规模多环境HRS小麦群体中系统比较了线性与非线性模型对GlutoPeak数据的利用能力,证实其在湿面筋与吸水率预测上的高精度及在复杂性状上的筛选价值。研究提出的框架可显著降低育种早期对高成本、低通量常规测试的依赖,通过滚动校准机制适配不同年份与地点,实现资源向优异性状的集中。未来研究应引入蛋白组成、淀粉损伤、阿拉伯木聚糖等多维指标,并结合近红外等高维数据进一步提升复杂性状预测力,同时发展分类式筛选策略以增强实用性。该成果为HRS小麦品质育种的数字化与高通量化提供了可直接应用的工具支撑。