机器学习驱动的甘蔗育种多性状协同预测模型研究

《Sugar Tech》:Accelerating Sugarcane Breeding with Machine Learning: A Concurrent Multi-trait Predictive Approach

【字体: 时间:2026年01月21日 来源:Sugar Tech 2

编辑推荐:

  本研究针对甘蔗基因组高度多倍体、育种周期长、性状遗传力低等挑战,开发了基于表型数据的多性状机器学习预测框架。通过分析2700个杂交组合的后代田间表现数据,比较GBDT、XGBoost、TabTransformer等五种模型性能,发现GBDT在蔗糖含量、产量和抗病性预测中表现最优(宏观F1值0.7316)。该表型驱动框架为育种者提供了高效的决策支持工具,可显著减少田间试验依赖,加速优良品种选育。

  
甘蔗作为全球最重要的糖料作物,供应着约80%的食糖需求,同时也是生物能源、化工和畜牧业的重要原料。然而,现代甘蔗育种面临着巨大挑战:商业栽培的杂交甘蔗基因组高度多倍体化,染色体数目在2n=100-130之间波动,且源自多个祖先亚基因组。这种基因组复杂性不仅使基因组组装、注释和性状结构遗传解析变得困难,也限制了传统分子育种策略的有效性。与水稻、小麦等作物相比,甘蔗育种周期显著更长,生产成本更高,对大规模田间试验的依赖仍然不可避免。
更严峻的是,气候变化加剧了这些挑战:全球变暖扰乱甘蔗的代谢和生理活动,而干旱、洪水和变化的害虫动态进一步威胁产量稳定性和可持续性。尽管气候智能型技术(CSTs)通过优化种植方式、使用生物农药等措施改善已选克隆的田间表现,但育种者仍缺乏在早期阶段预测哪些亲本组合能产生适应未来气候压力的后代的工具。
近年来,基因组预测和人工智能技术的发展为应对这些挑战提供了新机遇。基因组选择(GS)已成功应用于玉米和小麦,加速了产量改良和品质性状选择。多性状和多环境GS框架进一步提高了复杂性状的预测精度,如小麦的终端使用品质、春小麦的籽粒蛋白和产量,以及不同环境下玉米的籽粒产量。同时,机器学习(ML)和深度学习方法越来越被认为是传统GS模型的有力替代方案。比较评估表明,集成模型、神经网络和基于注意力的架构能够捕捉非线性相互作用,改善多种作物的基因组预测。
然而,大多数甘蔗研究仍集中于基于遥感、气象或有限表型和基因型输入的单一性状预测,这与育种者实际需求存在差距。育种者在选择杂交组合时主要依赖亲本表型表现,但基于纯表型的多性状预测框架研究仍然缺乏。为此,本研究构建了一个表型驱动的多任务分类框架,旨在解决这一关键问题。
本研究主要采用了五种机器学习范式,包括基于树的模型(GBDT、XGBoost)、深度神经网络(MLP)和混合注意力机制(TabTransformer、TabNet)。数据集来自广西农业科学院甘蔗研究所的历史杂交记录,包含2700个克隆,涉及459个母本和543个父本。后代性状包括蔗糖含量、黑穗病抗性、甘蔗产量、有效茎数和整体农艺性能,均离散为低、中、高三个有序类别。所有模型通过80/20分层训练-测试分割、类别加权损失和交叉验证网格搜索进行优化。
GBDT在宏观F1值(0.7316)、汉明损失(0.2052)和样本准确率(0.5630)上均表现最佳,尤其在蔗糖含量、甘蔗产量和黑穗病抗性预测中优势明显。XGBoost表现相当,而TabTransformer在整体农艺性能预测上具有互补优势(F1值0.6829)。特征重要性分析显示,母本和父本的锤度(brix)是最具影响力的预测因子,与后代产量、有效茎数和蔗糖含量密切相关。父母本黑穗病抗性对后代抗病性有直接遗传效应,其中父本抗性表现出更强影响力。
性状分布分析表明,大多数杂交后代集中于中等类别,这对分类提出了挑战。进一步类别特异性分析显示,对于蔗糖含量,模型在高类别识别上表现优异(精确度=0.79,召回率=0.76,F1=0.77),主要困难在于区分低和中等级别。而对于整体农艺性能,模型系统性低估了高表现个体(召回率0.58),表明该复杂性状的遗传架构非常复杂。
研究结果表明,基于表型的机器学习框架能够有效预测甘蔗多个农艺性状,为育种者提供了早期评估杂交组合的工具。通过优先测量少量关键亲本性状,育种者可以在保持预测精度的同时降低资源需求。未来研究可通过整合基因组、环境和遥感信息进一步扩展该框架,提高预测精度并拓宽其在其他复杂多倍体作物中的应用前景。
该研究的创新性主要体现在三个方面:首先,引入了专门针对甘蔗育种的表型驱动多任务预测方法,突破了传统单性状建模的限制;其次,建立了包含梯度提升决策树(GBDT)、TabTransformer、极限梯度提升(XGBoost)、多层感知器(MLP)和TabNet的比较框架,为多性状预测任务提供了实用的模型选择指导;最后,提出了一个高效、经济的人工智能辅助多性状决策框架,有助于减少对田间试验的依赖,加速优良品种的筛选和推广。
这项发表于《Sugar Tech》的研究为甘蔗育种提供了一种新的思路和方法,将人工智能技术与传统育种实践相结合,有望在应对气候变化、提高育种效率方面发挥重要作用。随着技术的不断发展和完善,这种表型驱动的预测框架有望成为复杂多倍体作物育种的标准工具,为全球粮食安全和农业可持续发展做出贡献。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号