整合机器学习方法识别大豆产量相关基因:环境特异性标记与调控网络的新见解

《The Plant Genome》:Integrative machine learning approach for identifying genes associated with quantitative traits: A soybean (Glycine max) yield case study

【字体: 时间:2026年01月25日 来源:The Plant Genome 3.8

编辑推荐:

  本研究通过整合机器学习与基因组学分析,系统鉴定了大豆产量相关的关键遗传标记。研究利用LightGBM模型对15,000余份大豆种质进行全基因组关联分析,揭示了2513个SNP标记和393个基因与产量性状的关联,并首次提出基于SHAP值的标记效应量化体系。研究发现成熟组特异性标记分布规律,明确了非编码RNA在产量调控中的新功能,为大豆分子设计育种提供了重要理论依据。

  
研究背景与方法创新
传统数量性状位点(QTL)定位方法在解析复杂农艺性状时面临重复性差、环境敏感性高等挑战。本研究创新性地整合光梯度提升机(LightGBM)算法与SHapley加性解释(SHAP)值分析,对覆盖9个成熟组(MG000-MGVIII)的15,503份大豆种质进行全基因组关联研究(GWAS)。通过五折交叉验证,模型表现优异(均方误差0.0862,R20.8369),t检验证实预测值与实测值无显著差异(p=0.60054)。
关键发现与机制解析
研究共鉴定出2,513个关键单核苷酸多态性(SNP)标记,其中157个为跨所有成熟组的核心标记。染色体分布分析显示这些标记均匀分布在20条染色体上,未形成明显簇集。通过系统发育分析将27个Level 9基因划分为两大功能集群:Cluster I包含调控株高和胁迫响应的Glyma.19G194500、参与异黄酮合成的Glyma.15G001700等;Cluster II包含水分利用效率相关基因Glyma.01G042900等。
环境特异性调控网络
成熟组间比较发现标记存在显著差异:MG0与MGIV标记重复率仅36.29%,而MGVII与MGVIII达77.65%。进一步将标记按SHAP值特征分为三类:阳性标记组(457个)富集于糖转运蛋白活性;阴性标记组(846个)与嘌呤转运相关;混合值标记组(1,210个)主要参与转录调控。值得注意的是,92.31%的混合值标记在三个以上成熟组中出现,显示其具有环境稳定性。
非编码RNA的新功能
研究首次发现42个非编码RNA(ncRNA)与产量相关,其中14个源自蛋白质编码区。包括已实验验证的MIR4358(NR_048678.1)和三个Level 9 ncRNA(如XR_413345.4)。这些ncRNA可能通过转录后调控、表观遗传修饰等机制影响产量形成,揭示了产量调控网络的复杂性。
育种应用新策略
提出三项标记辅助选择(MAS)优化原则:1)标记互补性原则——采用覆盖全部遗传贡献者的标记集;2)区域特异性原则——根据不同生态区定制标记组合;3)量化评估原则——通过标记数量与SHAP值之和量化选择效果。针对157个跨环境稳定标记开发的量化评估模型,为精准育种提供了新工具。
结论与展望
该研究通过机器学习方法突破了传统QTL分析的局限性,首次系统揭示了大豆产量形成的多层级调控网络。发现的成熟组特异性标记为区域化育种提供了分子基础,而非编码RNA的鉴定开辟了产量调控研究新方向。这些成果为大豆分子设计育种提供了重要理论支撑和技术平台。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号