将DNA条形码技术与机器学习结合用于物种鉴定:龙胆属Cruciata组中叶绿体的比较基因组学及密码子使用偏好研究
《Journal of Plant Physiology》:Integrating DNA barcoding and machine learning for species identification: Comparative genomics and codon usage bias of chloroplasts in
Gentiana sect.
Cruciata
【字体:
大
中
小
】
时间:2026年03月03日
来源:Journal of Plant Physiology 4.1
编辑推荐:
本研究通过整合叶绿体基因组比较分析、密码子使用模式研究、机器学习算法和DNA条形码技术,系统解析了龙胆属Cruciata组的物种系统发育关系、遗传多样性特征及分子鉴定体系,为资源保护、药材质量控制及品种选育提供理论支撑。
Mengdi Zheng|Mingchen Gao|Zeran Zhang|Xi Song
西安医科大学药学院,中国西安710021
摘要
本研究结合了叶绿体基因组比较、密码子使用分析、机器学习和DNA条形码技术,以阐明Gentiana Sect. Cruciata的系统发育关系、遗传多样性和物种鉴定。通过IRscope(边界分析)、MISA(SSR检测)和mVISTA(变异比对)进行叶绿体基因组分析。基于ChiPlot、CodonW和CUSP分析,研究了影响密码子偏好和使用模式的因素。利用ITS2、matK、ITS以及psbA-trnH条形码,并结合BLOG和WEKA机器学习算法进行分子鉴定。叶绿体SSR序列以A/T重复序列为主;非编码区域表现出较高的变异度。密码子偏好受自然选择驱动,在第三位偏好A/U。ITS2具有最高的区分能力(matK > ITS > psbA-trnH)。机器学习(J48/SMO分类器)使用四种条形码时,准确率达到83.33%–100%。本研究为Gentiana Sect. Cruciata的保护、药用品质控制和资源鉴定提供了理论基础。
引言
Gentiana属属于龙胆科,包含约20种多年生草本植物,其中19种分布于中国。青藏高原是该属的起源地和多样性中心(Ho和Liu 2001)。经典文献如《神农本草经》和《 Jing Zhu Ben Cao》记载了其微寒的性质和治疗效果,包括祛风除湿和清虚热(Wang等人2022)。根据《中国药典》,Gentiana Macrophyllae Radix的官方植物来源包括G. macrophylla、G. straminea、G. crassicaulis和G. dahurica(中国药典委员会2022)。尽管在中国青海、宁夏、甘肃和陕西等地推广了栽培技术(Tian等人2012),但市场需求仍然严重依赖野生资源。这导致了栖息地破坏和遗传多样性的持续下降(Zhang等人2003)。栽培种群的遗传多样性通常低于野生种群(Lam等人2010;Zhu等人2002),从而削弱了它们应对环境压力的适应性和进化潜力(Smith等人2015)。
在药用植物中,遗传多样性直接影响次生代谢物的组成和产量(Ge等人2006)。因此,阐明Gentiana Sect. Cruciata的遗传结构和变异模式可以为种质鉴定、资源保护和优质品种的培育提供分子基础。同时也有助于理解地理分化和近缘物种的进化历史(Arbogast 2000)。然而,与关注其化学成分和药理特性的研究相比,Gentiana Sect. Cruciata的遗传多样性研究仍然有限(Cui等人2026)。随着分子标记技术的应用,涵盖形态学、生化和DNA水平的系统评估已成为可能(Zhu等人2024)。
当前研究面临三个主要限制:叶绿体基因组测序有限,难以揭示Gentiana属内的种间关系(Dong等人2021);密码子使用偏好(受自然选择、突变和遗传漂变调节)在Gentiana属的叶绿体基因组中缺乏全面分析;其质体中的密码子使用偏好模式尚未被充分研究(Grantham等人1981;Sun等人2018);DNA条形码用于植物鉴定时存在片段筛选效率低的问题(Liu等人2010;Ni等人2016)。
为系统解决上述挑战,本研究首次整合了整个叶绿体基因组比较、密码子使用偏好(CUB)分析、多基因位点DNA条形码筛选和机器学习算法,对Gentiana Sect. Cruciata的物种进行了全面分析。具体而言,通过整个叶绿体基因组测序和比较分析,可以克服数据稀缺的局限,提供高分辨率的基因组图谱,以阐明该属内的复杂种间系统发育关系。在此基础上,叶绿体基因组的CUB分析将揭示潜在的进化驱动因素(如自然选择或突变压力),填补该领域的重要研究空白。同时,通过筛选和评估多个候选DNA条形码片段,并运用机器学习分类器(BLOG和WEKA平台)(Shweta 2014;Emanuel等人2013)深入挖掘序列特征,我们将建立一个高效准确的分子鉴定系统。这解决了传统DNA条形码方法的效率问题。这种多层次的整合策略不仅突破了从基因组进化、自然选择压力和物种鉴定三个维度上的研究瓶颈,还实现了方法间的相互验证和互补,从而更系统、可靠地了解Gentiana Sect. Cruciata的遗传和进化情况。因此,本研究为该药用植物群的资源保护、真伪评估和品种培育奠定了分子理论基础。
部分摘录
获取DNA条形码序列
G. macrophylla的植物样本采集自中国陕西省龙县(106.86°E, 34.90°N),由西安医科大学的Xingjun Wang根据形态特征进行鉴定。使用TIANGEN Biotech DNA提取试剂盒提取基因组DNA,并储存在-20°C。使用通用引物(Ni等人2016;Zheng等人2022)对ITS、ITS2、matK和psbA-trnH序列进行PCR扩增。
IR区域的扩展和收缩
如图1所示,九个物种的叶绿体基因组在IR边界上存在差异,总长度范围为148,653至149,916 bp。三个区域的长度分别为:LSC 80,995–82,911 bp、SSC 17,029–21,315 bp和IR 22,845–25,337 bp。基因分布模式:除了G. macrophylla外,ndhF位于SSC区域并延伸至IRb区域54 bp。ycf1完全位于G. macrophylla的SSC区域内(2,610 bp),而在其他八个物种中则跨越SSC/IR区域。
讨论
本研究采用了一种综合的多方法框架——结合了整个叶绿体基因组比较、密码子使用分析、DNA条形码和机器学习——以实现三个核心目标:阐明Gentiana Sect. Cruciata内的种间系统发育关系,揭示其质体中的同义密码子使用偏好模式,并建立可靠的分子鉴定系统。以下讨论在这些背景下解读了主要发现。
结论
总之,本研究超越了描述性分析,从进化和应用的角度功能性地解释了基因组模式。动态的叶绿体结构和密码子使用模式反映了适应性进化策略,可能与高海拔环境和代谢需求有关。系统发育框架阐明了物种关系,而多基因位点条形码评估结合机器学习,建立了可靠且高效的分子鉴定方法。
CRediT作者贡献声明
Mingchen Gao:可视化、验证、软件开发、调查。Mengdi Zheng:撰写——审稿与编辑、撰写——初稿、项目管理、方法论、资金获取、概念构思。Xi Song:软件开发、资源管理。Zeran Zhang:验证、数据管理
未引用参考文献
Beier等人,2017;中国药典委员会,2020。
利益冲突声明
作者声明他们没有已知的可能会影响本文研究的财务利益或个人关系。
数据可用性声明
本研究中分析的九种Gentiana Sect. Cruciata物种的完整叶绿体基因组序列可在国家生物技术信息中心(NCBI)GenBank数据库中公开获取,访问编号如下:G. officinalis(NC039574.1)、G. straminea(NC027441.1)、G. waltonii(MK780032.1)、G. tibetica(NC030319.1)、G. lhassica(NC059703.1)、G. macrophylla(NC035719.1)、G. dahurica(NC039572.1)、G. siphonantha(NC039573.1)和G. crassicaulis(NC027442.1)。资助
西安医科大学2024年度科学技术能力提升专项计划(2024NLTS122),以及西安医科大学的2022年研究能力提升计划项目(2022NLTS084)。利益冲突声明
作者声明他们没有已知的可能会影响本文研究的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号