东北虎粪便DNA甲基化特征及其在年龄估算中的应用

《Global Ecology and Conservation》:Characteristics of fecal DNA methylation and usability in tiger Age estimation

【字体: 时间:2026年06月06日 来源:Global Ecology and Conservation 3.4

编辑推荐:

  年龄结构是野生动物种群动态及保护管理的关键决定因子,但可靠的个体年龄估算通常依赖侵入性采样。表观遗传时钟(epigenetic clock)使基于DNA的年龄预测可跨物种实现,但其应用于野生动物时仍受限于需采集血液或组织样本。粪便可提供非损伤性(non-inv

  
年龄结构是野生动物种群动态及保护管理的关键决定因子,但可靠的个体年龄估算通常依赖侵入性采样。表观遗传时钟(epigenetic clock)使基于DNA的年龄预测可跨物种实现,但其应用于野生动物时仍受限于需采集血液或组织样本。粪便可提供非损伤性(non-invasive)替代材料,然而迄今基于粪便的年龄预测精度有限。研究人员以已知年龄圈养东北虎(Panthera tigris altaica)为模型,通过全基因组重亚硫酸氢盐测序(whole-genome bisulfite sequencing, WGBS)表征主要源自脱落肠上皮细胞的粪便核DNA(nuclear DNA, nuDNA)甲基化模式,鉴定出512个年龄关联甲基化位点,并基于甲基化水平及甲基化异质性(methylation heterogeneity),分别采用弹性网络回归(Elastic Net regression)、支持向量机(support vector machine, SVM)和随机森林回归(random forest regression, RF)构建年龄预测模型。随机森林模型表现最优:训练集决定系数(R2)=0.981,平均绝对误差(mean absolute error, MAE)=7.18个月;独立测试集R2=0.972,MAE=7.37个月。预测误差约占最大采样年龄(220个月)的3.35%,占圈养东北虎已知寿命的2.46%~2.79%,优于已报道的哺乳动物粪便或组织来源表观遗传时钟。结果表明粪便核DNA保留充足的年龄关联表观遗传信息可用于精确年龄估算。研究人员进一步提出圈养—野生等效年龄框架以促进在自由生活种群中的应用。尽管受限于样本量及验证策略,此项探索性研究表明粪便及相应技术框架可用于野生动物管理与保护实践中的年龄结构推断。
论文解读:东北虎粪便DNA甲基化特征及其在年龄估算中的应用
《Global Ecology and Conservation》刊载的此项研究,针对野生动物年龄结构未知制约种群动态评估与保护决策的现状展开。传统年龄判定依赖牙齿或骨骼生长环、磨损程度等形态学特征,需致死取样或侵入性操作,不适用于珍稀濒危物种;现有分子手段如端粒长度、转录组或基于血液的表观遗传时钟(epigenetic clock)亦需采血或组织。粪便作为最易获取的非损伤性(non?invasive)材料含宿主脱落肠上皮细胞来源的核DNA(nuclear DNA, nuDNA),但既往粪便微生物组衰老钟仅能作粗略分类且受饮食季节影响大,宿主源粪便DNA甲基化能否支撑高精度连续年龄预测尚不明晰。本研究以已知年龄圈养东北虎(Panthera tigris altaica)为对象,通过宿主DNA富集结合全基因组重亚硫酸氢盐测序(whole?genome bisulfite sequencing, WGBS)解析粪便nuDNA甲基化景观,筛选年龄关联CpG位点及甲基化异质性(methylation heterogeneity)指标,构建并评估多种机器学习模型,证实粪便nuDNA可开发为高精度的表观遗传年龄时钟(epigenetic age clock),为野生种群年龄结构调查提供非损伤性技术路径。
主要关键技术方法
研究人员自黑龙江东北虎林园及中国横道河子猫科动物饲养繁育中心采集10~220月龄圈养东北虎新鲜粪便40份,经PEERS(Peri?extraction Enrichment by SDS)法富集宿主组分,以核DNA富集效率(enrichment efficiency, EEN=宿主nuDNA拷贝数/细菌基因组DNA拷贝数)≥1×10?3为质控阈值筛得33份样本。文库经EZ DNA Methylation Kit重亚硫酸氢盐转化后以xGen? Methyl?Seq建库,Illumina HiSeq 2000平台80×深度双端测序。生物信息学流程包括Trim Galore/fastp质控、BSMAP比对至东北虎参考基因组(PtaHapG)、MethylDackel提取CpG甲基化率、Metheor计算甲基化熵(methylation entropy, ME)、表位多态性(epipolymorphism, PM)、不一致读段比(fraction of discordant read pairs, FDRP)及定量不一致读段比(quantitative FDRP, qFDRP)四项异质性指标。全基因组Spearman相关筛取|ρ|≥0.5的年龄关联位点,数据集按约8∶2分为训练集(n=26)与独立测试集(n=7,原文摘要记为n=6),分别以Elastic Net、SVM(SVR)和Random Forest(RF)建模,留一法交叉验证(leave?one?out cross?validation, LOOCV)内调参,以R2、MAE及均方根误差(root mean squared error, RMSE)评价效能;另做测序深度欠抽样模拟及KEGG通路富集分析。
研究结果
3.1 Data quality of whole genome bisulfite sequencing(全基因组重亚硫酸氢盐测序数据质量)
33份粪便样本WGBS平均产出1.44×109条clean reads,Q20碱基占比均值91.84%,基因组比对后未检出猎物源外源DNA污染,全基因组平均覆盖度83.73%(95%CI [77.29%, 90.17%]),证明PEERS富集联合WGBS可获得高质量宿主甲基化数据。
3.2 Evaluation of host DNA enrichment and sequencing depth adequacy(宿主DNA富集效率与测序深度充足性评估)
逻辑回归拟合显示有效CpG位点数随EEN升高快速增加并趋于饱和(理论平台K≈5.82×107),EEN=0.0195可达95%平台;基因组覆盖度亦于EEN=0.0159达95%饱和,表明数据产出主要受宿主DNA富集效率而非测序深度限制。五例个体欠抽样显示CpG检测饱和所需深度仅相当于总读长的9.8%~16.1%(约7.84×~12.88×),证实本研究80×测序深度远超饱和点。
3.3 Global methylation of fecal DNA(粪便DNA全基因组甲基化概况)
全局鉴定64,092,407个胞嘧啶甲基化位点,CpG背景下甲基化占87.90±1.99%,CHG与CHH极少;各染色体CpG位点回收率82.9%~99.3%,呈全基因组近饱和、无偏覆盖。整体CpG甲基化率均值0.79±0.27且左偏分布,>75%位点的甲基化率>0.97,提示东北虎粪便DNA呈典型哺乳动物高甲基化状态。甲基化异质性均值0.3229±0.1584,呈右偏分布。年龄关联CpG位点KEGG富集于PI3K?Akt、AGE?RAGE、Rap1、糖胺聚糖(glycosaminoglycan, GAG)结合蛋白及合成、多巴胺能通路等经典衰老相关通路。
3.4 Changes of fecal DNA methylation with age(粪便DNA甲基化随年龄的变化)
幼体(10~37月)、成体(88~100月)、老年(137~220月)三组间全基因组CpG甲基化率(Kruskal?Wallis, p=0.000~0.002)及异质性指标(幼体与成体/老年比较P=4.37E?12~1.45E?02;成体vs老年仅qFDRP显著P=3.03E?03)均存在显著差异。三组分别鉴定得13,990(Juvenile vs Elderly)、150,064(Juvenile vs Adult)、28,530(Adult vs Elderly)个差异甲基化区域(differentially methylated region, DMR),多位于基因间区(79.33%~81.15%)与内含子(17.06%~18.91%),启动子区占比极低;阶段特异性位点富集通路依次为发育增殖信号(Rap1/Ca2+/cAMP)→组织维持与肿瘤相关(PI3K?Akt/细胞黏附分子)→细胞衰老与应激(AGE?RAGE/皮质醇分泌),体现真实生物学老化轨迹。
3.5 Predicting age using fecal DNA methylation(基于粪便DNA甲基化的年龄预测)
全基因组Spearman相关筛得5,840个年龄关联CpG位点(|ρ|≥0.5),取前400个高相关CpG位点单独建模时三种算法测试集MAE分别为Elastic Net 9.15月、SVM 7.50月、RF 10.42月,R2均>0.95,SVM略优。仅用异质性指标(FDRP最佳)时RF于测试集R2=0.971、MAE=±12.34月。将400个CpG甲基化率与112个异质性位点(共512个位点)整合入模型,RF表现最均衡:训练集R2=0.981、MAE=±7.18月;独立测试集R2=0.972、MAE=±7.37月,训练—测试MAE差仅0.19月,过拟合风险低,综合优于单一指标模型。欠抽样显示80×深度下三模型训练与测试R2差异最小(0.009~0.033)、MAE最低且跨集波动最小,确认80×为推荐测序深度。
讨论与结论总结
讨论指出EEN是非损伤WGBS数据可用性的首要限制因素,适度富集(EEN~0.0159~0.0195)即能捕获足够年龄信息CpG;粪便中宿主DNA降解主要影响得率而非甲基化状态真实性。粪便nuDNA甲基化呈典型哺乳类CpG主导高甲基化且全基因组近饱和回收,年龄关联位点多富集于基因间区与内含子——符合表观遗传漂移(epigenetic drift)积累机制,且各生命阶段功能富集通路转换印证捕获了真实生物学老化。整合甲基化水平与异质性多维信息的RF模型克服肠道微环境噪声,建立目前报道精度最高的粪便表观遗传时钟;局限含样本量偏小、位点需跨平台简化及模型基于圈养个体,未来应引入纵向重复采样、向野生个体校准并开发靶向panel降成本。研究结论:本研究首次给出33只东北虎粪便WGBS全基因组甲基化图谱,鉴定出分布于基因间区、内含子、外显子及启动子的显著年龄关联甲基化变化;整合512个位点(400个CpG甲基化率+112个甲基化异质性指标)的随机森林表观遗传时钟预测实际年龄平均绝对误差(MAE)为7.37个月(R2=0.972),为基于圈养参照个体的非损伤性年龄估算提供可靠工具,并展现于多物种野生动物保护与衰老研究中推广的潜力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号