基于年龄概率分布和甲基化不确定性的新型表观遗传时钟模型在夏威夷伪虎鲸年龄预测中的创新应用

《Molecular Ecology Resources》:Epigenetic Age Estimation for Hawaiian False Killer Whales (Pseudorca crassidens) in the Absence of ‘Known-Age’ Individuals

【字体: 时间:2026年01月18日 来源:Molecular Ecology Resources 5.5

编辑推荐:

  本文提出了一种创新的表观遗传年龄预测方法,通过整合年龄估计不确定性(采用Kratofil等人提出的偏态正态分布)和甲基化测量不确定性(采用二项分布),开发了首个能够输出年龄概率分布的夏威夷伪虎鲸(Pseudorca crassidens)甲基化年龄时钟(MAE=1.70年)。该方法突破了传统模型对"确知年龄"样本的依赖,利用照片识别目录数据,为缺乏确知年龄个体的濒危物种提供了高精度年龄预测新范式。

  
摘要
表观遗传衰老模型在野生动物研究和管理中具有巨大潜力,但其应用受限于需要大量确知年龄个体进行模型训练。本研究针对夏威夷伪虎鲸这一濒危物种,开发了一种新型甲基化年龄预测方法,创新性地将年龄估计不确定性(通过照片识别目录数据获得)和甲基化测量不确定性纳入模型构建过程。
引言
野生种群年龄估计长期面临挑战。传统方法如生长层计数需要死亡标本,而分子年龄生物标志物(MABs)特别是DNA甲基化分析,为活体动物年龄估计提供了新途径。然而,现有甲基化时钟方法需要70-134个确知年龄样本进行训练,这对许多野生动物种群而言难以实现。
材料与方法
研究选取96个皮肤样本(来自80个个体),基于Cascadia研究集体的照片识别目录数据,采用Kratofil等人开发的协议生成每个个体的年龄概率分布。通过靶向DNA甲基化测序分析8个基因座的184个CpG位点,使用四种机器学习方法(弹性网络回归ENR、支持向量机SVM、随机森林RFR、广义可加模型GAM)进行模型训练。
模型设计与优化
研究系统比较了五种模型设计选择:训练方法、年龄转换方式、CpG位点选择、训练样本集选择及样本加权方案。最佳模型采用SVM方法训练,使用置信评级(CR)4+样本,不进行对数转换,通过ENR逐步调优选择47个信息性CpG位点。
重采样与不确定性整合
创新性地采用重采样方法,从每个样本的年龄概率分布和甲基化二项分布中随机抽取1000个副本,生成预测年龄概率分布而非点估计。该方法首次实现了输入数据不确定性的完整传递。
结果
最终模型的整体中位绝对误差(MAE)为1.70年,预测年龄与Agebest相关性达0.93。模型在不同年龄组表现差异显著:0-9岁组MAE=1.44年,10-24岁组MAE=1.50年,25岁以上组MAE=3.00年。年龄预测概率分布的95%最高密度区间(HDI)覆盖了90%样本的Agebest值,对13对重复样本的年龄顺序预测正确率达85%。
讨论
本研究首次实现了表观遗传年龄预测中不确定性的完整量化传递。与现有方法相比,该模型在样本年龄不确定性较大的情况下仍保持较高精度(MAE=1.70年),优于许多使用确知年龄样本训练的已发表时钟。方法学创新包括:1)使用偏态正态分布表示年龄不确定性;2)用二项分布表示甲基化测量不确定性;3)通过重采样生成预测年龄概率分布。
模型对高龄个体预测精度下降的可能原因包括:高龄样本量不足、年龄估计不确定性随年龄增加而增大、以及甲基化与年龄关系的非线性特征。研究还发现,基于牙齿生长层组(GLG)的年龄估计与模型预测存在差异(平均残差0.85),可能反映了搁浅个体与活体活检样本的生理状态差异。
结论与展望
该方法突破了表观遗传年龄预测对确知年龄样本的依赖,为缺乏准确年龄记录的濒危物种提供了可靠年龄估计工具。通过产生预测年龄概率分布,使研究人员能够准确传达年龄估计的不确定性,支持保护管理决策。未来可扩展应用于其他数据稀缺的濒危物种,推动保护生物学研究从点估计向概率估计的范式转变。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号