《PLOS Genetics》:Joint modeling of effect sizes for two correlated traits: Characterizing trait properties to enhance polygenic risk prediction
编辑推荐:
本文提出了一种新型多基因评分(PGS)方法PleioSDPR,通过联合建模两个遗传相关性状的效应大小,显著提升了目标性状的遗传风险预测精度。该方法创新性地考虑了区域特异性遗传相关性(local genetic correlation)和样本重叠导致的环境协方差(environmental covariance),在无验证数据集时仍保持优越性能。研究通过大量模拟和真实数据分析验证,当辅助性状具有更高遗传力(heritability)、更强遗传相关性及有限样本重叠时,PleioSDPR能有效提升目标性状预测准确率(如双相情感障碍预测提升14.5%)。这项工作为利用多效性(pleiotropy)优化疾病预防策略提供了重要工具。
多基因风险预测的新突破:PleioSDPR方法详解
近年来,多基因评分(PGS)方法的创新开发呈现井喷态势,推动其在疾病预防、监测和治疗中的广泛应用。然而,对于大多数性状而言,遗传风险预测的准确性仍然有限。当前大多数PGS仅基于目标性状的摘要统计量构建,而许多性状表现出不同程度的共享遗传结构或多效性。适当利用相关性状的多效性,有望提高目标性状PGS的性能。
方法创新:联合建模遗传效应
本研究提出的PleioSDPR方法,通过联合建模复杂性状的遗传效应,识别了利用多效性改善多基因风险预测的条件。该方法模拟跨性状效应大小的联合分布,允许SNP对两个性状均无效、仅对单一性状有效或对两个性状均有效,并灵活捕捉区域特异性遗传相关性和性状间不平衡的遗传力。
技术核心:四分类SNP效应架构
PleioSDPR的核心在于将SNP对两个性状的效应分为四类:双无效、性状1特异、性状2特异以及双有效且相关。对于后三类,进一步划分为具有不同局部遗传力和局部遗传相关性的子组分。这种方法通过截断stick-breaking过程表示分配概率,使用Dirichlet先验分布,并采用分层逆Gamma先验设定位点特异性项的方差分量。
考虑样本重叠:环境协方差建模
该方法特别考虑了样本重叠导致的环境协方差问题。当两个性状的研究样本存在重叠时,PleioSDPR通过修改似然函数,在马尔可夫链蒙特卡洛(MCMC)算法中准确表征连锁不平衡(LD)和由样本重叠产生的环境协方差。
性能验证:模拟与真实数据双验证
通过使用英国生物银行(UK Biobank)个体水平基因型数据的大规模模拟研究,团队评估了不同遗传相关性和样本重叠水平下各方法的预测性能。模拟设置考虑了无重叠、部分重叠和完全重叠三种样本情况,以及不平衡的遗传力(0.15和0.3)和不同的遗传相关性值。
在无验证数据集情况下,PleioSDPR在所有遗传相关性设置中一致优于其他PGS方法,特别是对于遗传力较低的性状。当两个性状的遗传相关性越高,PleioSDPR的预测越准确。与假设恒定遗传相关性和相等方差的SDPRx、假设恒定遗传相关性的mtPGS以及未考虑遗传相关性的PRScsx相比,PleioSDPR的表现显著更优,凸显了建模局部遗传相关性的重要性。
真实数据应用:多场景验证优势
在真实数据分析中,团队评估了不同样本重叠程度下PleioSDPR的性能,包括无样本重叠、部分样本重叠和完全样本重叠三种情况。
对于无样本重叠的性状对(腰围与体重、臀围与腿部去脂质量、2型糖尿病与腰臀比),PleioSDPR在所有六个性状中表现出最佳性能。特别是对于遗传力较低的腰围、臀围和2型糖尿病,PleioSDPR相比其他多变量PGS方法显示出更明显的改进。
在部分样本重叠情况下,团队发现考虑环境协方差估计能增强PleioSDPR的性能。当纳入环境协方差估计时,预测精度显著提升。对于精神疾病对(双相情感障碍与精神分裂症),PleioSDPR在预测双相情感障碍和精神分裂症方面表现最佳,准确率分别提升14.5%。
当两个性状的样本完全重叠时,所有方法的性能相当,没有单一方法明显优于其他方法。这表明当样本完全重叠时,从相关性状借用信息的机会有限,各方法主要依赖自身性状的信息。
关键影响因素:辅助性状特征
研究结果表明,选择与目标性状相似又能提供互补遗传信息的相关性状GWAS数据对提高预测准确性至关重要。当辅助性状具有以下特征时,PleioSDPR能最大程度提升预测性能:
- •
与目标性状有较高的遗传相关性
- •
具有较大的遗传力
- •
与目标性状的样本重叠有限
局限性与未来方向
尽管PleioSDPR表现出色,研究团队也指出了几个局限性。首先,该方法当前需要估计大量参数,可能增加模型的方差和不稳定性。其次,计算过程较为耗时,即使利用22条染色体的并行计算。未来工作将着重简化模型不必要的复杂组件,并探索使用C++重写代码以提高效率。此外,PleioSDPR目前仅限于同时分析两个相关性状,未来将扩展模型能力以包含多个相关性状。
学术与实践意义
本研究发展的PleioSDPR方法为利用多效性改善复杂疾病和性状的遗传风险预测提供了有效工具。通过更精细地建模性状间遗传架构的异质性,特别是考虑区域特异性遗传相关性和样本重叠导致的环境因素,该方法在缺乏验证数据集时仍能保持稳定优越的性能,为在资源有限 settings 下的遗传风险预测提供了实用解决方案。这项工作不仅推进了多基因评分方法学发展,也为未来整合多性状信息优化疾病预防和治疗策略奠定了重要基础。