《GeroScience》:A new sparse Bayesian quantile neural network-based approach and its application to discover physiological sweet spots in the Canadian Longitudinal Study on Aging
编辑推荐:
识别生理最优区间(physiological sweet spots,即维持稳态的最佳范围)是实现精准医学的核心环节。传统统计方法多依赖全局线性或局部锯齿状模型,难以捕捉高维数据中生物调控固有的平滑非线性特征。研究人员提出了分位数特征选择网络(Quantile
识别生理最优区间(physiological sweet spots,即维持稳态的最佳范围)是实现精准医学的核心环节。传统统计方法多依赖全局线性或局部锯齿状模型,难以捕捉高维数据中生物调控固有的平滑非线性特征。研究人员提出了分位数特征选择网络(Quantile Feature Selection Network, Q?FSNet),这是一种集成分位数回归、特征选择与不确定性估计的神经网络框架,用于识别具有最优区间的生物标志物。与传统方法不同,Q?FSNet可在无需预先指定变化点数量的情况下学习连续响应曲线。研究人员进一步引入了分位数狄利克雷网络(Quantile Dirichlet Network, Q?DirichNet)这一完全贝叶斯扩展模型,其利用狄利克雷先验(Dirichlet priors)实现特征收缩的自动化。基于加拿大老龄化纵向研究(Canadian Longitudinal Study on Aging)的数据,研究人员识别出25种代谢物,其特定的稳态范围可使生物年龄加速(biological age acceleration)降至最低。其中具有生物衰老相关最优区间的代谢物部分来源于饮食或由肠道微生物组产生,凸显了其知识转化潜力与公共卫生影响。研究结果与现有文献相互印证,表明这类稀疏神经网络方法为大规模组学研究提供了一种可扩展且可解释的工貝,可用于发现健康衰老与失调相关的代谢特征。
研究背景方面,精准医学旨在依据个体生物学特征制定预防与治疗策略,其核心在于维持内环境稳定的稳态调节机制。许多生物标志物在特定范围内发挥最佳功能,这些生理最优区间的偏离往往意味着调控能力的丧失及衰老相关代谢疾病的发生。然而,现有方法多采用分段回归检测阈值效应,需预先设定变化点的数量与位置,且常假设斜率发生突变,这与生物调控的平滑适应性不符。此外,传统回归聚焦于平均效应,忽略了代谢物与表型关联在结果分布不同分位上的异质性,而分位数回归(quantile regression)虽可解决此问题,但在高维代谢组学中应用受限,常用机器学习方法易产生不连续的阶梯状预测,不利于识别最优区间。标准神经网络在高维表格数据中易出现过度拟合,且缺乏可靠的不确定性估计。
为解决上述问题,研究人员开发了Q?FSNet及其贝叶斯扩展Q?DirichNet。研究基于加拿大老龄化纵向研究基线数据,通过严格的质量控制最终纳入804种代谢物,并以生物年龄加速为核心表型开展分析。结果表明,Q?FSNet在公开基准数据集及CLSA数据中均表现出优异的预测性能与校准能力,显著优于套索分位数回归、梯度提升机及标准多层感知机。应用该模型,研究人员从102个被赋予非零权重的代谢物中识别出25个具有生理最优区间的代谢物,涵盖7种氨基酸、14种脂质、3种外源物质及1种维生素。例如,十七烷酸(margaric acid)的最优区间在女性中更为显著;香草扁桃酸(vanillylmandelate)的最优值在两性间基本一致;牛磺鹅去氧胆酸(taurochenodeoxycholate)在生物年龄较高的男性中需要更高水平以维持最佳功能;3-甲酰基吲哚(3?formylindole)的最优区间仅存在于低生物年龄加速的男性中;鸟氨酸(ornithine)超出最优范围后男性生物年龄加速上升更为急剧;犬尿喹啉酸(kynurenate)则呈现出典型的U型关联,表明不足或过量均会加速生物衰老。
关键技术方法方面,研究人员采用分位数回归框架,以钉损失(pinball loss)作为优化目标,构建了集成特征选择层的多层感知机架构Q?FSNet,并通过蒙特卡洛丢弃法(Monte Carlo dropout)实现预测不确定性估计。其贝叶斯版本Q?DirichNet在特征选择层引入狄利克雷先验,并使用不对称拉普拉斯分布(asymmetric Laplace distribution)作为似然函数,通过马尔可夫链蒙特卡洛(MCMC)方法进行后验推断。研究样本来自加拿大老龄化纵向研究综合队列(CLSA?COM),包含约3万名45至85岁参与者,分析时按性别分层,并校正饮酒、吸烟、教育程度及腰臀比等协变量。数据经缺失值多重插补、对数转换与标准化后,按7:1.5:1.5比例划分为训练集、验证集与独立测试集,并采用贝叶斯优化进行超参数调优。
研究结果部分,首先在公开数据集评估中,Q?FSNet在高分位数(0.5、0.7、0.9)的预测损失低于传统方法,且经验覆盖概率更接近名义分位数,显示出更好的校准性能。Q?DirichNet虽有改进但未超越Q?FSNet。在CLSA队列应用中,Q?FSNet在分位数损失与覆盖偏差方面均显著优于梯度提升机与多层感知机,且训练时间远短于Q?DirichNet。随后,研究人员通过偏依赖图分析识别出25种具有最优区间的代谢物,并详细阐释了其中6种的生物学意义,证实这些代谢物广泛参与脂代谢、儿茶酚胺代谢、胆汁酸稳态、肠道菌群代谢、尿素循环及神经调节等通路,且部分代谢物的最优区间存在性别与生物年龄分位的差异。
讨论部分指出,Q?FSNet通过神经网络的连续流形学习能力,避免了传统方法的阶梯状伪影,实现了对高维数据非线性效应的平滑检测,并集成了特征选择与不确定性估计,解决了分位数交叉问题。识别出的25种代谢物多数具有明确的生物学功能支持,但需注意本研究发现的关联尚不能确立因果关系,统计最优区间亦不等同于真实生理调定点。研究局限性包括蒙特卡洛丢弃法未涵盖偶然不确定性,以及结果基于横断面数据且仅代表加拿大中老年人群。未来工作将结合纵向随访数据,探索代谢物轨迹的动态变化,并融合因果推断方法。该研究发表于《GeroScience》,为解析人类健康与衰老的非线性代谢特征提供了强有力的工具。