综述:用于探索脂质生物学的特征脂质

《Journal of Lipid Research》:Eigenlipids for exploring lipid biology

【字体: 时间:2026年05月22日 来源:Journal of Lipid Research 4.1

编辑推荐:

  脂质组学(lipidomics)涉及对生物系统中数百甚至数千种脂质进行分析。由于结构相似性或代谢通路中的关联,许多脂质之间存在高度相关性。特征脂质(eigenlipids)这一概念源自转录组学(transcriptomics),可用于捕获这些关联,并据此探索其

  
脂质组学(lipidomics)涉及对生物系统中数百甚至数千种脂质进行分析。由于结构相似性或代谢通路中的关联,许多脂质之间存在高度相关性。特征脂质(eigenlipids)这一概念源自转录组学(transcriptomics),可用于捕获这些关联,并据此探索其组成脂质与目标表型之间的关系。然而,基因表达数据与脂质浓度数据在数据结构上存在差异,因此在特征脂质分析中需要额外的方法学考量。该综述讨论了特征脂质的生成方式、其在探索脂质代谢与脂质生物学中的应用、潜在的使用陷阱,以及未来可能的方法学发展方向,例如替代性降维方法,以及针对预定义脂质集合而非无监督聚类生成特征脂质。
Introduction

本文围绕特征脂质(eigenlipids)在脂质组学(lipidomics)中的方法学基础、应用现状、局限性及未来发展进行综述。脂质组学旨在系统刻画生物体内完整脂质组(lipidome)并分析其与可观测表型之间的关系。随着检测深度、脂质覆盖范围及群体研究样本量迅速扩大,研究人员亟需新的数据简化与解释工具。特征脂质正是在这一背景下被引入脂质组学,用于将一组高度相关的脂质压缩为低维表征,从而以较少的汇总变量分析脂质网络与疾病、代谢状态及其他表型之间的关联。文章指出,该方法最初借鉴自转录组学中的特征基因(eigengene)思想,通常先依据相关性构建脂质间相异度矩阵,再通过聚类形成模块,随后在每个模块内实施主成分分析(principal component analysis, PCA),并以第一主成分作为模块的特征脂质表示。作者同时强调,脂质代谢网络较基因表达网络更复杂,脂质可同时受头基、脂酰链长度及平行代谢通路等多重因素影响,因此传统转录组学框架下的方法并不一定能够完全适用于脂质组数据。

Eigenlipids in the literature

文献综述部分指出,特征脂质在脂质组学中的应用仍属较新方向,主要集中在近3至6年,但其应用对象已迅速扩展至多种人类疾病及植物、动物、微生物等不同生物体系。已有研究在设计上存在明显差异:部分研究采用人群队列设计,将特征脂质与骨质疏松、动脉粥样硬化等疾病状态相关联,并比较不同疾病状态下特征值变化以解析脂质组结构改变;另一些研究则更强调代谢网络内部关系,分析脂质在代谢通路中的协同变化及其与疾病的集体关联;还有研究关注模块内枢纽脂质(hub lipid)的识别,以寻找与疾病高度相关的关键脂质标志物。总体而言,现有研究覆盖的脂质类别主要包括甘油脂(glycerolipids)、甘油磷脂(glycerophospholipids)、鞘脂(sphingolipids)和固醇脂(sterol lipids),所采用的分析方式包括特征值比较、线性回归、相关分析、网络分析及多元方差分析等。该部分表明,特征脂质已从概念性工具逐步发展为服务于疾病关联分析和生物学解释的重要分析框架。

Eigenlipid methodology

本节系统梳理了特征脂质的一般构建流程。作者指出,当前主流流程多承袭加权基因共表达网络分析(Weighted Gene Correlation Network Analysis, WGCNA)框架。整体步骤包括:首先定义脂质之间的相异性;其次基于相异性进行聚类;最后在每个聚类模块内通过降维获得模块的特征脂质。这样得到的模块级别变量可进一步用于与表型的关联检验。该方法的核心目标是在尽量保留生物学相关性的同时,大幅降低分析维度和多重检验负担。

Dissimilarity matrix

在特征脂质分析中,脂质聚类的前提是构建脂质-脂质相异度矩阵。通常做法是将脂质间相关系数转换为相异性度量,最常见的定义是1减去脂质间相关系数。相关性可采用皮尔逊相关(Pearson’s correlation),也可使用斯皮尔曼相关(Spearman’s correlation)或双权中值相关系数(bi-weight mid correlation coefficient)等鲁棒性更强的指标。该矩阵决定了哪些脂质被视为彼此接近,因而直接影响后续模块划分结果。作者在此隐含强调,相关性度量的选择并非纯技术问题,而会决定研究者看到的脂质网络结构。

Scale-free topology and hub lipids

作者进一步讨论了当前常见流程中对无标度拓扑(scale-free topology)的假设。典型做法是将相关矩阵按幂指数β进行变换,以增强强相关、抑制弱相关,从而使网络更接近具有枢纽结构的无标度拓扑。在这种框架下,每个模块通常围绕一个与其他脂质高度相关的中心枢纽脂质展开。β值的选择通常依赖尺度独立性与平均连通度之间的平衡,目标是在保证网络近似满足幂律分布的同时,避免模块过于稀疏。文中还介绍了平均连通度的计算思想,即对每个脂质与相邻脂质的连接强度求和,再在所有脂质间求均值。该部分指出,现有方法普遍默认脂质相关结构可以被枢纽模型较好描述,但这一假设可能更适用于转录组数据,而未必适合脂质代谢网络。

Clustering algorithm

在获得相异度矩阵之后,需要借助聚类算法形成脂质模块。文中指出,最常见的方法是凝聚型层次聚类(agglomerative hierarchical clustering),其通过不断合并脂质或簇形成树状图(dendrogram)。不同联接准则如单联接、平均联接、全联接及Ward法,会对类间距离的定义和模块结构产生不同影响。模块形成后,还需对树状图进行切割。传统静态切割方法依据固定树高h或预设簇数k划分模块,简单但可能产生生物学意义不足的簇。为改善这一问题,动态树切割(dynamic tree cut)和动态混合切割(dynamic hybrid cut)方法被提出,它们会结合分支紧密度、分支间距、根节点深度、最小模块大小以及原始相异度矩阵等信息,对模块划分进行更灵活的优化。部分研究也采用k均值聚类(k-means clustering),但由于WGCNA工具链更成熟,层次聚类仍为主流方案。

Generating and using eigenlipids

在模块形成后,研究人员通常对每个模块单独实施PCA,并选取能够解释最大方差的第一主成分作为该模块的特征脂质。由于相异度矩阵在前处理中往往经过较高β值变换,模块内部的变异通常已较集中,因此第一主成分往往能吸收大部分信息。随后,研究者可通过模块得分与表型之间的分布比较、回归建模、t检验、方差分析(analysis of variance, ANOVA)或网络分析等方式,探索脂质模块与疾病状态、代谢特征及其他生物学结果之间的关系。作者还指出,由于特征脂质模块通常由无监督方法产生,其生物学意义并非天然明确,因此富集分析(enrichment analysis)成为解释模块内容的重要手段。借助脂质本体(ontology)或标准化术语库,可检验特定脂质类别、结构特征或通路注释在某一模块中的过度代表性,从而提升结果的可解释性。

Comparison of eigenlipid methodology with traditional lipidomic data analysis

作者将特征脂质方法与传统脂质组学统计分析进行比较。传统分析通常依赖单变量方法,如t检验、ANOVA、线性或逻辑回归及非参数检验,这些方法具有解释直观的优点,但在数百到数千种脂质同时检验时会面临严重的多重比较问题,从而降低统计功效。另一类常见方法是全数据矩阵层面的聚类或PCA,前者虽能识别相似脂质群,但无法自然生成稳健的模块汇总指标;后者虽能提取总体主要变异轴,却可能掩盖小规模但生物学重要的亚群结构。相比之下,特征脂质方法将聚类的生物学特异性与PCA的数学压缩能力结合起来,先形成相关脂质模块,再以模块级得分开展后续统计分析,因此能够在保留系统水平信息的同时显著降低维度和多重检验负担。

Potential drawbacks of eigenlipid methodology

在方法局限方面,作者重点总结了三类问题。首先,特征脂质通常来源于无监督聚类,这导致模块定义依赖具体数据集,跨队列迁移性有限,也增加了解释难度。其次,当前工具常默认脂质网络满足无标度拓扑,但脂质代谢中存在平行通路、复杂结构组成以及低丰度枢纽脂质等情况,这些因素都可能使脂质相关结构偏离典型的转录组枢纽模型。再次,PCA本身也存在局限:第一主成分只反映最大线性变异来源,无法充分覆盖一个模块内部可能同时存在的多个生物学变化轴;同时,PCA更适用于近似高斯分布(Gaussian distribution)的线性数据,而脂质组数据往往呈右偏分布,且受酶动力学和基因调控等非线性机制影响。作者因此强调,β值设定、模块数目及每个模块保留多少主成分均需依据研究目标谨慎确定。此外,特征脂质分析容易因无监督建模而产生过拟合与数据泄漏问题,因此应重视模块稳健性与可重复性评估,可结合WGCNA、NetRep、富集分析比较,或采用PCA自助法(bootstrapping PCA)评估模块稳定性。

Extensions of eigenlipid methodology

针对上述局限,文章提出了若干潜在扩展方向。第一类是监督式特征脂质(supervised eigenlipids),即不再依赖纯数据驱动聚类,而是依据脂质本体、脂质类别、亚类、结构特征、侧链组成或已知代谢通路预定义模块。这种方法既有助于提高生物学可解释性,也允许同一脂质同时出现在多个功能相关模块中。第二类扩展是引入低阶主成分。若不强制采用高β值构建极紧密模块,则一个模块中可能保留多个有意义的变异来源,此时除第一主成分外,较低阶主成分也可能分别代表不同的生物学信号。第三类扩展是采用替代性降维方法,包括偏最小二乘回归(partial least squares, PLS)、稀疏主成分分析/稀疏偏最小二乘(sparse-PCA/PLS)、独立成分分析(independent component analysis, ICA)、核主成分分析(Kernel Principal Component Analysis, KPCA)及变分自编码器(Variational Autoencoders, VAE)。其中,PLS属于监督式降维,可增强与结局变量的协方差,但也更容易过拟合;稀疏方法通过惩罚项压缩载荷,提高潜变量可解释性;ICA适用于识别非高斯独立信号;KPCA和VAE则更适合刻画非线性、非高斯结构。文中还提到,相较于PCA,VAE和KPCA在某些疾病相关代谢研究中显示出更强的关联能力和跨队列泛化潜力,但也需要通过正则化等手段控制过拟合。

Conclusions

结论部分认为,特征脂质已成为探索脂质在生物系统中作用及其与表型关联的重要工具,但当前主流方法仍深受转录组学分析范式影响。脂质相关网络往往比基因表达网络更致密、结构更复杂,单纯强调第一主成分、线性关系、正态性及无标度拓扑,可能不足以完整反映脂质代谢的真实生物学。未来研究可进一步发展监督式模块构建、低阶主成分分析以及更适合复杂数据结构的降维方法,如sparse-PCA/PLS、ICA、KPCA和VAE等。总体而言,特征脂质方法具有显著的系统生物学分析潜力,但其有效应用依赖于合理的方法选择、参数设定、过拟合控制以及跨数据集的可重复性验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号