洛伦兹信息与神经常微分方程自编码器(LAIOR):用于单细胞多组学轨迹推断的几何学习

《Frontiers in Genetics》:LAIOR: a hyperbolic neural ODE variational framework for interpretable single-cell manifold learning and trajectory inference

【字体: 时间:2026年06月08日 来源:Frontiers in Genetics 2.8

编辑推荐:

  研究人员的模型LAIOR是一种面向单细胞多组学轨迹推断的几何变分自编码器。其将隐空间嵌入洛伦兹模型(Lorentz model)的双曲流形Hl,以保持细胞层级与分化连续体;引入信息瓶颈(information bottleneck)压缩共享生物程序;并以神经常

研究人员的模型LAIOR是一种面向单细胞多组学轨迹推断的几何变分自编码器。其将隐空间嵌入洛伦兹模型(Lorentz model)的双曲流形Hl,以保持细胞层级与分化连续体;引入信息瓶颈(information bottleneck)压缩共享生物程序;并以神经常微分方程(Neural ODE)对伪时间(pseudotime)动态进行自监督正则化。重建采用负二项(Negative Binomial, NB)或零膨胀(Zero-Inflated, ZI)似然。总损失Ltotal=λreconLrecon+λireconLirecon+λgeomLgeom+βLKL+λODELODE联合优化重构、KL散度、洛伦兹距离及ODE一致性。在53个scRNA-seq与65个scATAC-seq基准中,LAIOR在NMI、ARI及新提出的耦合度(COR)上优于标准VAE、scVI与TrajectoryNet等基线;其洛伦兹几何提升了流形维度Mdim与谱衰减Sdecay,信息瓶颈提高了参与比Pratio,Neural ODE改善轨迹方向性Tdir与噪声鲁棒性Nres。伪时间由编码器头预测并在RK4积分下驱动潜速度场?=fθ(z,t),实现无外部标注的自洽时序。细胞类型结构由原始表达空间的K-means伪标签参照,潜空间聚类通过NMI/ARI/ASW/CAL/DAV评估。内在流形质量由谱、各向异性Ascore与合成Qoverall刻画。研究人员认为LAIOR通过双曲几何、信息压缩与连续时间动力学的协同,为复杂生物系统的低维、可解释、时序一致表示提供了统一框架,发表于《Frontiers in Genetics》。
论文解读:LAIOR——面向单细胞多组学轨迹推断的几何自编码器
一、研究背景与立题依据
单细胞多组学技术可同时捕获转录组与染色质可及性,但数据具高维、稀疏、零膨胀与强批次效应特点。传统变分自编码器(VAE)多假设欧氏潜空间,难以刻画细胞分化固有的树状/层级连续体;现有轨迹推断工具常依赖外部伪时间标注,且对跨数据集泛化与生物程序解耦支持有限。为此,研究人员提出LAIOR(Lorentz Information & ODE Autoencoder),通过在洛伦兹双曲流形上建模层级、引入信息瓶颈压缩共享程序、以Neural ODE自监督学习时序动态,旨在构建统一、可解释且时序一致的单细胞多组学表示框架。该工作发表于《Frontiers in Genetics》。
二、关键技术与研究设计(简述)
研究人员以负二项或零膨胀负二项作为观测似然,构建变分自编码器。核心设计包括:1)将l维欧氏编码映射到洛伦兹模型Hl(指数映射expo),以双曲距离dH保持层级;2)设置低维瓶颈i< />e再解压为ld,几何正则项Lgeom=dH(zL,ldL)约束原潜点与瓶颈点在流形上的距离;3)编码器额外输出伪时间t∈[0,1],由Neural ODE定义dz/dt=fθ(z,t),以RK4积分解zODE,损失LODE约束编码器潜变量与积分轨迹的一致性;4)总损失联合重构、KL(β)、瓶颈重构(λirecon)、几何(λgeom)与ODE(λODE)。基准涵盖53个scRNA-seq、65个scATAC-seq及8个应用队列(人/小鼠造血、胰腺发育、扰动等),以原始表达空间K-means伪标签为参照,从NMI、ARI、ASW、CAL、DAV及新指标COR、Mdim、Sdecay、Pratio、Ascore、Tdir、Nres、Qembed等多角度评估。
三、主要研究结果
2.1 模型架构
研究人员设计Transformer或MLP编码器输出μ,σ,经重参数化得z∈Rl;通过expo([0,clamp(z,?5,5)]?)得zL∈Hl。瓶颈路径:le=Wez+be, ld=Wdle+bd, ldL=expo([0,clamp(ld,?5,5)]?)。两路分别解码重构,并与ODE路径并行。
2.2 洛伦兹几何与距离
洛伦兹内积?x,y?L=?x0y0i≥1xiyi,流形Hl={x|?x,x?L=?1,x0>0}。距离dH(x,y)=arccosh(max(1+10?8,??x,y?L));当??x,y?L>104用log(2·(??x,y?L))近似。研究人员以此作为几何惩罚,使瓶颈压缩与原始潜表示在双曲空间对齐。
2.3 Neural ODE与伪时间
编码器通过sigmoid头预测伪时间t,无外部标注;细胞按t排序去重后以RK4从z(?t1)正向积分:k1=fθ(zn,tn), k2=fθ(zn+Δt/2·k1,tn+Δt/2), k3=fθ(zn+Δt/2·k2,tn+Δt/2), k4=fθ(zn+Δt·k3,tn+Δt),zn+1=zn+Δt/6(k1+2k2+2k3+k4)。fθ为两层的ELU网络。LODE约束z(?ti)与zODE(?ti)的MSE,使潜速度场自洽。
2.4 损失与训练
总损失为LtotalreconLreconireconLirecongeomLgeom+βLKLODELODE。默认λrecon=1.0, λirecon=1.0, λgeom=5.0, β=1.0, λODE=1.0。Lrecon与Lirecon分别为原始与瓶颈路径的负对数似然(NB/ZINB),库大小缩放μjj·s。KL为N(μ,diag(σ2))与N(0,Il)间闭合形式。Adam(η=10?4, B=128),梯度裁减1.0,验证每5轮,早停耐心25次(125 epoch),训练/验证/测试=70%/15%/15%分层抽样。
2.5 评估指标
聚类:NMI、ARI对照原始空间K-means伪标签;ASW、CAL、DAV表征内聚/分离。新指标耦合度COR=1/[l(l?1)]·Σi≠jij|(ρij为潜维Pearson相关),刻画生物程序协同。嵌入质量:距离相关ρdistSpearman(vec(DZ),vec(DE));局部Qlocal、全局Qglobal来自共排序矩阵;综合Qembed=(ρdist+Qlocal+Qglobal)/3。内在流形:Mdim=1?(deff?1)/(l?1)(deff为95%方差主成分数),Sdecay为谱首主比均值,Pratio为参与比,Ascore=tanh((log λ1?log(λl+?))/4),Tdir1/(Σi=2lλi+?),Nres=min(((λ12)/(Σi=3lλi+?))·1/10,1)。核心Qcore=(Mdim+Sdecay+Pratio+Ascore)/4,总体Qoverall=0.5Qcore+0.3Tdir+0.2Nres。潜因子归因:Si,j=0.6·ρ(xi,vj)+0.4·?gi,j(vj为μj或zj,?g为归一化梯度)。速度场由fθ(qz,t)直接前向评估,投影到UMAP格点高斯平滑可视化。
四、讨论与结论
研究人员通过在53个scRNA-seq与65个scATAC-seq基准及多应用队列中验证,LAIOR较VAE、scVI、TrajectoryNet等提升NMI、ARI与COR,双曲几何提高Mdim与Sdecay,信息瓶颈增大Pratio,Neural ODE增强Tdir与Nres。伪时间自监督由ODE一致性涌现,无需外源标注。研究人员认为,LAIOR通过洛伦兹流形层级保持、信息瓶颈共享程序压缩及Neural ODE连续时序正则的协同,为单细胞多组学向低维、可解释、时序一致表示提供了统一框架,对发育、癌症及扰动图谱的下游分析具重要意义。论文发表于《Frontiers in Genetics》。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号