《Nature Machine Intelligence》:Conditional Monge Gap enables generalizable single-cell perturbation modelling
编辑推荐:
学习单细胞对各种处理的响应为实现靶向治疗提供了巨大潜力。在此背景下,神经最优输运(neural optimal transport)作为一种具有原理性的方法框架出现,因为它天然适应了数据获取过程中细胞破坏所导致的未配对数据带来的挑战。然而,大多数现有的最优输运
学习单细胞对各种处理的响应为实现靶向治疗提供了巨大潜力。在此背景下,神经最优输运(neural optimal transport)作为一种具有原理性的方法框架出现,因为它天然适应了数据获取过程中细胞破坏所导致的未配对数据带来的挑战。然而,大多数现有的最优输运方法无法针对不同的处理背景(例如时间、药物治疗、药物剂量或细胞类型)进行条件化,并且研究人员仍缺乏那些一致性地展现出对未见处理具有良好泛化性的方法。在此,研究人员提出了条件Monge Gap(Conditional Monge Gap, CMonge),它基于任意协变量条件学习最优输运映射。研究人员展示了其在条件于一种或多种药物、药物剂量或其组合预测单细胞扰动响应方面的价值。研究人员发现,其条件模型取得了与条件特异性最先进的单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)以及多重蛋白成像数据相当甚至有时更优的结果。值得注意的是,通过扩展到数百种条件并在数亿种药物上进行训练,研究人员实现了跨任务学习,并解锁了对未见药物的泛化能力。该方法在捕获细胞群体异质性方面广泛优于其他条件模型。简而言之,CMonge具有数学基础,相对于单细胞基础模型参数效率极高,并且仅利用化合物结构即可对未见药物做出准确预测,从而为加速药物发现和药物重定位开辟了一条实用途径。
**单细胞扰动建模的条件Monge Gap:实现可泛化预测**
**研究背景、问题与目的**
理解细胞在扰动下如何改变状态是生物医学领域长期关注的问题。单细胞RNA测序(scRNA-seq)结合高通量筛选的进展,使得系统地表征异质性细胞群体对遗传或药物扰动的响应成为可能,为靶向治疗提供了巨大潜力。然而,潜在的小分子、剂量、基因编辑及其组合空间远远超出最先进的高通量实验能力,这促使研究者开发从有限实验观测中学习扰动响应的机器学习模型。尽管已有多种方法(如scGen、化学扰动自动编码器chemCPA、扰动网络PerturbNet、基因效应自动编码器GEARS)以及单细胞基础模型涌现,但两个关键挑战依然存在:第一,大多数方法难以捕获观测样本内和样本间由不同细胞类型、条件或患者带来的潜在细胞异质性,这源于scRNA-seq数据的破坏性本质(即未扰动与扰动细胞无法配对),因此扰动建模需要比较细胞分布而非匹配单个细胞;第二,除少数例外,大多数方法不适用于预测新药或CRISPR扰动的响应等临床相关场景,这需要跨扰动全局训练的条件模型,以泛化到已见(样本内IS)或未见(样本外OOS)条件。最优输运(OT)为估计概率分布之间的变换提供了自然框架,但现有OT方法(如CellOT、scPRAM)是无条件的,为每个条件拟合独立模型,导致对新条件无法推断、计算成本高、缺乏利用协变量信息的能力,且无法利用跨条件相似效应的协同益处。为此,研究人员提出了条件Monge Gap(CMonge),一种条件OT框架,用于联合建模跨实验条件(如药物身份、剂量及其组合)的异质性细胞响应。
**主要关键技术方法**
1. **Monge Gap正则化**:采用Monge Gap作为正则项,确保传输映射相对于平方欧氏距离的代价最优性,通过最小化Sinkhorn散度与Monge Gap的加权和来学习参数化OT映射。
2. **条件嵌入编码**:将药物信息编码为两种形式:基于分子指纹的RDKit嵌入(194维,从SMILES提取)和基于数据驱动的作用模式(MoA)嵌入(通过多维缩放计算样本间Wasserstein距离获得)。对剂量进行对数变换。通过药物编码器(Wdrug)和药物-剂量编码器(Wdose)生成条件嵌入向量。
3. **DeepSets池化**:对于联合用药组合,对每种药物的初始嵌入应用共享的稠密层,然后进行平均池化,以排列不变的方式处理更高阶组合。
4. **自动编码器降维**:对SciPlex数据,预训练一个自动编码器(编码器Eφ将1000维基因表达映射至50维隐空间,解码器Dθ恢复),OT学习在隐空间进行,指标在原始基因空间计算。
5. **样本与数据集**:采用两个公开数据集:SciPlex(3个人类癌细胞系A549、K562、MCF7,暴露于187种化合物,4种剂量10、100、1000、10000 nM)和4i数据集(2个黑色素瘤细胞系,40重蛋白测量,35种癌症疗法,含6种联合治疗)。
**研究结果**
**Conditional Monge Gap overview(条件Monge Gap概述)**
CMonge基于Monge Gap框架,通过条件损失实现全局估计器,可条件于任意协变量。在SciPlex数据上,单个CMonge模型条件于剂量即可匹配36个条件特异性Monge模型的性能;在药物-剂量组合OOS预测中,仅使用药物结构(SMILES)即显著优于chemCPA。
**Conditional information improves in-distribution prediction(条件信息改善样本内预测)**
- **SciPlex数据,单上下文:剂量**:CMonge-Dose-IS模型利用剂量信息,恢复了无条件Monge-Dose-IS的大部分性能损失,与36个条件特异性Monge模型(上界)相当,尤其在最高剂量(10,000 nM)下。
- **SciPlex数据,多模态上下文:药物-剂量**:CMonge-DrugDose-MoA-IS模型(单个模型,MoA嵌入)在所有剂量上显著优于无条件Monge和RDKit版本,与36个条件模型上界持平,且比仅条件于剂量效果更好。CMonge在捕获分布异质性(Wasserstein距离)方面优于条件特异性模型。通路富集分析表明,对于MEK抑制剂曲美替尼,预测的基因表达经富集分析所得顶部通路与真实数据高度一致(包括MAPK信号通路及下游转录调控)。
- **扩展到数百种条件以赋能结构基础嵌入**:在全部187种药物(748个条件)上训练后,RDKit基础CMonge的性能提升至与MoA基础相当,验证了更多条件可帮助模型学习利用分子指纹。
- **4i数据集与联合用药扰动**:条件信息在所有指标上改善预测性能,且RDKit与MoA基础模型差异较小,再次确认更多条件有助于模型学习。
**Conditional information allows OOS predictions(条件信息实现样本外预测)**
- **4i OOS**:在留一治疗设置下,CMonge在单药上泛化较难(扰动效应小),但对联合治疗的OOS性能显著优于无条件模型;在分布指标(Wasserstein距离)上CMonge全面优于身份基线。
- **SciPlex OOS**:条件于剂量时,CMonge-Dose-OOS在所有剂量上优于无条件版本和身份基线,甚至与训练于所有剂量的IS模型相当(除最高剂量外)。在留-药-外设置中(留出9种药物之一),CMonge-MoA在R2和Wasserstein距离上广泛优于chemCPA,几乎匹配条件特异性Monge模型的上界。RDKit基础模型在加入更多训练药物后性能接近MoA,且在最高剂量上优于chemCPA。UMAP可视化显示CMonge预测的分布与真实目标重叠良好,保持异质性,而chemCPA倾向捕获平均效应且常出现塌缩预测。
**总结与讨论**
研究引入的条件Monge Gap(CMonge)是一种条件OT框架,可在不同药物、剂量及组合等实验条件下联合建模单细胞扰动响应。在蛋白与基因表达两种模态的数据集上,CMonge在所有已见和未见条件下一致优于基线及现有模型。单个条件模型与条件特异性模型性能相当,并受益于跨任务学习,在未见条件下尤其显著。CMonge显式建模细胞异质性,对毒性评估和识别稀有耐药细胞状态等下游分析具有价值。效果驱动嵌入(MoA)性能最强,但随着条件数量增加,结构驱动嵌入(RDKit)的差距显著缩小,后者有望用于新化合物的虚拟筛选。CMonge计算成本随条件数量线性增长,且参数设计轻量,尽管参数量仅为chemCPA的几分之一(23k vs 1.37M),仍超越现有方法,这源于其针对扰动预测问题定制的OT框架。
CMonge的灵活配方使其可扩展至多种条件(如细胞类型、时间),其基于DeepSets的条件嵌入自然地以排列不变方式处理高阶组合,但当前平均池化策略可能不足以完全捕获复杂高阶交互。未来工作需应对完全新细胞类型、分布外条件及噪声/批次效应等挑战,可通过引入不平衡性或流匹配技术来应对离群值和分布偏移,也可以探索更具表达力的架构(如注意力池化)或优化OT映射的潜在空间。将CMonge微调于高通量筛选的百万细胞数据集或患者来源类器官,有望在预测性单细胞生物学和精准医学中释放其全部潜力。
**翻译研究结论部分**
CMonge具有数学基础,相对于单细胞基础模型参数效率极高,并且仅利用化合物结构即可对未见药物做出准确预测,从而为加速药物发现和药物重定位开辟了一条实用途径。