iS2C2:一种用于疾病细胞串扰机制发现的共智能平台

《Signal Transduction and Targeted Therapy》:iS2C2: a cointelligent platform for mechanistic discovery of disease cellular crosstalk

【字体: 时间:2026年05月12日 来源:Signal Transduction and Targeted Therapy 52.7

编辑推荐:

  大型语言模型(LLM)已在总结、推理和内容生成方面展现出令人印象深刻的能力,但其无法直接解读大规模组学数据,限制了其在数据驱动假设生成中的效用,特别是在需要整合和解读多模态数据集、异构模型和深厚领域专业知识的机制发现方面。相反,传统计算算法擅长组学数据的定量分

  
大型语言模型(LLM)已在总结、推理和内容生成方面展现出令人印象深刻的能力,但其无法直接解读大规模组学数据,限制了其在数据驱动假设生成中的效用,特别是在需要整合和解读多模态数据集、异构模型和深厚领域专业知识的机制发现方面。相反,传统计算算法擅长组学数据的定量分析,但通常严重依赖劳动密集型、专家驱动的诠释来提取具有生物学意义的见解。在此,研究人员介绍了(共智能单细胞空间细胞-细胞通讯:iS2C2),这是一种新型共智能平台,它协同结合了数学上严格的计算算法与LLM的上下文推理能力,以从单细胞RNA测序(scRNA-seq)和空间转录组学数据中自动生成具有生物学可解释性的假设。iS2C2平台包含一个透明且可重复的细胞-细胞通讯分析流程,该流程建立在旨在增强可解释性的数学严格算法之上,以便与LLM集成,利用特定领域知识和文献衍生证据对算法输出或预测进行情境化。当应用于阿尔茨海默病(AD)和癌症数据集时,iS2C2生成了准确、可重复且经专家验证的假设,揭示了疾病微环境中以前未被识别的信号通路和机制见解。这种共智能方法弥合了结构化计算分析与生成式推理之间的鸿沟,预示着向全自动、可解释的生物发现范式转变,并推进了下一代精准医学和系统生物学的边界。
研究背景与立项依据
在生物医学研究中,生成稳健且可实验验证的假设需要整合高维组学数据、复杂的计算建模和深厚的领域专业知识。然而,由于生物数据的复杂性以及计算学科与实验学科之间经常存在的沟通障碍,这对生物信息学家、生物学家、临床医生和数据科学家来说仍然是一个挑战。尽管近年来大型语言模型(LLM)显著改变了生物学和医学中的知识发现,但LLM缺乏直接解读大规模组学数据或从高维生物测量中推导机制见解的内在能力。与此同时,传统的计算方法虽然在分析组学数据集方面取得了实质性进展,能够识别生物标志物、重建细胞轨迹和模拟细胞-细胞通讯网络,但其输出结果往往在数学上错综复杂,难以让研究人员在机制背景下进行解读。因此,将计算发现转化为可操作的生物学假设仍然是一个重大挑战。特别是在细胞-细胞通讯研究中,现有方法往往仅局限于识别配体-受体(L-R)相互作用,缺乏对下游调节通路或收敛信号通路的明确建模,导致难以将特定的L-R相互作用与具体功能后果联系起来。此外,当计算输出缺乏明确的机制通路或清晰的信号动态定量表示时,LLM容易产生幻觉、推理不一致和重现性降低。为了克服这些局限性,研究人员开发了iS2C2(共智能单细胞空间细胞-细胞通讯)平台,旨在实现计算模型与LLM驱动推理的有效协作,该研究发表于《Signal Transduction and Targeted Therapy》。
关键技术方法概述
本研究开发了一种名为iS2C2的共智能平台,其核心是将细胞串扰模型S2C2与LLM相结合。S2C2算法整合了多个数据库,包括配体-受体相互作用数据库、信号通路数据库(如KEGG、IPA)和转录因子数据库,以预测细胞间通讯及其下游细胞内通路。该算法引入了通路分支映射和通路活动评分(PAS)的概念,并采用深度学习基础模型(如scGPT)来处理基因覆盖度低的数据集。LLM部分则采用了定制的提示工程策略,包括少样本提示(few-shot prompting)和思维链(Chain-of-Thought, CoT)提示,以引导模型逐步推理。研究人员通过四个维度评估了平台的鲁棒性:扰动敏感性、准确性/忠实度、可重复性和可解释性。实验验证了来自Tsai等人的AD数据集以及肿瘤免疫细胞图谱(TICAtlas)的癌症数据集,并通过体外基因敲除实验和小鼠体内模型进行了湿实验验证。
研究结果
iS2C2共智能平台的设计
iS2C2旨在通过无缝集成S2C2算法与LLM来实现稳健的假设生成。S2C2算法通过整合单细胞和空间数据,识别配体-受体相互作用及其下游信号传导,并生成结构化输出文件。这些输出随后被转换为提示输入到LLM中,平台支持多种LLM(如ChatGPT、Llama 3.2、Gemini 2.5 Pro)。评估由十五位领域专家通过结构化问卷进行,结果表明该平台在准确性、可重复性和可解释性方面表现优异。
用于单细胞和空间串扰预测的LLM可解释算法(S2C2)的开发
为了解决现有算法仅限L-R相互作用预测的问题,研究人员开发了S2C2。该算法引入了通路分支映射,实现了知识驱动的下游连续细胞内信号转导映射,并包含一个基于Java的图形用户界面(GUI),支持并行多细胞串扰分析和药物库整合。S2C2通过计算通路活动评分(PAS)来量化L-R对和通路的重要性,其工作流程包括构建综合有向图、识别最短路径定义为通路分支,并通过置换检验确定显著性。
S2C2的比较分析与扰动敏感性
通过与NicheNet和LIANA+等算法的比较,研究人员发现S2C2产生的相互作用数量适中且具有独特性。在模拟扰动实验中,通过手动改变选定L-R对的表达,证实S2C2在通路预测中对L-R对及其下游基因的表达水平变化具有高度的敏感性,这一特性在AD和癌症免疫数据集中均得到了验证。
S2C2兼容低基因覆盖度的测序数据
利用scGPT扩展基因覆盖度后,S2C2能够在仅含1000个基因的缩减列表中保持稳健的预测性能,恢复大部分顶级L-R对及下游相关基因,证明了其在靶向panel或测序深度有限的数据集上的适用性。
用于细胞串扰预测假设的LLM设计
研究人员设计了基于GPT-4o的工作流,结合少样本提示和思维链提示策略。通过提供文献验证的案例和分步推理指令,增强了LLM生成假设的逻辑性和透明度。
共智能平台iS2C2的鲁棒性评估:准确性和可重复性
评估显示,采用增强型提示工程后,iS2C2的平均准确率显著提高,幻觉率降低。在可重复性方面,增强提示配合少样本设置实现了最高的平均重复次数百分比(APRT)。此外,S2C2与不同来源的LLM结合均表现出良好的一致性。
共智能平台iS2C2的鲁棒性评估:可解释性轴的专家评估
由15位专家参与的评估表明,iS2C2在所有评估设计和场景中均实现了高可解释性。专家评分显示,LLM辅助的假设生成能有效弥补仅凭领域知识时的偏差,其结果与文献检索结果高度一致。
iS2C2生成的阿尔茨海默病机制假设的验证
在AD案例研究中,S2C2识别出星形胶质细胞与兴奋性神经元之间通过CSF1–CSF1R相互作用的顶级信号通路,并预测了其下游PI3K–AKT信号分支。体外敲低实验证实,抑制该通路会导致神经元异常蛋白聚集和促炎反应,验证了预测的生物相关性。
iS2C2生成的骨转移机制假设的验证
在骨转移案例研究中,通过对Lewis肺癌细胞诱导的小鼠模型的空间转录组和scRNA-seq数据分析,S2C2揭示了肿瘤细胞和间充质干细胞(MSC)之间通过JUN转录因子介导的串扰,特别是NTF3介导的通路促进了N-钙粘蛋白的上调。基于此,研究人员利用S2C2的药物预测模块锁定他莫昔芬(Tamoxifen),并在体内外实验中证实了其通过抑制MAPK8和ERα/WISP2轴来阻断早期骨转移的潜力。
结论与讨论
iS2C2通过将机制基础的细胞串扰模型S2C2与先进的LLM推理能力通过提示工程紧密结合,提高了从单细胞和空间转录组数据中生成机制假设的准确性、可解释性和效率。该平台解决了传统计算方法输出难以解读以及LLM容易产生幻觉的关键限制。通过应用该平台于阿尔茨海默病和癌症研究,研究人员不仅验证了已知机制,还揭示了以前未被识别的信号通路和治疗靶点。这表明共智能AI系统有潜力通过桥接计算建模与人类及机器辅助推理,变革生物发现过程。尽管LLM的整合带来了幻觉风险,但通过领域特异性可视化和严格的专家审查,可以有效缓解这一问题。iS2C2代表了向全自动、可解释的生物医学发现迈出的关键一步,为精准医学提供了强有力的工具。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号