《Journal of Advanced Research》:A Composite interaction Score: Prioritizing cell–cell interactions from single-cell RNA-seq with application to pre-menopausal epithelial barriers
编辑推荐:
在单细胞RNA测序(scRNA-seq)数据分析中,如何整合不同工具预测的细胞间相互作用(CCI)并对其进行可靠排序是当前面临的挑战。本研究开发了一种名为复合相互作用分数(CIS)的新方法,旨在整合六种主流CCI推断工具的预测结果,通过强调排名靠前候选相互作用的一致性和可重复性,实现对CCI的优先排序。研究人员将此方法应用于肠道、皮肤和子宫等绝经前健康女性的上皮屏障组织,揭示了跨组织保守的相互作用(如MIF–CD74)以及组织特异性的通信网络,为理解屏障组织稳态提供了新见解。该方法发表于《Journal of Advanced Research》,为解决多工具预测结果整合困难、缺乏标准排序框架的问题提供了通用方案。
想象一下,你的身体是一座座繁忙的都市,细胞就是其中的居民。它们无时无刻不在交流,通过信号分子对话,共同维持着组织的秩序与安宁。这些细胞间的“通话”(Cell-cell interactions, CCIs)对维持体内平衡、调节免疫、抵御感染至关重要。然而,一旦通话线路出错,就可能导致癌症、多发性硬化症、类风湿性关节炎等多种疾病。近年来,单细胞RNA测序(scRNA-seq)技术让我们能够“窃听”这些细胞对话,推断它们之间可能存在的信号联系。但问题也随之而来:市面上有CellChat、CellPhoneDB、Connectome等多种“窃听”工具,每种工具都有自己的“方言”(评分指标)和“判断标准”,预测出的结果千差万别。如何从这些嘈杂、不一致的“通话记录”中,筛选出最真实、最关键的对话,成了研究人员面临的巨大挑战。简单地把不同工具的排名结果做个平均,往往无法凸显出最具生物学意义的相互作用,因为不同的“方言”无法直接等同。
为了解决这个难题,Olha Kholod及其合作者开展了一项研究,旨在开发一个通用框架,来整合和优先排序从scRNA-seq数据中推断出的CCIs。他们创造性地提出了“复合相互作用分数”(Composite Interaction Score, CIS)。这个分数不依赖单一工具的评分,而是整合了六种主流工具(通过LIANA包调用)的预测结果,并巧妙地使用了“排名偏好精度”来加权不同工具间的共识,特别强调在排名靠前位置的一致性。这就像是让六位专家(六种工具)各自列出他们认为最重要的细胞对话清单,CIS算法则特别看重那些被多位专家一致排在清单最前面的对话,从而给出一个最终的、更可靠的优先排序列表。他们首先在人为添加了过表达相互作用的数据集上验证,证明CIS在恢复真实相互作用方面,比简单的平均排名基线方法具有更高的敏感性和特异性。
随后,研究人员将CIS这把“利器”应用于一个更具实际意义的场景:探究绝经前健康女性上皮屏障组织的细胞通讯。他们整合了来自肠道、皮肤和子宫的公开scRNA-seq数据集,构建了一个包含超过30万个细胞的统一资源库。这个资源库特别聚焦于健康、绝经前女性的生理状态,为研究这一特定群体的组织稳态提供了一个宝贵的基线参考。利用CIS对这个资源库进行分析,他们成功地从海量的潜在相互作用中,筛选出了那些既具有跨组织保守性,又具有组织特异性的关键对话。这项研究不仅提供了一种强大的数据分析工具,还绘制了一幅绝经前女性上皮屏障组织的细胞通讯图谱,为理解这些组织的生理和病理机制提供了新的视角。相关成果发表在《Journal of Advanced Research》期刊上。
为了开展这项研究,作者们主要运用了几个关键的技术方法。首先,他们从已发表的研究中获取了肠道、皮肤和子宫的公开scRNA-seq数据集,并使用Seurat和Harmony软件进行数据预处理、质量控制(QC)和批次校正,最终整合了一个包含304,050个细胞的统一数据集,并标注了53个细胞簇。核心方法是利用LIANA R包,一次性运行六种细胞间相互作用推断工具(CellChat, CellPhoneDB, Connectome, NATMI, LogFC, SCA)来预测CCIs。然后,他们开发了复合相互作用分数算法,该算法基于排名偏好精度,对六种工具给出的CCI排名进行加权整合,生成最终的CIS分值用于排序。为了评估CIS的性能,他们使用了人皮肤和PBMC数据集,通过人工过表达特定配体-受体对的方式创建合成基准数据集,并采用精确率、召回率、Fisher精确检验和归一化折损累计增益等指标,将CIS与简单的平均排名基线方法进行比较。此外,他们还利用STRING数据库构建蛋白质-蛋白质相互作用网络进行枢纽基因分析,并引用GTEx(基因型-组织表达)数据库的批量RNA-seq数据和人类蛋白质图谱的免疫组化图像,在转录组和蛋白水平上对关键发现进行了独立验证。
研究结果
CIS在早期检测过表达CCI方面优于平均排名基线
研究人员首先在合成数据集上对CIS进行基准测试。结果显示,在考虑最靠前的少量候选相互作用时(例如前10-50个),CIS在精确率上 consistently 优于简单的平均排名方法。这意味着CIS能更有效地将真实的、过表达的相互作用集中在排名列表的最顶端,这对于需要从成千上万个预测中筛选出少数几个进行后续实验验证的研究场景尤为重要。随着考虑范围的扩大,两种方法的性能逐渐接近。这表明CIS的设计成功地实现了其目标:强调工具间在排名顶部的共识,从而优化早期检索效率。
构建绝经前健康女性上皮屏障组织的单细胞整合参考资源
研究构建了一个包含肠道、皮肤和子宫scRNA-seq数据的整合资源,涵盖了304,050个单细胞,并识别出包括B细胞、内皮细胞、上皮细胞、成纤维细胞、淋巴样细胞、髓样细胞、神经细胞、基质细胞和T细胞在内的53个细胞簇。这个资源为跨组织的比较分析,以及利用CIS识别保守和组织特异性CCI提供了数据基础。
跨组织比较CIS排序的CCI揭示MIF-CD74和APP-CD74是上皮、免疫和基质区室共享的相互作用
应用CIS对三个组织(肠道、皮肤、子宫)中的上皮、免疫和基质区室分别进行排名分析后,研究人员发现了一批在所有三个组织中均保守存在的顶级相互作用。其中,MIF(巨噬细胞移动抑制因子)– CD74(主要组织相容性复合体II类恒定链)信号轴在上皮、免疫和基质区室的保守列表中均排名靠前。例如,在上皮区室,它介导了肠道上皮与B细胞、皮肤角质形成细胞与巨噬细胞的对话;在子宫,则与上皮纤毛细胞和髓样细胞的交流相关。APP(淀粉样前体蛋白)– CD74是另一个突出的保守相互作用。蛋白质相互作用网络分析进一步确认,CD74和MIF是这些保守相互作用网络中的枢纽基因。利用GTEx数据库和人类蛋白质图谱的独立验证表明,MIF和CD74在转录本和蛋白水平上确实在这些组织中表达。
绘制屏障组织上皮通讯图谱揭示GUCA2A/GUCA2B–GUCY2C、HLA–KIR3DL1和SPP1–PTGER4为组织特异性相互作用
除了保守相互作用,CIS也有效地识别了具有组织特异性的顶级CCI。在肠道,GUCA2A/GUCA2B(鸟苷蛋白/尿鸟苷蛋白)– GUCY2C(鸟苷酸环化酶2C)相互作用是上皮区室特有的顶级相互作用,主要介导上皮细胞与肠内分泌L细胞之间的通讯,与肠道离子/液体平衡和屏障功能相关。在皮肤,HLA(人类白细胞抗原)– KIR3DL1(杀伤细胞免疫球蛋白样受体3DL1)相互作用在角质形成细胞与自然杀伤细胞之间排名很高,可能参与皮肤局部的免疫调节。在子宫,SPP1(骨桥蛋白)– PTGER4(前列腺素E受体4)、GAL(甘丙肽)– HLA-DPA1以及ANXA1(膜联蛋白A1)– FPR1(甲酰肽受体1)等相互作用在上皮纤毛细胞与髓样细胞之间被识别,可能参与了子宫环境的抗炎调节和组织修复。
研究结论与重要意义
本研究成功开发了复合相互作用分数,这是一个用于从单细胞RNA测序数据中优先排序细胞间相互作用的通用计算框架。CIS通过整合多种推断工具的预测,并利用排名偏好精度强调工具间在排名顶部的一致性,克服了单个工具偏差和简单共识策略的局限,提供了更可靠、可重复的CCI排序方法。基准测试证实,CIS在早期识别生物学相关相互作用方面优于朴素的平均排名方法。
通过将CIS应用于绝经前健康女性的上皮屏障组织(肠道、皮肤、子宫)整合数据集,研究不仅验证了方法的实用性,还建立了一个有价值的参考资源。该分析成功区分了跨组织保守的通信网络(如核心的MIF-CD74轴)和组织特异性的对话模式(如肠道的GUCA2A/GUCY2C、皮肤的HLA-KIR3DL1、子宫的SPP1-PTGER4)。这些发现为理解不同上皮屏障在维持稳态和免疫调节方面的共同原则和独特机制提供了新见解。
这项工作的意义在于方法论和生物学两个方面。在方法论上,CIS为处理多工具CCI预测结果不一致、缺乏标准排序框架的领域难题提供了系统的解决方案,其实现的R软件包和交互式应用促进了该框架的广泛使用。在生物学上,所构建的绝经前上皮屏障细胞通讯图谱是一个重要的基线参考,未来可用于研究年龄、性别、疾病(如炎症性肠病、子宫内膜异位症、皮肤自身免疫病)如何重塑细胞间通信网络,从而为发现新的生物标志物和治疗靶点奠定基础。尽管该研究基于转录组相关性,仍需空间共定位和功能实验的进一步验证,但它无疑为系统解析复杂组织中的细胞对话提供了强有力的新工具和新视角。