《Computational Biology and Chemistry》:Spatial Regression of Morphology-Protein Coupling in Tumour Proteomics
编辑推荐:
空间蛋白质组学能够在肿瘤微环境内以高分辨率表征蛋白质的组织结构,然而大多数计算方法隐含地假设空间同质性,并侧重于聚类而非受组织形态限制的扩散约束。在此,研究人员利用地理加权回归应用于41个公开可用的、包含36个蛋白质标志物的多重离子束成像样本,对三阴性乳腺癌中
空间蛋白质组学能够在肿瘤微环境内以高分辨率表征蛋白质的组织结构,然而大多数计算方法隐含地假设空间同质性,并侧重于聚类而非受组织形态限制的扩散约束。在此,研究人员利用地理加权回归应用于41个公开可用的、包含36个蛋白质标志物的多重离子束成像样本,对三阴性乳腺癌中的形态-蛋白耦合进行了建模。从MIBI点提取了单细胞形态计量学特征,并与空间邻接图结合,以模拟位置特异性的蛋白质分散。与普通最小二乘法和岭回归基线相比,GWR在所有回归指标上均表现出始终如一的卓越性能,能够解释显著更多的蛋白质强度空间方差,同时降低了平均绝对误差和均方误差。信息论分析显示,对于大多数标志物,GWR的赤池信息量准则校正值较低,表明模型拟合度有所改善。空间自相关诊断进一步证实,GWR的残差呈现近乎随机的结构,与全局模型相比,莫兰指数和吉尔里指数显著降低,证明其有效地捕捉了局部异质性。包括B7-H3和β-连环蛋白在内的8种具有显著空间自相关的蛋白质,显示出明显的形态依赖性分散模式,这些模式无法通过全局回归恢复。这些结果表明,明确模拟空间异质性能够产生更准确、更可解释的蛋白质组织表征,并且与超越单纯聚集的、考虑扩散屏障的病理蛋白质组学观点相符。
一、 研究背景、问题与动机
空间蛋白质组学通过研究组织病理学图像中蛋白质的分布与聚集,旨在理解疾病机制。在免疫肿瘤学等领域,蛋白质和基因标志物的空间排列与患者预后相关,有助于揭示免疫反应、肿瘤相互作用以及细胞微环境内的活跃信号通路。多重离子束成像等技术的出现,使得能够在亚细胞分辨率下同时检测数十种蛋白质,为深入探究蛋白质在肿瘤微环境中的组织方式提供了可能。然而,当前的计算模型在分析空间蛋白质组学数据时面临一个主要挑战:它们通常假设空间同质性,即蛋白质在整个组织切片中的分布规律是均匀一致的。这一假设忽略了肿瘤区域内存在的扩散屏障和旁分泌信号等局部因素,例如纤维化重塑会增加细胞外基质密度并降低有效扩散系数,从而限制蛋白质的移动。这些由组织形态施加的扩散约束导致蛋白质的分布具有显著的空间异质性。现有的许多方法,如图神经网络,侧重于识别蛋白质的聚类或局部邻域关系,但并未明确模拟这些影响蛋白质组织的空间屏障。因此,开发能够有效捕捉和解释这种空间异质性的模型,对于更准确地理解蛋白质的组织规律、疾病行为以及潜在的药物扩散障碍至关重要。
本研究旨在解决上述问题。研究人员假设,地理加权回归作为一种能够捕捉空间变异性的局部回归技术,在模拟蛋白质空间分散的异质性方面将显著优于假设空间平稳性的全局回归模型。该研究利用公开的TNBC MIBI数据集,通过将细胞形态特征与空间位置信息结合,探索形态与蛋白质表达之间的耦合关系,以期提供一种更精确、可解释的蛋白质空间组织建模方法。
二、 关键技术与方法
本研究主要采用以下关键技术方法:
- 1.
数据来源与预处理:研究使用了来自41名三阴性乳腺癌患者的公开MIBI数据集,共包含36种蛋白质标志物的图像。数据从Ionpath MIBI Share门户获取。图像经过鲁棒百分位数重缩放预处理,强度被裁剪至第1和第99百分位并缩放到0-1范围。单细胞分割掩模从标记的TIFF文件导入,并提取细胞质心坐标。
- 2.
特征提取:为每个蛋白质标志物计算了基于细胞的强度特征,并提取了形态学特征。形态学特征通过主成分分析降维,得到一个捕捉主要形状变异的“形态评分”。使用Delaunay三角剖分和k近邻回退法构建空间邻接图。
- 3.
模型构建与比较:核心模型是地理加权回归。该模型允许回归系数随空间坐标连续变化,从而捕捉局部关系。空间权重矩阵通过基于欧几里得距离的指数衰减核函数生成,带宽参数通过优化AICc进行选择。研究将GWR与普通最小二乘回归和岭回归这两个全局模型进行了全面比较。
- 4.
评估指标:使用R2、平均绝对误差、均方误差和校正的赤池信息量准则等指标评估模型预测性能。通过计算残差的莫兰指数和吉尔里指数来评估模型捕获空间依赖性的能力,较低的残差空间自相关表明模型更好地解释了空间结构。所有统计分析均在组织切片层面进行,以考虑同一切片内细胞的空间依赖性。
三、 研究结果
1. 地理加权回归在预测性能上全面优于全局模型
在所有评估的回归指标上,GWR均一致地表现出优于OLS和Ridge回归的性能。具体而言,GWR解释了显著更多的蛋白质强度空间方差,平均R2提升了约0.428,同时平均绝对误差和均方误差显著降低。信息论比较显示,对于大多数标志物,GWR的AICc值更低,证实了其模型拟合度更优。配对检验表明这些改进具有统计学显著性。
2. 地理加权回归有效捕捉空间异质性并降低残差自相关
空间自相关诊断结果显示,GWR模型的残差在空间上呈现近乎随机的结构。与全局模型相比,GWR残差的莫兰指数和吉尔里指数显著降低。这表明GWR通过其局部加权机制,成功地捕获并解释了数据中的空间依赖性,而OLS等全局模型的残差则保留了显著的空间聚类模式,意味着有未捕获的空间结构。
3. 关键蛋白质呈现显著的形态依赖性空间分散模式
在分析的蛋白质中,有8个蛋白质显示出显著的空间自相关。其中包括B7-H3和β-连环蛋白等。GWR能够揭示这些蛋白质的形态依赖性分散模式,而这些模式在使用全局回归时无法被恢复。例如,对金标志物和β-连环蛋白的分析表明,它们的表达在特定空间区域形成聚类,GWR能够捕捉这些区域周围的异质性。
4. 带宽分析提示蛋白质扩散的局部性
GWR的带宽分布显示,许多标志物的最优带宽值很小,收敛于算法允许的最小值。这很可能表明许多蛋白质的扩散和分布受到非常局部的屏障限制,而非由全局组织结构决定,从而支持了扩散屏障导致蛋白质局部化的观点,而非单纯的聚集效应。
四、 讨论与结论
在讨论部分,研究人员指出,OLS和岭回归表现不佳源于其固有的空间平稳性假设,而GWR通过引入空间变系数,能够更好地模拟蛋白质浓度随空间位置和局部形态的变化。尽管GWR本身仍假设局部线性关系,但其在捕捉空间异质性方面已展现出显著优势。本研究的意义在于,它提供了一种比传统回归模型更准确的空间建模与预测方法,能够解释局部聚集和亚细胞空间排列。GWR为空间蛋白质组学提供了一种可解释的回归算法,有助于理解空间位置和组织排列如何影响疾病进展。将形态学与分子行为通过空间自相关测量联系起来,是一种新颖的方法。然而,研究也存在一定局限性。首先,GWR局限于线性关系,未测试非线性模型。其次,模型的泛化能力仅限于当前使用的TNBC数据集和有限的蛋白质标志物面板。此外,图像分割噪声和蛋白质低丰度导致的带宽“塌缩”也可能影响结果。
结论:地理加权回归在预测MIBI图像中蛋白质分散的空间自相关性方面优于传统的回归方法。这意味着空间异质性是衡量蛋白质聚集时必须考虑的一个重要变量。空间回归提供了一种基于形态学预测蛋白质空间相关性的可解释方法。