《PLOS Computational Biology》:Transcriptomic-guided whole-slide image classification for molecular subtype identification
编辑推荐:
本综述提出TEMI(转录组-形态学整合)创新框架,通过多模态对齐策略(AOD/APR)将全切片图像(WSI)的形态特征与转录组数据关联,实现微卫星不稳定(MSI)/稳定(MSS)等分子分型的精准分类。研究证实组织形态可编码潜在分子信号,为降低基因检测成本、推动精准医疗提供新范式。
概述TEMI框架
TEMI(Transcriptomic Expression from Morphological Images)是一种基于全切片图像(WSI)的癌症分子分型分类框架,其核心创新在于通过多模态学习整合组织形态学特征与转录组数据。该框架包含三个关键组件: patch融合网络(PFN)通过多头点积注意力机制自适应加权千兆像素WSI的局部区域特征,生成全局表征;掩码转录组自编码器(MTA)通过随机掩码基因表达数据并重构,学习基因间潜在关联;异质数据对齐模块(AOD/APR)通过正交分解或部分重构策略,在共享低维空间中对齐WSI与转录组表征,缩小模态差异。
分子分型分类性能验证
在结直肠癌(CRC-DX)、胃腺癌(STAD-DX)和胶质母细胞瘤(GBM-DX)三个TCGA队列中,TEMI在MSI/MSS(CRC/STAD)及Proneural/Mesenchymal(GBM)分型任务中均优于传统方法(如ABMIL、1Dconv)。TEMI w/AOD+APR在CRC-DX中取得最高AUC(92.32%),且仅使用WSI的TEMI w/o G版本亦表现稳定,证明其patch融合网络的有效性。
转录组数据提升表征可迁移性
在跨数据集(FFPE样本训练→冷冻样本测试)的迁移学习中,TEMI结合转录组引导后,其WSI表征与目标域样本的余弦距离显著缩小(归一化距离<1),说明转录组信息有助于学习跨技术平台的不变特征。TEMI w/AOD+APR在CRC-KR数据集上AUC达80.04%,接近专有模型ResNet18(82.15%)。
形态特征增强基因表达预测
通过MTA的掩码重构实验发现,在CRC和STAD的MSS亚型中,加入WSI形态特征可显著降低基因表达预测误差(MSE),且GO富集分析显示低误差基因多与细胞形态、免疫调节相关。但在GBM中形态特征贡献有限,提示不同癌种中形态-分子关联强度存在差异。
注意力机制提供可解释性
通过可视化注意力得分最高的图像区块,TEMI可突出亚型相关形态特征(如MSI肿瘤的淋巴细胞浸润区域)。以CRC样本为例,MSS样本的区块与MSS模板相似度更高,而MSI样本更匹配MSI模板,证明注意力机制能捕获判别性形态模式。
对齐策略对比与模型鲁棒性
与MSE、HSIC、MMD等传统对齐方法相比,TEMI提出的AOD+APR组合在多数任务中稳居前三,且无需复杂特征提取器(如DINOv2、Prov-GigaPath)即可达到优异性能,表明其架构本身已具备强表征能力。
局限与展望
当前研究未整合蛋白质组、甲基化等多组学数据,且GBM中形态-转录组关联较弱,未来需开发更精准的跨模态对齐算法。TEMI为低成本、可解释的癌症分子分型提供了可行路径,凸显了计算病理学在 bridging 形态与分子生物学中的桥梁作用。