基于Transformer的植物单细胞注释工具scPlantAnnotate:跨物种精准识别与鲁棒性提升

《Journal of Advanced Research》:scPlantAnnotate: an accurate and robust transformer-based model for plant cell type annotation

【字体: 时间:2026年01月19日 来源:Journal of Advanced Research 13

编辑推荐:

  植物单细胞RNA测序(scRNA-seq)分析中,细胞类型注释的准确性长期受限于动物工具在植物数据上的适应性不足。本研究开发了基于Transformer的专用框架scPlantAnnotate,通过整合拟南芥、玉米、水稻和大豆的多组织数据集,构建物种统一模型。实验表明,其在随机拆分和留一数据集交叉验证中均显著优于现有方法(如Seurat、SingleR、scBERT等),并首次实现跨组织/批次的鲁棒注释。该研究为植物细胞图谱构建提供了可靠的计算基础,相关模型已通过公开网络服务器(https://scplantannotate.missouri.edu)部署。

  
在植物生物学研究领域,单细胞RNA测序(scRNA-seq)技术的崛起使得科学家能够以前所未有的分辨率解析细胞异质性,从而推动发育、逆境响应等关键生命过程的机制解析。然而,与人类或小鼠研究相比,植物单细胞分析面临一个突出的瓶颈:细胞类型注释的准确性严重依赖动物研究工具的直接迁移,但这些工具因基因词汇不兼容、物种特异性调控程序差异等因素,在植物数据上表现不佳。更严峻的是,植物细胞具有高度转录可塑性,其身份随发育阶段、器官类型和环境信号动态变化,导致即使同类细胞也存在显著表达异质性。此外,单子叶与双子叶植物间的进化距离远超人类与小鼠,标记基因跨物种保守性低,加之不同实验方案引入的强批次效应,共同构成了植物细胞注释的独特挑战。
针对上述问题,密苏里大学哥伦比亚分校的研究团队在《Journal of Advanced Research》上发表了题为“scPlantAnnotate: an accurate and robust transformer-based model for plant cell type annotation”的研究论文。该工作开发了首个专为植物设计的Transformer框架scPlantAnnotate,通过整合多物种、多组织的海量单细胞数据,构建统一模型,实现了跨数据集的高精度注释,并显著提升了对未知数据的泛化能力。
关键技术方法
研究基于scPlantDB植物单细胞数据库,筛选拟南芥(26数据集/116万细胞/42细胞类型)、玉米(9数据集/33.4万细胞/34细胞类型)、水稻(5数据集/37.9万细胞/36细胞类型)和大豆(10数据集/11.6万细胞/42细胞类型)的标准化数据。模型核心采用五层Performer编码器(线性复杂度注意力机制),输入为20,000个高度可变基因(HVG)的离散化表达值,结合条件嵌入(编码数据集/器官信息)与标签平滑损失函数,通过样本加权缓解类别不平衡。
研究结果
1. 数据集特异性性能优势
在拟南芥根尖五个数据集的内部拆分验证中,参考型方法(Seurat、SingleR、scPlantAnnotate)均优于标记基因方法(Scanpy/scDeepCluster+SCSA)。其中scPlantAnnotate在准确性与宏F1分数上表现最佳,且其t-SNE可视化结果显示预测细胞类型与真实标签高度一致(图2C-D)。
2. 统一模型跨组织注释能力
在四物种合并训练集测试中,scPlantAnnotate在准确率(Accuracy)和宏F1(Macro-F1)上显著优于所有基线(XGBoost、TOSICA、scBERT等)。例如在拟南芥中,其准确率较次优方法提高约5%(p=0.0312),且对海绵叶肉与栅栏叶肉、根冠与侧根冠等相似细胞类型的误判率最低(图4F)。混淆矩阵差异热图(图4A-E)进一步显示,scPlantAnnotate在多数细胞类型上获得更多正确预测(红色对角线)和更少错误(蓝色非对角线)。
3. 留一数据集出泛化鲁棒性
在更具挑战的拟南芥留一数据集出验证中(训练集含25数据集,测试集为独立数据集),所有方法性能均下降,但scPlantAnnotate仍以65.03%的平均准确率、0.2269宏F1值位居第一,且在七项测试中五次排名榜首(表2)。这表明其对批次效应和组织异质性具有更强适应性。
4. 消融实验与效率分析
消融研究确认HVG数量(20,000为最优)、样本加权、标签平滑和条件嵌入均贡献性能提升。资源评估显示scPlantAnnotate训练时间仅为scBERT的一半,内存占用更低,兼顾效率与扩展性(附表S7)。
结论与展望
scPlantAnnotate首次证明了Transformer架构在植物单细胞统一注释中的有效性,其跨数据集鲁棒性为大规模植物细胞图谱构建奠定了基础。当前局限在于对完全未知数据集的表现仍需提升,未来可通过领域自适应、新型注意力机制进一步优化。研究提供的网络服务器(https://scplantannotate.missouri.edu)支持多格式数据上传、自动注释及比较分析,将推动植物单细胞研究的可及性与标准化。随着植物单细胞数据的持续积累,该框架有望扩展至跨物种迁移学习与基础模型预训练,最终深化对植物细胞命运调控的理解。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号