今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

评估单细胞大型语言模型在多项任务中的可学习性

《BMC Genomics》:Evaluating the learnability of single-cell large language models on multiple tasks

【字体: 大 中 小 】 时间:2026年06月06日 来源:BMC Genomics 3.7

编辑推荐:

  摘要单细胞基础模型(scFMs)的兴起引发了人们对它们在统一多种生物任务方面潜力的兴趣。然而,这些模型的实际效用以及“规模定律”的有效性——即性能会随着模型和数据规模的增加而提高的假设——仍然缺乏充分的验证。在这里,我们系统地评估了两种代表性的scFMs,Geneformer和s

  

摘要

单细胞基础模型(scFMs)的兴起引发了人们对它们在统一多种生物任务方面潜力的兴趣。然而,这些模型的实际效用以及“规模定律”的有效性——即性能会随着模型和数据规模的增加而提高的假设——仍然缺乏充分的验证。在这里,我们系统地评估了两种代表性的scFMs,Geneformer和scGPT,在扰动预测和细胞类型注释任务上的表现。我们的研究结果表明,大规模预训练的好处在很大程度上取决于具体任务:在细胞类型注释任务中确实带来了显著的优势,但在扰动预测任务中的提升较为有限。此外,我们的结果还表明,增加模型规模并不一定能保证性能的提高,有时甚至可能产生负面影响,这挑战了“越大越好”的传统观念。通过比较模型在真实数据和合成数据上的表现(这些数据的复杂程度各不相同),我们的分析表明,在扰动预测任务中,所测试的scFMs可能仅能捕捉到一些简单的统计信息,说明它们在实验设计中学习复杂生物相互作用的能力有限。基于对Geneformer和scGPT的评估,这些结果强调了我们需要超越单纯关注模型规模扩展的思路,转向开发能够整合更深入生物知识的模型。我们认为,重新关注特定任务的架构和基于生物学知识的先验信息可能对于充分发挥单细胞生物学中基础模型的潜力至关重要。

单细胞基础模型(scFMs)的兴起引发了人们对它们在统一多种生物任务方面潜力的兴趣。然而,这些模型的实际效用以及“规模定律”的有效性——即性能会随着模型和数据规模的增加而提高的假设——仍然缺乏充分的验证。在这里,我们系统地评估了两种代表性的scFMs,Geneformer和scGPT,在扰动预测和细胞类型注释任务上的表现。我们的研究结果表明,大规模预训练的好处在很大程度上取决于具体任务:在细胞类型注释任务中确实带来了显著的优势,但在扰动预测任务中的提升较为有限。此外,我们的结果还表明,增加模型规模并不一定能保证性能的提高,有时甚至可能产生负面影响,这挑战了“越大越好”的传统观念。通过比较模型在真实数据和合成数据上的表现(这些数据的复杂程度各不相同),我们的分析表明,在扰动预测任务中,所测试的scFMs可能仅能捕捉到一些简单的统计信息,说明它们在实验设计中学习复杂生物相互作用的能力有限。基于对Geneformer和scGPT的评估,这些结果强调了我们需要超越单纯关注模型规模扩展的思路,转向开发能够整合更深入生物知识的模型。我们认为,重新关注特定任务的架构和基于生物学知识的先验信息可能对于充分发挥单细胞生物学中基础模型的潜力至关重要。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:单细胞基础模型|扰动预测|细胞类型注释|规模效应|基因预测|知识整合

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号