
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生物学中的深度学习面临着可迁移性危机
《PLOS Biology》:Deep learning in biology faces a transferability crisis
【字体: 大 中 小 】 时间:2026年03月04日 来源:PLOS Biology 7.2
编辑推荐:
模型泛化性评估中的测试集偏差与解决方案。当前深度学习依赖的基准测试存在严重局限性,因测试集难以覆盖部署场景的多样性,导致性能指标与实际误差率脱钩。生态监测与医疗影像案例表明,高准确率测试模型在真实场景中可能效能骤降。建议增强评估透明度并推广基于用户数据的模型预览工具,长期需重构通用性评估范式。
人工智能在研究和工业领域的持续普及,使得人们越来越重视开发具有泛化能力的大规模机器视觉模型。这类“基础模型”的价值在于它们能够应用于广泛的领域,如物种识别[1、诊断成像[2和工业故障检测[3]。由于模型架构的多样性,人们非常依赖那些能够提供性能比较评估的指标,这些指标通常是基于模型在未见过的数据集上的错误率来计算的[4。在研究背景下,这些指标为探索模型的泛化能力提供了一个测试平台,因为它们可以量化给定训练数据集在各个测试领域内的性能差异,从而有助于开发出更优的模型架构。
然而,尽管这些指标很有价值,但它们经常被用于一个完全不同的目的——即支持模型在不同应用场景下的可迁移性声明。虽然这种做法表面上很有吸引力,但它基于一个根本错误的假设,即测试数据和实际应用数据之间的方差分布是相似的,因此错误率也是成比例的。因此,当使用这些指标来证明模型的泛化能力时,它们会面临一个关键的限制:在某些复杂情况下,测试数据无法完全捕捉到实际应用中的所有变化情况,从而违反了错误率成比例分布的基本假设。
实际上,在实际应用中,这种假设几乎总是被打破的。以从相机陷阱数据中检测特定动物为例,检测距离、角度、背景环境以及非目标物种出现的各种可能性会使得问题空间的维度迅速接近现实世界的复杂性[5。因此,无论测试数据集多么全面,它都不可能完全摆脱对具体情境的依赖,因为总会存在新的变量来源导致领域间的差异[678
生态学和医学成像领域的案例就很好地说明了这一问题的严重性。最近的研究表明,根据机器视觉指标得分最高的模型,在手动验证时并不能产生最准确的结果[89610。
这种基于指标的评估与实际性能之间的不匹配是如何产生的呢?从根本上说,这是因为从基准测试中得出的错误率并不能代表实际应用中遇到的错误率。这是因为测试数据集无法完全反映新数据的方差结构,从而导致模型在领域转换和误报方面的泛化能力较差[1171213
为了解决当前的问题并提高模型评估指标的准确性,我们提出了两项具体措施。首先,需要明确哪些性能指标真正反映了模型的性能,并对此进行公开说明。当引用从训练数据中得出的准确率时,研究人员应该明确指出用于生成这些值的测试图像,说明它们在何种条件下可以泛化,并详细说明任何相关的注意事项。这将使潜在用户能够将测试数据的属性与他们自己的应用场景进行比较,从而限制那些基于特定情境的误导性声明的传播。
其次,在缺乏可靠指标的情况下,我们建议更多地采用一种现有的解决方案,即允许用户利用自己的数据快速评估模型的可迁移性——也就是模型预览工具。这类工具可以将托管的模型直接应用于用户的评估数据集,常见于开源仓库(如Hugging Face)。通过直接使用用户提供的真实标注数据进行推理,这些工具将基准测试从一个必须预先假设所有潜在应用情况的全球性过程,转变为一个根据具体使用场景生成性能指标的本地化过程。值得注意的是,尽管这类工具很容易获得,但科学文献中却很少提及它们,这表明它们有巨大的应用潜力。尽管存在可扩展性的限制[14,但如果作者在论文中提供这些工具的链接,将大大提高读者验证模型可迁移性声明的能力。
虽然这些策略有可能在短期内提高模型可迁移性的评估准确性,但更长远来看,我们需要重新评估当前的模型评估范式。核心问题是:是否有可能以最小化应用偏见的方式,开发出能够真正反映模型可迁移性、可靠性和鲁棒性的通用基准测试。在找到答案之前,对于特定应用的唯一真正评估方法还是需要在实际应用的数据上进行测试。虽然这里我们主要讨论了机器视觉领域,但这个问题对整个深度学习领域都有更广泛的影响,因此值得在更基础层面上进行进一步探讨。