综述：农业领域的未来发展趋势：Vision Transformers与Vision Mamba在作物管理中的应用综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Contact Lens and Anterior Eye》：What’s next in agri-vision: A review of Vision Transformers and Vision Mamba in crop management

【字体：大中小】 时间：2026年02月17日 来源：Contact Lens and Anterior Eye 4.1

编辑推荐：

　　农业计算机视觉中CNN、ViT与ViM的架构对比与应用研究：分析三者在不同场景（如作物监测、病虫害识别）下的性能差异，指出ViT通过全局注意力提升复杂场景鲁棒性，ViM以线性计算复杂度优化边缘设备部署，混合架构在低光照和密集植被中表现更优。未来需突破数据多样性、能耗限制及可解释性挑战。

韩康瑞|华伟云|何龙

美国宾夕法尼亚州立大学农业与生物工程系，大学公园，PA 16802

摘要

不断增长的食品需求、劳动力短缺以及田间环境的多样性正推动作物管理向更强大的、基于设备的计算机视觉系统发展。本文综述了在卷积神经网络（CNN）背景下Vision Transformers和Vision Mamba（ViM）的发展，比较了它们的架构，并探讨了它们对下一代农业人工智能的影响。CNN在许多简单的农业视觉任务中仍能有效进行局部模式识别，但在处理长距离依赖性和复杂冠层场景时存在困难。通过引入自注意力机制，ViT提高了对遮挡、尺度变化和多模态融合的鲁棒性。ViM用选择性状态空间序列建模替代了自注意力机制，避免了二次复杂度问题，使得长序列和高分辨率图像的处理能够在线性时间内完成，同时保持了竞争性的准确率。2020年至2025年的研究综合表明：(i) 在数据充足且训练适当的情况下，ViT在杂乱多变的环境中很可能超越CNN的基线性能；(ii) ViM为边缘设备和无人机平台提供了有效的准确率与效率平衡；(iii) 混合设计（例如CNN与ViT/ViM头的结合）在低光照和密集冠层条件下更为可靠。尽管仍存在一些挑战，如多站点数据多样性有限、对光照和遮挡的敏感性、边缘设备的能耗/延迟限制以及可解释性不足等问题，但已提出了一些解决方案，包括标准化领域转换测试、能耗/延迟报告、量化/蒸馏技术以适应边缘设备部署、考虑不确定性的输出以及基于原则的多模态融合等方法，这些都有助于将以ViM为中心或混合的算法应用于实际农业生产中。

引言

全球经济在很大程度上依赖于农业部门。随着世界人口的增长，对农业系统的食品需求也在增加（Attri等人，2024年）。精准农业和农业技术（也称为数字农业）作为新兴的科学领域，利用数据密集型方法提高农业生产率并减少环境影响。结合大数据技术和高性能计算，深度学习（DL）支持农业操作环境中的复杂异构信息流。

在农业计算机视觉领域，卷积神经网络（CNN）已被广泛应用于作物管理任务，包括杂草和害虫控制、土壤和水资源管理、作物监测以及疾病检测（Coulibaly等人，2022年）。然而，CNN的感受野本质上是局部的，这限制了其在处理长距离空间依赖性、严重遮挡以及大规模田间变化时的性能。注意力机制的引入（Vaswani等人，2017年）催生了Vision Transformers，它通过自注意力机制建模全局上下文，并已广泛应用于医学分割（Karimi等人，2021年）、高光谱分析（Zeng等人，2023年）、自主系统（Lai-Dang，2024年）、机器人技术（Scherl等人，2025年）和安全领域（Singh等人，2022年）等视觉任务。在农业环境中，ViT及其变体被用于疾病诊断、作物监测等相关任务，推动了精准农业的发展（Xie等人，2024年）。

最近，自注意力的计算成本和二次复杂性问题促使人们寻找更高效的替代方案。Vision Mamba（ViM）用选择性状态空间模型（SSM）替代了自注意力机制，以线性时间复杂度和硬件感知的执行方式捕捉长距离依赖性（Zhu等人，2024年）。早期在作物管理中的应用，如植物疾病识别（Shi等人，2024年；Mamun等人，2025年；Zhang等人，2025a年）、果实计数（He等人，2025年；Huang等人，2024年；Yuan等人，2025年）以及作物监测（Huang等人，2024年；Liu等人，2025a年；Zhao等人，2025年），表明其在低光照和密集冠层条件下的潜在优势，以及可能的更低能耗和实时操作能力。

在CNN、ViT和ViM的快速发展中，本文探讨了两个实际问题：(i) 哪些架构最适合田间部署；(ii) 新兴设计如何应对数据稀缺、环境变化和边缘设备限制？重点讨论了ViT和ViM的架构及其与CNN的结合，将CNN作为参考基准。分析重点放在架构层面以及在实际约束条件下的应用（分类、检测、分割、计数/估计）。

本文的目标是：(1) 分析ViT和ViM如何解决农业视觉中的核心挑战；(2) 综合当前关于基于Transformer和Mamba的作物管理架构的研究，包括分类、检测、分割和多模态任务；(3) 描述影响田间应用鲁棒性的限制；(4) 概述可扩展、适用于边缘设备的系统的发展方向。第2节回顾了相关调查和方法论；第3节介绍了CNN、Transformer和Mamba的架构；第4节总结了农业中的视觉架构；第5节讨论了Transformer、Mamba和CNN混合模型在作物管理中的应用；第6-8节分析了限制因素和未来发展方向；第9节总结了本文。

调查论文选择标准

调查中的论文选择标准

论文入选标准主要关注两种架构：视觉变换器（ViTs）和Mamba模型。相关关键词涉及现代作物管理，特别是精准农业，包括作物保护（涵盖疾病、昆虫和杂草检测）、作物优化（侧重于产量预测）以及农业可持续性的资源管理（涵盖土地、土壤和水资源管理）。搜索范围涵盖了主要的相关研究。

对农业效率日益增长的需求

由于人口快速增长、气候变化、农业用地减少和劳动力短缺，全球农业面临日益增长的食品需求。这些挑战需要变革性的解决方案，以在保持环境可持续性的同时提高生产力。传统的农业生产方式严重依赖人工劳动和通用管理方法，无法满足现代食品系统所需的精确度和效率（Wang和Kang，2025年）。

计算机视觉在作物管理中的应用

计算机视觉在农业中得到广泛应用，以提高生产力、减少资源消耗并改善农场管理。农业中使用的计算机视觉技术包括：

图像分类：图像分类用于对农业图像进行分类，以识别作物类型、植物疾病和害虫侵染。

目标检测：目标检测涉及在图像中识别和定位特定对象，对于自动化收割等任务至关重要。

Transformer、Mamba和CNN混合模型在作物管理中的应用

由CNN、Transformer和Mamba等架构推动的人工智能快速发展，已成为一股强大的力量。在精准农业应用中，CNN因其高效性而不可或缺。它们适用于数据量较少、对延迟要求严格以及硬件资源受限的场合。CNN的结构简单性确保了其在常见简单分类任务中的稳定性能。

视觉变换器在作物管理中的局限性尽管Transformer模型在精准农业中表现优异，但仍存在一些限制，这些限制影响了其在实际农业环境中的广泛应用和效果。主要问题包括数据限制、计算需求、可解释性挑战以及定制化的需求。

Vision Mamba在作物管理中的局限性尽管Vision Mamba模型在多种作物管理任务中表现出色，但仍存在一些限制，影响其鲁棒性、泛化能力和实际应用的可扩展性。

计算机视觉在作物管理中的未来研究方向随着Transformer和Mamba模型在精准农业中的潜力显现，其在农业中的实际影响将取决于数据多样性、计算效率、鲁棒性和在实际田间条件下的泛化能力。未来的研究方向分为短期、中期和长期三个层面。

结论

Transformer的自注意力机制和Mamba的结构化状态空间序列的发展极大地提升了农业领域的视觉任务性能，尤其是在作物管理方面，包括杂草和害虫管理、作物计数、疾病检测、水资源和土壤管理等领域。CNN仍然是局部模式提取和资源受限环境下的强大基线，而ViT则在杂乱多变的环境中提高了系统的鲁棒性。

写作过程中生成式AI和AI辅助技术的声明

在准备本文时，作者使用了ChatGPT来优化语言表达和可读性。使用该工具/服务后，作者对内容进行了必要的审查和编辑，并对发表文章的内容负全责。

CRediT作者贡献声明

韩康瑞：撰写初稿、方法论制定、数据分析、概念化。华伟云：审稿与编辑、撰写初稿、方法论制定、数据分析、概念化。何龙：审稿与编辑、监督工作、资金获取、概念化。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢
本研究部分得到了美国农业部（USDA）国家食品与农业研究所（NIFA）的资助，项目编号PEN04822（授权号7005925）和PEN04973（授权号7007530）。同时，特别感谢美国农业部NIFA特色作物研究计划（SCRI）项目（授权号2023-51181-41244）以及宾夕法尼亚州园艺协会（SHAP）的财政支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号