GBR-DETR：一种适用于边缘设备部署的实时番茄叶病检测模型卓家雄（Jiaxiong Zhuo）、董贵坤（Guikun Dong）、黄青峰（Qingfeng Huang）、周雷（Lei Zhou）、赵飞雄（Feixiong Zhao）、袁平和杨向军（Xiangjun Yang）

《Sensors》：GBR-DETR: A Real-Time Tomato Leaf Disease Detection Model for Edge Device Deployment Jiaxiong Zhuo, Guikun Dong, Qingfeng Huang, Lei Zhou, Feixiong Zhao, Ping Yuan and Xiangjun Yang

【字体：大中小】 时间：2026年05月10日 来源：Sensors 3.5

编辑推荐：

　　**摘要** 番茄叶部病害对作物产量和粮食安全构成重大威胁。然而，在实际的栽培环境中，诸如光照变化、叶片遮挡程度不同以及病斑形态不清晰等因素往往会影响检测精度。本文介绍了基于梯度的双向保留检测变换器（Gradient-aware Bidirectional Retentive

　　**摘要**
番茄叶部病害对作物产量和粮食安全构成重大威胁。然而，在实际的栽培环境中，诸如光照变化、叶片遮挡程度不同以及病斑形态不清晰等因素往往会影响检测精度。本文介绍了基于梯度的双向保留检测变换器（Gradient-aware Bidirectional Retentive Detection Transformer，简称GBR-DETR）模型，该模型旨在实现高精度的实时病害检测。该模型由两个网络结构和一个特征保留聚合模块组成：(1) 多尺度梯度感知转移网络（Multi-scale Gradient-Aware Transfer Network，简称MGAT-Net）通过Sobel算子编码梯度信息，从而提高对小病斑和模糊病斑的定位稳定性；(2) 双向上下文金字塔网络（Bidirectional Context Pyramid Network，简称BCPN）通过自上而下和自下而上的路径实现多级特征之间的双向交互，生成多尺度病斑特征并弥合跨尺度语义差距；(3) 保留特征聚合模块（Retentive Feature Aggregation Module，简称RFAM）用于抑制背景噪声并建立全局特征关联，从而增强病斑识别的整体表现能力。在多场景番茄叶病（Multi-scenario Tomato Leaf Disease，简称M-TLD）数据集上的实验表明，GBR-DETR在mAP50–95、mAP50和mAP75指标上相比基线模型RT-DETR分别提升了3.12%、4.88%和3.41%，同时也优于其他基于DETR和CNN的检测器。该模型在PlantDoc跨领域基准测试中表现出良好的泛化能力，mAP50指标提升了2.11%。部署在NVIDIA Jetson Orin Nano平台上并使用TensorRT FP16架构时，其延迟仅为54毫秒，可实现边缘设备的实时病害监测。这一解决方案为智能农业中的实时病害监测提供了有效的技术支持。

**1. 引言**
番茄（Solanum lycopersicum L.）是世界上最具有经济价值的蔬菜作物之一，年产量超过1.86亿吨[1]。然而，它极易受到真菌、细菌和病毒引起的叶部病害的影响，在疫情条件下病害可导致番茄产量减少20%至40%[2]。因此，早期和精确的病害诊断对于保护作物和保障粮食安全至关重要[3]。传统的病害识别方法主要依赖于受过培训的农艺师的视觉检查，这种方法劳动强度大、主观性强，无法满足现代农业系统大规模实时监控的需求[4]。深度学习与计算机视觉的结合为精准农业中的自动化作物病害诊断带来了重大机遇。对象检测是计算机视觉中的基础任务，涉及图像中多个目标的定位和分类，是农业领域智能视觉感知的基础[5]。包括基于卷积神经网络（CNN）的检测器（如YOLO系列）和基于Transformer的检测器（如Detection Transformer，简称DETR）在内的检测架构的快速发展显著提高了检测精度和鲁棒性[6]。这些进展为复杂田间环境中的自动化病害监测系统提供了可能。然而，基于CNN的检测器在捕捉长距离空间依赖性和全局上下文方面存在局限性，而这对于形态模糊或部分被遮盖的病斑的有效定位至关重要[3]。此外，近期研究表明，大多数现有检测方法仍局限于受控实验室环境，很少有研究系统地考察它们在资源有限的边缘设备上的实时推理和泛化能力[7,8,9]。这一观察凸显了报告的检测性能与实际农业监控系统运营需求之间的关键差距。

在利用深度学习进行植物病害识别方面已取得显著进展。基于CNN的分类模型在标准植物病害数据集上的准确率超过了95%[10]。除了分类任务外，对象检测模型（尤其是YOLO系列）还扩展了同时定位和识别病害的能力。例如，Abulizi等人[11]提出的DM-YOLO利用YOLOv9和多核深度卷积及动态上采样技术，在自然环境中增强了番茄叶部病害的检测性能。Chen等人[12]采用了改进的YOLOv8n模型，加入了SimAM注意力机制和优化后的特征金字塔结构，提高了多尺度病斑检测的效果。Shen等人[13]也证明了基于深度分组卷积的优化YOLOv8架构可以实现对可持续农业中番茄病害的实时精准检测。然而，这些基于YOLO的进展主要集中在单个尺度内的特征增强，未能明确解决全局跨尺度语义一致性问题或层次化特征传播过程中的梯度级边界线索保留问题[14,15]。因此，对于边缘模糊且前景背景对比度低的早期病斑，检测性能会显著下降，这需要超出纯卷积模型能力的整体上下文推理[16]。

在Transformer方面，DETR将对象检测重新定义为直接集合预测任务，并通过二元匹配去除特定候选项（如锚框和非最大值抑制NMS）。在此基础上，RT-DETR成为首个实时的端到端Transformer检测器，通过结合CNN和Transformer编码器实现了良好的速度-精度平衡。Zhang等人[17]提出的WMC-RTDETR用于茶叶病害检测，证明了小波变换卷积和多尺度多头自注意力机制显著提升了RT-DETR的病斑检测能力，同时减少了模型参数数量。Sun等人[18]开发的Eggplant-DETR则在RT-DETR框架内结合了多尺度特征提升和频域感知，在复杂农业条件下取得了最佳检测效果。总体而言，这些发现表明RT-DETR范式在农业病害检测方面具有巨大潜力。然而，关于其在番茄叶病检测中的应用仍需进一步研究。Transformer架构在全局建模方面更为有效，但由于其对输入分辨率的二次计算成本，在资源受限环境中不切实际[5]。尽管现有的RT-DETR改进模型通常只解决了跨尺度语义对齐、梯度感知边界定位或背景噪声抑制中的一个关键方面，并未将它们在统一流程中最佳整合[19,20]。此外，针对资源受限边缘设备的系统验证也非常有限，因此这些技术在现实环境中的应用效果受限[21]。

同时，多尺度特征融合在检测不同大小的病斑方面仍是一个关键挑战。Zheng等人[22]采用了传统的PANet特征金字塔架构，通过链式融合步骤在数据下采样过程中逐步平滑密集的病理特征。近期研究探讨了双向和基于注意力的融合技术以弥合跨尺度语义差距，但如何在细粒度农业病害检测中同时保留高分辨率空间细节和高层次语义信息仍是一个未解决的问题。在部署方面，Nyakuri等人[23]证明了在基于树莓派的边缘设备上运行的轻量级CNN模型可以实现实时病害检测，推理延迟低于80毫秒，凸显了设备级农业智能的可行性。然而，大多数现有高性能检测模型缺乏在网络连接有限的真实农业环境中的系统验证[23]。

因此，一个能够提供高精度、跨领域泛化能力和边缘部署效率的单一大规模番茄叶病检测系统仍是一个亟待解决的科研问题。为克服这些挑战，本文提出了基于梯度的双向保留检测变换器（GBR-DETR）模型。该模型包含两个网络结构和一个特征聚合模块：梯度感知主干增强（G）、双向特征金字塔融合（B）和保留特征聚合（R）。本研究的主要价值在于：
(1) 提出了一个多场景番茄叶病数据集（M-TLD），该数据集统一考虑了光照变化、叶片遮挡、种植密度和背景复杂度等因素，可作为评估自然农业条件下检测鲁棒性的综合性基准；
(2) GBR-DETR整合了三个创新组件：多尺度梯度感知转移网络（MGAT-Net），通过Sobel算子编码梯度信息以线性计算成本提高对微小或模糊病斑的定位稳定性；双向上下文金字塔网络（BCPN），通过双边深度和横向梯度线索生成多尺度病斑表达，弥合跨尺度语义差异；保留特征聚合模块（RFAM），通过保留机制过滤背景噪声并建立全局关联，从而在重叠病斑间保持语义一致性；
(3) 通过在NVIDIA Jetson Orin Nano平台上的实际部署验证了GBR-DETR的可行性，使用TensorRT FP16优化后，每帧推理延迟为54毫秒。实验结果表明，GBR-DETR在M-TLD数据集上的mAP50、mAP75和mAP50–95指标分别达到78.91%、68.52%和62.98%，显著优于基线CNN和Transformer模型，并在PlantDoc基准测试中表现出强大的跨领域泛化能力。

**2. 材料**
**2.1. 数据收集**
本研究中的番茄叶病图像数据集（以下简称M-TLD数据集）来自中国四川省成都市成都大学的多个番茄果园和温室。该地区属于亚热带湿润季风气候，年均温度约为16.8°C。高湿度和降雨量不仅为番茄生长提供了理想条件，也导致了叶部病害的普遍发生。为确保数据集的代表性和多样性，数据收集了三种常见的栽培环境：露地栽培、塑料隧道栽培和温控温室。这些地点的管理方式和光照水平各不相同。采样周期涵盖了整个生长周期，以分析叶片形态的变化和病害症状的发展过程。图片采用Apple iPhone 15 Pro Max拍摄，从多个角度和距离捕捉了病斑分布和叶片纹理的丰富细节，包括正面、俯视和侧面视图。所有照片均在自然光条件下拍摄，背景保持原始状态。收集后的数据经过人工筛选，剔除模糊、过曝或严重遮挡的样本，最终得到2212张原始番茄叶图像（图1为代表性样本）。

**2.2. 数据预处理**
M-TLD数据集主要用于解决所提出检测模型的监督训练问题。使用LabelMe工具完成图像注释，采用两级质量控制流程：第一阶段由三名本科生根据农业专家提供的视觉参考指南标注边界框和病害类别；第二阶段由两名具有至少五年番茄病理学经验的农业专家审查并纠正所有边界框和病害类别。对于病害类别不确定的模糊实例也进行了处理。由于LabelMe生成的注释为JSON格式，因此将其转换为YOLO格式（txt）以适配模型输入流程。每个文本文件都与相应的图像对应。过滤后的数据集按大约8:1:1的比例随机分为训练集、验证集和测试集，分别为1769张训练图像、221张验证图像和222张测试图像。表1展示了九个病害类别的注释实例分布情况。如表1所示，M-TLD数据集包含2212张图像，共6581个注释实例，涉及8种病害类型和1个健康类别。其中，黄叶卷曲病毒（Yellow Leaf Curl Virus，简称TYLCV）的样本数量最多（1213个），反映了其在采样环境中的高发率，而晚疫病（Late Blight）的样本数量最少（473个）。平均每张图像的注释数量约为2.97个，表明许多图像包含多种并发病害，从而增加了检测难度，更真实地反映了实际田间情况。尽管类别不平衡程度适中，但在训练过程中未采取额外过采样或类别加权策略以保持评估公平性。M-TLD数据集及其所有注释文件均可在https://github.com/zhuojiaxiong6/DETR（访问于2026年4月29日）公开获取，以便于结果的可重复性和后续研究。3. 方法与实验设计 3.1. GBR-DETR的总体框架本文提出了GBR-DETR（基于梯度的双向保留检测变换器），这是一个基于RT-DETR端到端范式的实时检测框架，用于番茄叶病识别。选择RT-DETR作为基线模型，是因为它采用了混合CNN–Transformer编码器，实现了良好的速度-准确性平衡，并且具有无锚点集合预测机制，无需进行NMS后处理，这两点对于低延迟的边缘部署至关重要。该模型整合了三项协同创新的特性，这些特性也体现在其名称中：（1）“G”——MGAT-Net，一个基于梯度的主干网络，它将Sobel导出的边缘特征显式注入语义层次结构中，以提高对细粒度病变的边界敏感性；（2）“B”——BCPN，一个双向上下文金字塔网络，通过多核深度卷积同时融合三个金字塔层次，从而弥合跨尺度的semantic差距；（3）“R”——RFAM，一个保留特征聚合模块，它用基于保留的机制替换了RepC3，以捕捉全局空间依赖性。GBR-DETR的端到端处理流程如下：给定一个640 × 640大小的输入图像，图像首先通过MGAT-Net主干网络，其中梯度金字塔生成器（GPG）从茎层提取多尺度Sobel边缘特征，并通过边缘-语义融合模块（ESFM）将它们注入每个主干阶段。主干网络产生三个不同分辨率的特征图：P3、P4和P5。这些多尺度特征随后被输入到BCPN颈部，核心特征块（CoreFeatureBlock）将这三个层次对齐到统一的中间分辨率，然后将它们连接起来，并应用多核深度卷积来捕捉不同感受野之间的上下文依赖性。在颈部的自下而上和自上而下的融合路径中，RFAM用基于保留的模块替换了原始的RepC3模块，以在保持局部纹理特征的同时建立全局空间依赖性。最后，融合后的多尺度特征被传递给RT-DETR解码器，该解码器采用基于Transformer的集合预测机制和双向匹配，直接输出每个检测到的病变的病害类别和边界框坐标，无需设计锚点或进行NMS后处理。总体架构如图2所示。图2. GBR-DETR网络的总体架构。3.2. 双向上下文金字塔网络（BCPN）传统的特征金字塔架构，如PANet和RT-DETR中的混合编码器，在面对细粒度番茄叶病检测时存在固有的局限性。番茄叶部的病理表现，例如细菌斑点和早期枯萎病病变，通常表现为具有细微表面差异的小斑点。标准金字塔结构的影响导致信息在序列下采样过程中衰减，从而稀释了细粒度的病理特征。此外，传统金字塔使用的序列融合方案无法同时利用多分辨率的上下文依赖性，限制了网络检测轻微表现病变的能力。我们建议通过引入双向上下文金字塔网络（BCPN）来克服这些缺点，如图3所示，其基本构建块核心特征块（CoreFeatureBlock）能够以协同的方式实现特征之间的多尺度交互，具体细节见图4。图3. 双向上下文金字塔网络（BCPN）的总体工作流程。图4. 核心特征块（CFB）模块的设计。设、、和表示来自三个金字塔层次的输入特征图。核心特征块首先通过互补的空间变换将所有输入对齐到P4的中间分辨率：（1）、（2）、（3），其中表示尺度因子为2的双线性上采样，将的空间分辨率从提高到了，而高级下采样（ADown）模块是我们提出的高级下采样模块，它将的空间分辨率从降低到了。通过这些互补操作，所有三个特征图在空间上都对齐到P4的中间分辨率，从而可以进行后续的通道级连接。ADown模块协同整合了互补的池化策略，以保留异构特征特性。给定输入，首先应用初步的平均池化得到。然后，平滑后的特征图沿通道维度分割为和，接着分别进行步长卷积和最大池化。完整的ADDown操作表示为：这种双路径设计使ADDown能够捕获平滑的上下文信息和显著的特征响应，相比传统的下采样方法提供了更好的信息保留能力。在空间对应后，三个投影的特征图被连接起来作为。为了捕捉多尺度上下文关系，我们使用多核深度卷积聚合机制。设表示一组核大小，覆盖从局部病变纹理（k = 5）到更广泛上下文区域的感受野（k = 11）。聚合特征的计算公式为：这种双路径设计使ADDown能够同时捕捉平滑的上下文信息和显著的特征响应，提供了比传统下采样更好的信息保留能力。3.3. 多尺度梯度感知传输网络（MGAT-Net）传统的对象检测系统中的主干网络，包括ResNet及其衍生模型，主要由分层卷积操作组成，这些操作在逐渐降低的分辨率下生成语义表示。尽管这种方法在整体对象检测中取得了成功，但在细粒度番茄叶病检测方面存在固有的缺点。特别是，病组织和健康组织之间的病理边缘是非常重要的区分特征，简单的卷积核（预先优化用于处理纹理和颜色模式）无法充分表示这些特征。早期感染的逐渐梯度活动，尤其是细菌斑点和即将发生的真菌病变，通过重复的池化和步长操作逐渐扩散，使得网络对诊断相关的边缘数据反应迟钝。此外，传统的主干网络以前馈方式处理特征，没有任何机制在不同尺度之间维持和传递梯度敏感的表示。为了克服这些缺点，我们引入了多尺度梯度感知传输网络（MGAT-Net）。这种更强大的主干架构在特征层次结构上升时明确利用了边缘信息。创新包括两个互补模块：梯度金字塔生成器（GPG）和边缘-语义融合模块（ESFM）。梯度金字塔生成器获取多尺度边缘表示，这些表示捕捉不同空间粒度的病理边界。给定来自茎层的输入特征图，GPG在水平和垂直方向上应用标准3 × 3 Sobel算子来提取梯度信息。与可学习的边缘检测器相比，Sobel算子提供了确定的、无参数的梯度提取方式，避免了额外的训练开销，并确保了在不同病变形态下的稳定边界响应。梯度响应通过深度2D卷积计算得出，其中每个通道都独立与固定的Sobel核进行卷积，以保持通道间的独立性：这一步骤之后是GPG，它通过连续的最大池化操作生成多尺度边缘金字塔。在具有个特征的层次金字塔中，每个层次的边缘特征计算公式为：然后，将金字塔的每个层次投影到相应的通道维度：其中表示第i个金字塔层次的通道维度，这个通道维度与主干网络的第i个阶段相对应。边缘-语义融合模块将梯度特征与主干阶段产生的语义特征结合起来。在每个层次，ESFM接收两个输入：GPG的边缘特征和前一阶段的主干特征。融合过程首先连接边缘特征和语义特征，然后进行顺序的通道压缩（1 × 1卷积）、局部模式提取（3 × 3卷积）和通道扩展（1 × 1卷积）。完整的ESFM操作公式为：提出的MGAT-Net架构在细粒度疾病检测中提供了几个独特的好处。首先，使用Sobel卷积明确强调梯度细节有助于确保精细的病理边界在整个网络层次结构中得到保留和传播，从而减轻了传统主干网络的边缘丢失特性。其次，多尺度边缘的金字塔结构实现了边界的尺度不变表示，能够适应不同疾病类别和不同程度进展中的大范围病变尺寸差异。第三，在每个主干阶段结合边缘和语义表示，使得互补信息的融合成为可能：梯度敏感的表示增强了定位准确性，而语义特征增加了分类区分能力。第四，GPG和ESFM都设计得非常轻量级，在显著提高网络对细粒度病理表现敏感性的同时，引入了最小的计算开销。MGAT-Net模块的具体架构如图5所示。图5. MGAT-Net模块的架构。3.4. 保留特征聚合模块（RFAM）在RT-DETR中用于特征金字塔网络的特征聚合的RepC3模块，使用重新参数化的卷积从连接的多尺度特征中学习局部模式。尽管这种设计在推理时通过结构重新参数化实现了计算效率，但在处理细粒度疾病特征方面存在固有的缺点。特别是，网络的完全卷积结构限制了其感受野仅限于图像的局部区域，排除了捕捉这些区域之间的长距离空间交互，从而影响了其在区分视觉相似疾病类别方面的能力。通常，番茄叶子上的病理模式表现为具有典型模式的空间局部病变，例如早期枯萎病的同心环状模式或细菌斑点的随机分布，这些需要全局上下文推理，而单靠局部卷积无法实现。此外，RepC3中缺乏显式位置编码，使得该模块对病理特征的空间组织不敏感，而这对于细粒度疾病分类是一个重要的区分线索。为了解决这些缺点，我们引入了保留特征聚合模块（RFAM），如图6所示，它使用了RMT [24] 中提出的保留块（RetBlock）架构作为C3架构的一部分，以实现高效的长距离依赖建模，计算复杂度为线性O(HW)。图6. RFAM的架构图。保留机制最初在RetNet [25] 中为语言建模引入，后来被RMT [24] 适应到视觉任务中，提供了一种比标准自注意力更高效的替代方案。它采用多头块状循环计算，结合了可学习的衰减因子和RelPos2d相对位置编码，在线性复杂度O(HW)下实现了全局感受野覆盖，而不仅仅是自注意力的二次方O(H2W2)。有关详细公式，请参考Fan等人的研究[24]。给定输入特征图，保留输出通过残差加法与并行卷积分支结合：这种双分支结构使得可以同时捕获全局上下文模式（通过保留）和局部纹理特征（通过卷积）。将RFAM添加到特征金字塔网络中，替换了自下而上和自上而下的所有RepC3模块，使得每个融合层次都能够捕获全局上下文聚合。这种架构变化对细粒度疾病检测有几个好处。首先，保留机制能够以线性复杂度存储长距离空间依赖性，而简单自注意力的复杂度为二次方。其次，RelPos2d提供的显式相对位置编码保留了区分疾病模式所需的空间配置数据。第三，块状循环公式实现了高效的处理和全局感受野覆盖。第四，双分支架构结合了保留和卷积，使得能够提取全局上下文模式和局部纹理特征。3.5. 实验环境的配置所有对象检测模型的训练和优化过程都是在运行Ubuntu 22.04 LTS的高性能工作站上进行的。实验环境的硬件和软件配置如表2所示。表2. 实验环境硬件和软件配置。3.6. 评估指标本研究采用了标准的对象检测评估指标。精确度（P）和召回率（R）分别衡量正面预测的准确性和完整性，F1分数代表它们的调和平均值。平均精确度（AP）是每个类别的精确度-召回率曲线下的面积，平均平均精确度（mAP）是所有类别AP值的平均值。在这项工作中，我们按照Ultralytics评估协议报告了在IoU阈值为0.50（mAP50）和0.75（mAP75）时的mAP，以及mAP50–95，后者是在0.50到0.95的IoU阈值范围内以0.05为间隔平均得到的结果。推理效率通过每秒帧数（FPS）和每张图像的平均延迟时间（以毫秒计）来衡量。4. 结果 4.1. 实现细节在模型训练之前，所有图像都被缩放到640 × 640的大小，以确保输入数据的统一性。除了离线增强外，还在模型训练期间使用了在线增强，以确保应用实时的图像变换。这增加了数据的多样性，并提高了模型的泛化能力。训练超参数（表3）遵循了默认的RT-DETR配置，并进行了轻微调整：采用了SGD算法和线性学习率衰减（从0.01降至0.0001），以确保在相对较小的M-TLD数据集上能够稳定收敛；批量大小为16，这是由GPU内存限制决定的；并采用了15个周期的早停策略以防止过拟合。选择640 × 640的输入分辨率是为了在检测准确性和边缘推理速度之间取得平衡，这一点在4.4节中得到了进一步验证。为了确保统计可靠性，所有实验都使用了不同的随机种子（42、123、456、789、1024）独立进行了五次。所有结果都是五次实验的平均值。表3. 最终模型参数设置的详细信息。4.2. 消融研究为了全面验证GBR-DETR的设计，进行了一项三步消融研究。第一步关注子模块结构。在这一步中，优化了BCPN子模块CFB的一个超参数——通过配置矩形超参数核大小来优化这一关键组件。第二步关注将BCPN、MGAT-Net和RFAM集成到基线RT-DETR中。在这一步中，量化了每个模块的贡献及其对基线模型的累积效应。最后一步是定性分析。使用Grad-CAM热图来展示所提出模型及其技术在关注病变区域形状方面的有效性。多尺度病变感知的感受野多样性由CFB的灵活核配置定义，如表4所示。使用单一核（5）时，mAP50最低，仅为67.85%，因为固定的5 × 5感受野只能响应较小范围的病变，无法捕捉到小斑点或大面积的坏死斑块。引入7 × 7分支（5, 7）后，mAP50提升到了75.09%，因为这两个互补的尺度共同覆盖了主要的病变大小分布，并产生了更具辨别力的融合特征。出乎意料的是，进一步添加9 × 9核（5, 7, 9）导致mAP50略微下降到72.97%；我们认为这是因为相邻感受野之间的严重重叠——当三个紧密排列的核响应相似的区域时，融合表示变得冗余而非互补，从而在训练过程中弱化了梯度信号。通过使用11 × 11核（5, 7, 9, 11）扩展了感受野范围，以恢复尺度互补性，实现了最佳的mAP50，为75.81%。然而，将核大小扩展到（5, 7, 9, 11, 13）时，mAP50下降到了68.43%，但代价是增加了GFLOPs的数量。mAP50的下降是因为13 × 13核超出了我们数据中的典型病变大小，起到了低通滤波的作用，平滑了如斑点边缘和叶绿素晕圈等高频成分，而这些成分对于区分疾病至关重要。因此，配置（5, 7, 9, 11）被采纳为默认的CFB设置，它在尺度互补性和特征清晰度之间提供了最佳平衡。表4. 不同核大小对CFB性能的影响。在确定了最佳的CFB配置后，我们进一步通过逐步将BCPN、MGAT-Net和RFAM集成到基线模型中，评估了它们的整体有效性。结果总结在表5中。表5. 消融实验的结果。为了验证所提出的BCPN模块的有效性，基线RT-DETR模型的mAP50达到了74.03%，精确度为75.28%，召回率为72.25%，参数数量为19.88 M，GFLOPs为57。添加BCPN模块后，mAP50提升到了75.81%，精确度和召回率也分别上升到了79.58%和73.23%，而mAP75和mAP50–95分别为65.39%和60.80%。尽管参数数量增加了2.36 M（11.88%），计算成本增加了9.1 GFLOPs（15.96%），但BCPN模块的结果显著更好。在BCPN基线模型的基础上，MGAT-Net模块进一步优化了边界细化。参数和GFLOPs分别增加到了23.48 M和68.6，mAP50和mAP75分别达到了77.15%和68.07%。最后，引入RFAM后实现了最平衡的性能。精确度提高到了82.14%，是所有配置中最高的，F1分数提高到了76.93%。同时，参数数量减少到了22.13 M（比BCPN+MGAT-Net减少了1.35 M），GFLOPs减少到了59.4（比基线增加了2.4 GFLOPs）。除了表5中的定量评估外，我们还使用Grad-CAM生成了特征激活热图，进一步可视化了所提出的BCPN、MGAT-Net和RFAM模块的内部机制和有效性。如图7所示，集成额外的模块使得模型关注力的集中程度有了明显的进步。在基线模型中，我们观察到模型的注意力分散且受到背景的干扰。作为改进，我们观察到MGAT-Net的集成提高了模型对病变边缘的关注强度。MGAT-Net的设计旨在实现模型中的边缘感知特征传输。此外，RFAM通过建立全局空间依赖性，在GBR-DETR框架中最小化了模型周围的背景噪声。这些改进提高了对病变边缘的视觉聚焦效果，从而支持了GBR-DETR框架的核心设计是专注于诊断相关病理成分的结论。图7. Grad-CAM激活热图，展示了每个提出的模块的渐进效应。从左到右依次为：基线RT-DETR、+BCPN、+BCPN+MGAT-Net以及完整的GBR-DETR。较暖的颜色（红色/黄色）表示模型关注度较高的区域，而较冷的颜色（蓝色）表示关注度较低的区域。4.3. 与其他经典对象检测模型的比较为了全面分析GBR-DETR的检测准确性和实时性能，我们系统地将其与在M-TLD数据集上训练的13个流行的对象检测模型进行了比较。选定的基线模型涵盖了多种架构：经典的两阶段检测器Faster-RCNN [26]，以及复杂的单阶段或无锚点系统如ATSS [27]、GFL [28]、TOOD [29] 和VFNet [30]。我们还包括了基于Transformer的DINO [31]、轻量级YOLOX-tiny [32]，以及YOLO家族的最新版本，即YOLOv8m [33]、YOLOv9m [34]、YOLOv10m [35]、YOLOv11m [36]、YOLOv26m [37] 和Hyper-YOLO [38]。每个模型都在可比的实验条件下进行了评估，没有使用任何预训练的权重，以确保对其检测准确性和计算效率的公平比较。比较结果展示在表6中。表6. GBR-DETR与其他模型性能的比较。与其它框架相比，GBR-DETR取得了最佳的整体结果。该模型具有22.13 M参数，mAP50为78.91%，mAP75为68.52%，mAP50–95为62.98%，精确度为82.14%，召回率为72.91%，F1分数为76.93%，GFLOPs为59.4。在单阶段检测器中，ATSS和GFL的mAP50分别仅为46.8%和48.2%，表明它们在捕捉细粒度疾病特征方面能力有限。TOOD的召回率为62.3%，但其精确度仅为53.1%，导致了过多的误报。VFNet获得了68.4%的mAP50，精确度和召回率相对平衡，但仍明显低于GBR-DETR。基于Transformer的DINO模型需要47.557 M参数和193 G FLOPs，但其mAP50仅为52.9%，表明普通的Transformer架构在植物疾病检测方面效率低下。两阶段检测器Faster-RCNN的mAP50为78.5%，但其计算成本（146 G）是GBR-DETR的2.46倍，不适合边缘部署。在YOLO家族中，YOLOX-Tiny的计算成本最低（7.6 G），但其检测性能较低，mAP50仅为74.5%。YOLOv8m的mAP75略高于GBR-DETR（68.57%），但其较低的召回率（69.38%）导致了较高的漏检率。YOLOv9m和YOLOv10m的mAP50分别为75.05%和77.18%。另外两个最近提出的模型也进行了评估。YOLOv26m是2026年发布的最新无NMS端到端YOLO变体，在M-TLD数据集上的mAP50仅为74.98%，尽管其在一般基准测试中表现优异，但表明其针对边缘的优化设计可能牺牲了细粒度疾病特征的提取。Hyper-YOLO引入了基于超图的特征聚合，虽然在计算成本（33.8 G）方面最低，但其mAP50仅为75.35%，准确率仍比GBR-DETR低3.56个百分点。YOLOv11m在所有比较方法中获得了第二高的mAP50，为78.51%。然而，GBR-DETR在mAP50、F1分数和精确度方面仍分别比YOLOv11m高出0.40%、2.30%和5.27个百分点，同时保持了更低的计算成本（59.4 G对比67.7 G）。图8显示了mAP50和GFLOPs的散点图，以说明准确性和效率之间的关系。GBR-DETR位于帕累托前沿的左上区域，实现了检测准确性和计算效率之间的最佳平衡。这使其非常适合在智能农业系统中的边缘设备上进行实时疾病检测。如图9所示，即使在目标暴露、背景杂乱和低光照遮挡等困难条件下，GBR-DETR也表现出良好的性能。图10展示了GBR-DETR在M-TLD测试集上的归一化混淆矩阵，说明了其每类的识别性能，对角线值表示每个类别的正确分类率。图8. 不同对象检测模型的mAP50与计算成本（GFLOPs）的比较。箭头指向性能更好的方向（更高的准确性和更低的计算成本）。图9. GBR-DETR在不同挑战性条件下的检测结果，包括复杂背景、变化的光照、部分遮挡和密集的叶覆盖。图10. GBR-DETR在M-TLD测试集上的归一化混淆矩阵。对角线值代表每个类别的正确分类率。图11展示了GBR-DETR在M-TLD测试集上的四个典型失败案例，揭示了该模型的几个局限性。（A）漏检。在叶片前后景对比度低且叶片背景纹理密集的情况下，模型未能检测到某些疾病斑点。尽管MGAT-Net使用了Sobel梯度来增强边界对比度，但由于叶片之间的密集重叠，产生了大量杂乱的纹理特征，使得模型难以识别这些小病斑。（B）健康叶片的误诊。对于仅包含健康叶片的图像，模型偶尔会高置信度地预测为马赛克病毒。这种误分类发生是因为相邻叶片重叠产生的阴影和高亮模式在视觉上与马赛克病毒感染后的粗糙纹理相似。这一现象进一步表明，当图像中的主导梯度源于光照变化而非病理特征时，MGAT-Net对梯度信号的高灵敏度可能产生了不利影响。（C）类别混淆。这种情况表明模型难以区分晚期和早期阶段的病害。在疾病发展的后期，这两种病的病变形态、颜色和空间分布极为相似，都主要表现为坏死现象。尽管模型有效捕捉了远距离依赖性，但其视觉表示区分能力仍有待进一步提高。（D）定位错误。当两个相邻叶片同时感染叶斑病时，叶片之间的空间粘连导致模型将两个独立实例合并到了一个扩展的边界框中。虽然预测的类别是正确的，但实例数量不准确，边界框变得不正常。这代表了RT-DETR模型的一项固有局限性，该模型依赖于设定预测和匈牙利匹配：该模型难以将视觉上相似且在空间上相邻的实例视为独立的目标，而在密集种植的作物中这一问题尤为明显。图11展示了GBR-DETR在M-TLD测试集上的典型失败案例。(A) 在前景与背景对比度较低的情况下未能检测到小病斑。(B) 由于重叠叶片上的阴影图案，将健康叶片误诊为花叶病毒。(C) 在晚期阶段将晚疫病和早疫病混淆。(D) 由于将两个相邻的受感染叶片合并到一个边界框中而导致的定位错误。4.4. 在NVIDIA Jetson Orin Nano上部署GBR-DETR模型为了证明在边缘设备上部署所提出模型的可行性，本文采用了NVIDIA Jetson Orin Nano作为推理平台。操作系统基于Ubuntu 22.04和JetPack 6.2.1。该平台集成了NVIDIA的加速库，包括CUDA、cuDNN和TensorRT，这些库在大资源限制的环境中显著提高了实时推理效率。环境是用Python 3.10构建的，并且也安装了推理和可视化的依赖项。具体硬件和软件环境的详细信息可以在表7中找到。表7. 边缘设备部署和环境配置。模型部署是一个两步过程，包括导出ONNX格式和转换为TRT引擎。首先使用Ultralytics框架在训练服务器上将训练好的PyTorch模型导出为中级ONNX（开放神经网络交换）格式。ONNX是一种深度学习模型的交换格式，使得模型具有跨平台的兼容性。在导出过程中，根据应用场景创建了具有不同输入分辨率（320 × 320、480 × 480、512 × 512、640 × 640、800 × 800和1024 × 1024）的六个ONNX模型，以便后续比较多尺度性能。然后使用TensorRT的trtexec工具将这些ONNX模型转换为Jetson Orin Nano设备上的更快推理引擎。它使用了FP16（半精度浮点）格式进行转换。这将模型参数和中间激活值的位深度从32位减少到了16位，而没有显著影响检测准确性。这导致模型大小减少了50%，并且大幅降低了模型的内存带宽需求。最佳参数工作空间大小被设置为4096 MB，为复杂层中的计算提供了足够的缓冲空间。卷积、批量归一化和激活函数可以通过TensorRT自动融合为单一操作；独立计算分支可以通过水平层融合来并行化以降低成本；核心自动调优可以根据Ampere架构的GPU硬件特性选择最佳计算核心；量化范围可以动态调整以最小化精度损失。引擎文件针对目标硬件进行了大量优化，从而提高了模型推理性能。为了系统地分析不同输入分辨率下的检测精度和推理速度之间的权衡，本研究在测试数据（222张图像）上检查了六尺度TensorRT模型。评估指标包括检测精度、召回率和F1分数。图12提供了多尺度模型的更详细性能测量结果。关于检测精度，模型的性能首先提高，在640 × 640分辨率下达到峰值，然后在更高分辨率下略有下降，这是因为小对象的比例相对较低。在输入信息如此受限的情况下，320 × 320分辨率的模型仅获得了0.6033的F1分数，而640 × 640分辨率的模型达到了0.7395，这在精度和召回率方面取得了良好的平衡。进一步将分辨率提高到1024 × 1024以进一步提高精度所带来的边际收益逐渐减少。物体检测实验的整体趋势可以解释这一点。在非常高的分辨率下，可以检测到更多详细信息，但在小对象比例相对较低的数据集中，这种好处减弱了。图12. GBR-DETR在不同图像输入大小上的准确性指标变化。图13确认了随着输入图像大小的增加，模型的推理速度（FPS）显著下降。这主要是因为高分辨率图像有更多的像素特征需要处理，使得计算非常耗费资源，从而降低了推理速度。例如，当分辨率从320 × 320增加到1024 × 1024时，FPS降低了超过两倍，降至11.60，约为一半，表明模型在高分辨率下无法进行实时推理。这使得在资源有限的边缘设备上使用变得困难。因此，作为检测速度和推理速度之间的折中，本文最终将640 × 640作为模型的默认图像大小。这一选择保证了较高的检测率以及相对稳定和令人满意的实时推理率。图14进一步展示了在边缘设备上部署的GBR-DETR的实际检测性能。图13. GBR-DETR在不同图像输入大小上的速度差异。图14. GBR-DETR在边缘设备上的实际检测结果。5. 讨论 5.1. 架构优势和机制分析所提出的GBR-DETR框架在检测番茄叶病方面具有优越性，主要得益于解决传统基于CNN的检测器缺点的协同架构创新。单阶段检测器（如YOLOv11）在预测速度上更快，但在复杂背景下常受到语义-空间错位的严重影响，导致细节丢失。GBR-DETR通过双向上下文金字塔网络（BCPN）解决了这个问题，该网络创建了一个递归的信息高速公路。通过高级语义和低级纹理之间的强关联，BCPN确保了小的、早期的病斑在特征下采样过程中得以保留。此外，与两阶段检测器（如Faster R-CNN）相比，保留特征聚合模块（RFAM）的使用促进了GBR-DETR的全局建模，因为这类模型通常是基于局部卷积操作构建的。这一能力在番茄田中尤为重要，因为那里有密集的叶子和遮挡现象。曼哈顿距离空间保留机制保持了语义连贯性，并提供了长距离的上下文建模，使模型能够区分重叠叶片上的相邻病斑——这是纯CNN架构通常难以完成的任务。同时，直接使用端到端的RT-DETR范式消除了对启发式锚点设计或NMS后处理的需要。这种简化简化了推理流程，并对延迟抖动的影响最小，使得模型的预测时间更加可预测，适合集成到机器人干预系统中。5.2. 泛化能力和跨领域鲁棒性为了测试模型能否应用于与M-TLD数据集不同的领域，我们在公开可用的PlantDoc数据集[39]上进行了跨领域测试。PlantDoc图像是从网上抓取的，与我们高质量的内部收集样本不同，这些图像分辨率较低，有压缩伪影和较高的背景多样性。这带来了由领域差异引起的主要挑战。表8总结了GBR-DETR和RT-DETR在PlantDoc数据集上的跨领域性能。如表8所示，GBR-DETR在这项困难任务中表现非常好。它达到了61.61%的精确度和48.60%的mAP50，远高于RT-DETR基线（精确度：60.01%，mAP50：46.49%）。这一改进很重要；它表明MGAT-Net模块使模型不会过于依赖源领域的颜色或纹理分布。相反，模型通过显式编码梯度边界学习病斑的一般结构特征（例如早疫病的环），并且不依赖于数据集。这种对结构特征的重视使GBR-DETR能够适应新图像，并可能适应其他茄科植物（只需少量微调），因此在实际应用中显得很有必要。5.3. 局限性和未来展望尽管有令人鼓舞的发现，但仍存在一些限制，需要进一步研究以扩展模型的适用性。首先，关于环境多样性，现有数据不包括极端天气条件下的样本，例如重雾、叶片上的凝结水或风暴期间照明强度的突然变化。这些情况可能会影响MGAT-Net梯度提取的有效性，可能需要额外的数据增强或领域适应模型。其次，关于计算限制，该模型可以在单个Jetson Orin Nano上实时运行（大约18.45 FPS）；然而，将其扩展到大型温室并使用多个摄像头捕捉同时流是困难的。计算工作负载（59.4 GFLOPs）比YOLOX-Tiny等相对较小的模型要高得多，可能不兼容低端微控制器。第三，该模型的解释性不佳。尽管注意力图提供了感兴趣区域的洞察，但它们并没有用生物学术语解释病害状况，这对于赢得农学家和农民的信任非常重要。未来的工作将重点关注以下方向：(1) 开发多模态数据模型，添加深度（RGB-D）和多光谱数据，使模型对光照变化更加鲁棒；(2) 研究模型压缩方法（例如知识蒸馏和通道剪枝），以进一步简化边缘集群预测；(3) 添加可解释AI（XAI）模块，以可视化病理特征，并弥合深度学习预测和病理诊断之间的差距。6. 结论本文关注的是在复杂农业环境中可靠检测番茄叶病这一当前问题。在这里，介绍了一个实时检测番茄叶病识别的模型GBR-DETR（梯度感知双向保留检测Transformer）。它基于RT-DETR端到端架构，但结合了三种互补的结构设计创新，以解决当前检测器所谓的语义-空间错位和局部感受野问题。具体来说，双向上下文金字塔网络（BCPN）递归地在高级语义和低级纹理之间建立信息路径，从而提高了细粒度病斑的识别能力。多尺度梯度感知传输网络（MGAT-Net）直接融合梯度先验（使用Sobel运算符），有助于在各种光照条件下进行准确的边界检测。此外，保留特征聚合模块（RFAM）使用空间衰减函数对全局信息进行建模，帮助在拥挤和杂乱的环境中分离附近的病斑。来自自建M-TLD数据集的实验结果表明，GBR-DETR的精确度为82.14%，召回率为72.91%，F1分数为76.93%，这些都高于包括YOLOv11m和Faster-RCNN在内的最先进基线。PlantDoc数据集进一步证明了该模型在跨领域评估中的高泛化能力（mAP50：48.6%）。重要的是，在NVIDIA Jetson Orin Nano上的部署实验证明了该框架的工程可行性：通过TensorRT的FP16加速，该模型可以在640 × 640分辨率下以恒定的推理速率18.45 FPS运行（延迟约为54 ms）。总体而言，GBR-DETR在实现检测精度、鲁棒性和计算效率之间的理想平衡方面是一个不错的选择，是温室中智能疾病监测系统的可行选项。下一步研究是通过多模态数据（RGB-D）扩展数据集，并研究轻量级模型压缩方法，以便在超低功耗边缘计算机上部署。

热点排行