利用数据驱动的边缘人工智能实现可扩展且节能的杂草检测，以促进精准农业的发展

《Frontiers in Agronomy》：Enabling scalable and energy-efficient weed detection using data-driven edge AI for precision agriculture

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Agronomy 4.1

编辑推荐：

　　摘要实时杂草检测是精准农业的关键技术；然而，将深度学习模型部署在低成本嵌入式平台上仍受到计算延迟和能源消耗的限制。在这项研究中，我们对基于YOLO的对象检测模型在现实边缘人工智能（edge-AI）条件下的部署性能进行了评估。多种YOLO架构（YOLOv8、YOLOv10和YOL

　　摘要
实时杂草检测是精准农业的关键技术；然而，将深度学习模型部署在低成本嵌入式平台上仍受到计算延迟和能源消耗的限制。在这项研究中，我们对基于YOLO的对象检测模型在现实边缘人工智能（edge-AI）条件下的部署性能进行了评估。多种YOLO架构（YOLOv8、YOLOv10和YOLOv11）在真实的农田图像上进行了训练，并在一个单独保留的未见测试集上进行了评估。训练好的模型被转换成中间表示格式，并使用Hailo数据流编译器进行编译，通过基于校准的量化生成适合加速器的可执行文件，然后部署在配备了Hailo-8L推理加速器的Raspberry Pi 5上。结果显示，与基于CPU的执行相比，硬件加速的推理显著降低了延迟（批量大小为1时每张图像的延迟小于5毫秒），同时在未见测试集上获得了大约0.6的F1分数。尽管量化引入了一定的精度损失，但模型在不同部署配置下的相对排序仍然保持一致。能源效率分析进一步证明了其高吞吐量每瓦特的能力，适用于接近实时的处理。总体而言，这些结果突出了检测精度、推理延迟和能源效率之间的权衡，并展示了在低成本边缘平台上部署基于YOLO的杂草检测模型的可行性。需要在对连续视频流和更多多样化数据集的额外验证来确认其在实际应用中的准备情况。

1 引言
杂草管理是全球农业生产中的一个关键限制因素，显著影响作物产量潜力和经济可行性（Oerke, 2006）。虽然传统的控制策略历来依赖于人工清除和广泛使用除草剂（Colbach等人，2020），但这些方法正日益受到农业劳动力短缺和运营成本上升的威胁（Fennimore等人，2016）。此外，由于抗除草剂杂草生物型的快速进化以及旨在减轻环境污染的严格法规（Hillocks, 2012; Heap, 2014），依赖化学控制的方法也面临挑战。为了解决这些问题，精准农业技术应运而生，以实现针对特定地点的杂草管理（SSWM），从而优化投入效率并促进可持续的种植系统（Ye等人，2008; Finger等人，2019）。
最近在数据驱动的计算机视觉方面的进展显著提高了从农田图像中检测杂草的精度，深度学习架构的性能逐渐超过了传统的图像处理技术（Qu等人，2024）。基于深度学习的对象检测模型，特别是You Only Look Once（YOLO）系列模型（从YOLOv3到YOLOv11）（Redmon等人，2016），在各种作物和田间条件下表现出强大的性能，通常在复杂环境中获得较高的平均精确度（mAP）（Deng等人，2024; Raza等人，2025）。然而，大多数现有研究是在离线或实验室条件下评估这些模型的，往往优先考虑检测精度，而忽视了实际部署的限制，如有限的计算资源和边缘设备上的实时推理速度（Tian等人，2025; Allalen和El-Gayar，2026）。因此，将这些方法转化为可靠的、适用于实际场景的农业系统仍然受到农村环境中可靠性和网络连接性挑战的制约（Kaushal等人，2023）。
最近的研究还强调了人工智能和机器人在现代农业系统中的日益融合。例如（Moshayedi等人，2025），提供了一个关于玉米种植中机器人应用的全面分析，强调了智能感知系统在实现自主田间操作中的作用。同样，最近在AI驱动的农业机器人技术方面的研究（Salem和Rabia，2025）展示了机器学习、传感和嵌入式智能的进步如何改变杂草检测等任务。尽管越来越多的研究探索了实时或基于边缘的杂草检测，但大多数研究要么关注算法精度（Salem和Rabia，2025），要么仅关注孤立的部署演示（Thilakarathne等人，2022），而没有系统地评估精度、延迟和能源效率之间的权衡（Assun??o等人，2022）。现有的以部署为导向的工作通常依赖于基于GPU的平台或仅评估有限的模型集（Zhang等人，2026），这使得难以跨架构和硬件配置推广研究成果。
在实际的农业应用中，杂草检测系统必须在计算、能源消耗和成本方面的严格限制下运行（Gong等人，2025）。许多农场规模和移动平台，如机器人除草机，依赖于功率有限的低成本硬件，使得在偏远农村环境中使用基于云的处理变得不切实际（Yu等人，2025）。边缘人工智能为实时决策提供了一条有希望的途径；然而，在边缘加速器上部署高参数模型需要针对特定硬件（如Raspberry Pi或其他嵌入式AI平台）进行仔细优化（Madiwal等人，2025; Nyakuri等人，2025）。尽管如此，在边缘部署深度学习模型时，需要认真考虑检测精度、推理延迟和能源效率之间的权衡，特别是在使用低功耗嵌入式系统时（Herterich等人，2025; Kouzinopoulos和Manna，2025）。
嵌入式GPU平台因其计算灵活性和对复杂模型的支持而被越来越多地用于基于边缘的农业应用（Fawakherji等人，2019）。虽然这些平台能够实现高性能推理，但它们的能源消耗和系统复杂性可能在某些部署场景中带来挑战，特别是在电池供电或大规模田间应用中（Czymmek等人，2023; Magalh?es等人，2023）。值得注意的是，本研究并没有直接与基于GPU的系统进行实验比较。相反，本文讨论了文献中关于部署权衡的一般考虑。在这种背景下，根据应用需求，优先考虑任务特定性能、能源效率和可访问性的替代部署策略可能对低功耗农业系统有利（Zhang等人，2023; Ngo等人，2025）。
在这项研究中，我们探讨了使用低成本边缘AI加速进行可扩展的实时杂草检测的可行性。我们对多种YOLO检测器变体进行了全面的部署级评估，包括YOLOv8、YOLOv10和YOLOv11，这些检测器在配备和不配备专用边缘推理加速器的Raspberry Pi 5平台上执行。模型在一个包含2,549张带注释图像的田间数据集上进行了训练，并在严格保留的未见测试集上进行了评估，以确保评估的稳健性。检测性能使用标准的对象检测指标和补充的实例级度量进行了量化。具体来说，我们报告了平均精确度（mAP@0.5）和COCO风格的mAP@0.5:0.95，以及类别级别的AP，以确保与现有文献的可比性。此外，还测量了每张图像的精确度、召回率、F1分数、交并比（IoU）和Dice系数，同时在基于CPU和硬件加速的执行下测量了推理延迟和吞吐量。能源意识分析进一步将吞吐量效率描述为每瓦特每秒的帧数（FPS/W）。
除了定量性能评估之外，这项工作的一个关键贡献是发布了适用于农业边缘AI的部署就绪的推理工具。本研究提供了一个公开可用的训练好的Hailo可执行格式（HEF）模型集合，专门为杂草检测量身定制，无需额外的模型转换或优化即可直接部署在基于Hailo的边缘平台上。此外，这项工作为专门的Hailo农业模型动物园（hailo-ag-model-zoo，2026）奠定了基础，旨在加速精准农业中边缘AI解决方案的可重复研究和实际应用。
通过联合检查精度保持、延迟减少和能源感知的吞吐量，这项工作为在现实约束下部署数据驱动的杂草检测系统提供了实际的见解。结果展示了仔细的模型-硬件协同设计如何实现不依赖GPU级硬件的实时操作，支持在各种农场规模上更广泛地采用精准农业技术。本文的其余部分描述了数据集和实验设置，展示了定量部署结果，并讨论了可扩展的农业感知和自主田间操作的影响。

2 材料与方法
2.1 研究概述和实验工作流程
本研究探讨了在低成本边缘计算平台上部署基于深度学习的杂草检测模型，采用了基于硬件意识和量化驱动的优化流程。整个方法论遵循一个结构化的工作流程，包括（i）数据集准备和模型开发，（ii）基于硬件的模型优化和编译，以及（iii）边缘部署和性能评估。实验工作流程的概念性概述如图1所示。
图1 所提出的边缘AI杂草检测系统的工作流程。
在第一阶段，使用真实的农田图像训练了多个不同代际和模型规模的YOLO对象检测模型。这些模型作为基线PyTorch（PT）实现，代表了标准的浮点数推理性能。
在第二阶段，训练好的模型被转换成一种中间的、与框架无关的格式（ONNX），并使用Hailo软件工具链进行处理。这一步包括量化感知的优化和特定硬件的编译，生成针对目标加速器优化的HEF（Hailo可执行格式）模型。这一步使得在受控条件下分析量化引起的性能变化成为可能。
在最后阶段，PT（基于CPU的）和HEF（基于加速器的）模型都被部署在配备了Hailo-8L推理加速器的Raspberry Pi 5上。性能从检测精度、推理延迟、吞吐量和能源效率等方面进行了评估，确保所有模型在实验条件上保持一致。
为了确保公平和可重复的比较，所有模型都使用相同的数据集划分、预处理流程和部署环境进行了评估。这种端到端的工作流程使得能够系统地分析不同YOLO架构之间的精度-效率权和量化效应。

2.2 数据集描述和准备
实验使用了一个名为Crop-Weed Dataset for Precision Agriculture的公开可用农田图像数据集进行，该数据集采集自真实的农业环境（Upadhyay等人，2025a），涵盖了在不同土壤背景、光照条件和植物生长阶段下的杂草和作物，专门为支持基于深度学习的杂草检测和机器人除草研究而开发。数据集包含2,549张带注释的图像，分为三个互不重叠的子集：训练集（2,235张图像，占88%）、验证集（220张图像，占9%）和未见测试集（94张图像，占4%）。未见测试集严格排除在模型训练和优化之外，仅用于最终的性能评估。虽然测试集的大小相对有限，但应用了自助采样重采样来减少对样本变异的敏感性，如第2.7节所述，然而，基于自助采样的不确定性估计不能替代在独立数据集或长期田间研究上的验证。
数据集包括13个对象类别，涵盖8种作物（黑豆、油菜、玉米、田间豌豆、亚麻、扁豆、大豆和甜菜）和5种杂草（猪殃殃、水蓼、豚草和马齿苋）。这些物种被选为代表美国中西部农业系统中常见的作物和杂草。数据集包含不同的对象频率和在同一图像中出现的作物-杂草实例，增加了检测的复杂性，并使得可以分析类别间的性能行为。
为了进一步描述数据集的组成，图2展示了所有类别中的实例分布。总共有35,226个带注释的对象，其中作物物种占所有实例的79.5%，而杂草物种占剩余的20.5%。这导致了明显的类别不平衡，某些作物类别（例如大豆和黑豆）的代表性远高于几种杂草类别（例如马齿苋和豚草）。
图2 数据集组成。（a）数据集组成，（b）作物-杂草组成和类别分布（占35,226个实例的百分比）。
这种不平衡是田间采集的农业数据集固有的，反映了自然场景中作物的主导地位。然而，它可能会使汇总的性能指标偏向于主导类别。为了减轻这种影响并确保公平评估，不仅使用总体指标，还通过详细的类别级评估和退化分析来分析模型性能，如第3.3节所述。这允许评估不同部署方法之间的性能差异是否在所有类别中都是一致的，包括那些代表性较低的杂草物种。
重要的是，观察到的性能退化趋势在主导类别和少数类别中都是一致的，表明报告的结果并非仅由类别频率驱动。所有图像都自动调整了方向并大小调整到了640 × 640像素的固定空间分辨率，以确保模型之间的一致性和与YOLO训练流程的兼容性。在训练过程中，应用了数据增强来提高模型对现实世界变化的鲁棒性。增强策略包括水平和垂直翻转、多方向旋转以及控制亮度、饱和度和曝光度的变化。每个训练图像每个时代产生的增强样本有多个，而验证和测试图像保持不变。图像注释以目标对象类别对应的边界框格式提供。所有模型变体都使用相同的数据集划分、预处理步骤和增强设置，以确保公平和可重复的比较。

2.3 YOLO模型架构和训练
为了评估模型架构和规模对边缘部署性能的影响，研究了多个版本的YOLO对象检测框架。具体来说，使用相同的数据集和实验设置训练了三个YOLO代际的模型，即YOLOv8、YOLOv10和YOLOv11。对于每一代模型，考虑了不同的模型规模（例如，纳米级、小型、中型、大型和特大型，如果有的话），以捕获检测准确性和计算复杂度之间的权衡。所有模型都使用基于PyTorch的Ultralytics实现进行训练。输入图像分辨率、数据集分割和增强策略应用于所有模型，输入分辨率为640 × 640像素。训练进行了100个周期，提前停止的耐心值为20个周期，并根据验证性能选择表现最好的检查点。使用了64的批量大小。优化使用随机梯度下降（SGD）优化器进行，动量为0.937，权重衰减为0.0005。初始学习率设置为0.01，并在整个训练过程中应用学习率衰减计划以确保稳定收敛。使用了3个周期的warm-up阶段，在此期间逐渐调整学习率和动量（warmup momentum = 0.8，warmup bias lr = 0.1）。启用了混合精度训练（AMP）以提高计算效率并减少训练期间的内存使用。所有模型都从预训练的权重开始，并且端到端进行训练，不冻结层。数据增强遵循Ultralytics的默认流程，包括马赛克增强以及第2.2节中描述的几何和光度变换。使用固定的随机种子（seed = 42）以提高可重复性。

2.4 模型导出到ONNX
训练完成后，所有YOLO模型都从PyTorch框架导出到开放神经网络交换（ONNX）格式，以实现硬件无关的模型优化和部署。ONNX作为一种中间表示形式，保留了模型结构和学习到的参数，同时将模型与原始训练框架解耦。导出过程使用Ultralytics YOLO导出工具完成，明确定义的opset版本为11。使用了固定的随机输入形状（1, 3, 640, 640）的BCHW格式，对应于批量大小为1和固定的空间分辨率，确保与下游的Hailo编译流程兼容。未启用动态形状导出，从而得到完全静态的计算图，适用于边缘部署。所有模型都以全精度（FP32）导出，在此阶段未应用量化。在导出过程中，使用ONNX Slim执行了自动图简化步骤，这减少了图复杂性并移除了冗余操作，同时保留了模型功能。导出的ONNX模型产生的输出张量形状为（1, 17, 8400），与YOLO检测头的配置一致。在硬件感知优化之前，对每个导出的模型进行了成功转换的验证，以确保推理兼容性和结构完整性。这些经过验证的ONNX模型随后被用作Hailo优化和编译流程的输入。

2.5 硬件感知优化和HEF编译
硬件感知优化和模型编译使用Hailo Model Zoo（hailomz）和Hailo Dataflow Compiler进行，目标是在Hailo-8L推理加速器上运行。此过程将ONNX模型转换为适合加速器的Hailo可执行文件（HEF），同时明确考虑了目标硬件的约束和能力，包括内存带宽、计算资源和定点算术。所有ONNX模型都使用一致的整体配置进行编译，输出类别的数量固定为13，输入分辨率固定为（1, 3, 640, 640），直接继承自ONNX导出。由于编译器不支持动态输入大小，因此Hailo加速器上的所有HEF推理都是在640 × 640像素的固定分辨率下使用INT8量化权重和激活值进行的。CPU上的基线PT推理使用相同分辨率的FP32精度。后训练量化（PTQ）采用了对称的每通道权重量化和不对称的每张量激活量化。未启用混合精度量化，以确保所有模型在相同的量化约束下进行评估。

校准使用整个训练数据集进行，包括2,235张图像。在校准之前，数据集被随机打乱，以确保涵盖所有类别、对象规模和环境条件。所有模型使用相同的校准数据和排序，以确保一致性和可重复性。校准过程中不需要真实注释，因为此阶段仅使用激活统计信息。在编译期间，Hailo编译器应用了一组图级优化，包括批量归一化折叠、卷积融合和常量折叠。此外，对于基于YOLO的架构，非最大值抑制（NMS）自动集成到硬件执行流程中，减少了CPU端的后处理开销。

所有的训练和编译实验都在运行Linux（Ubuntu内核6.8）的高性能工作站上进行。该系统配备了一个24核心（48线程）CPU，运行速度高达5.36 GHz和125 GB的系统内存。GPU加速由两个NVIDIA RTX 4500 Ada Generation GPU提供，每个GPU大约有24 GB的VRAM。模型训练主要在单个GPU上进行，而第二个GPU可用于并行过程。软件环境包括Python 3.13和带有CUDA支持的PyTorch 2.8.0（CUDA 12.8运行时，驱动程序版本580.126.09）。大多数模型成功地在配备了Hailo软件堆栈的本地工作站上编译。由于YOLOv11x模型的内存占用较大和编译要求较高，它使用了具有更多内存和计算能力的高性能计算（HPC）环境进行编译。HPC环境包括一个128核心CPU系统，大约有502 GB的系统内存，运行Linux和Python 3.10以及PyTorch 2.8.0。GPU资源（NVIDIA A10，配备100 GB VRAM）。这个额外的环境专门用于模型转换和编译，而所有的训练、评估和推理实验都在上面描述的主管系统下进行。由于编译过程是确定性的，不会影响模型权重或学习到的参数，因此这不会在性能比较中引入偏差。

2.6 边缘部署平台
所有的推理实验都在运行Debian GNU/Linux 12（Bookworm）和Linux内核版本6.12.47（64位，ARM架构）的Raspberry Pi 5 Model B（Rev 1.0）上进行了。该设备配备了一个 quad-core ARM Cortex-A76 CPU，最大运行频率为2.4 GHz和8 GB的RAM。在整个实验过程中，系统运行在稳定条件下。执行期间测量的CPU温度约为54.9°C，表明有效的热管理。没有观察到CPU节流（throttled=0x0），确认性能不受热或功率限制。在测量期间，CPU运行频率约为1.7 GHz，并启用了动态频率调整。通过HailoRT运行时（版本4.20.0）连接并使用了Hailo-8L AI加速器进行硬件加速推理。所有HEF模型都使用HailoRT运行时执行，而基线PT模型则在Raspberry Pi CPU上执行。系统使用sTable 5V/5A电源供电，以确保性能一致，并且没有观察到欠压警告。在推理基准测试期间，系统负载最小（平均负载< 0.2），没有显著的背景计算负载。这确保了所有性能测量（延迟、吞吐量和功耗）都是在受控和可重复的条件下获得的。

2.7 性能评估指标和实验协议
所有模型的性能都使用一致且可重复的协议进行评估，重点关注检测准确性、推理性能和能源效率。所有评估都在未见过的测试集上进行，以评估在实际操作条件下的泛化能力。为了确保模型和部署方法之间的公平比较，所有实验都使用了相同的预处理、输入分辨率（640 × 640）和评估流程。所有模型都使用一致的置信度和NMS阈值生成检测输出。

鉴于测试集的规模相对较小，应用了统计自助法来估计报告指标的稳健性。具体来说，通过有放回的抽样进行了1000次自助迭代，并为每个重采样集计算了性能指标。中值作为中心估计值报告，以减少对异常值的敏感性，而置信区间是从自助分布中得出的，以量化变化性和统计可靠性。对于每个模型，在相同条件下独立地对原始PT实现和编译后的HEF版本进行了推理。所有实验都是在没有并发系统负载的情况下进行的，以确保延迟、吞吐量和功耗测量反映了真实的模型性能。

2.7.1 检测准确性指标
检测性能主要使用平均精度（mAP）在IoU阈值0.5（mAP@0.5）下进行评估，遵循标准的对象检测评估协议。这个指标总结了不同置信度阈值下的精度-召回率权衡，并允许与现有文献进行直接比较。除了mAP之外，还计算了每张图像的指标，包括精度、召回率、F1分数、交并比（IoU）和Dice系数，以提供关于检测质量和定位一致性的补充见解。这些指标用于分析图像级别的性能变化，并评估硬件感知优化对检测行为的影响。预测框与真实标注之间的边界框匹配使用IoU阈值0.5进行。如果预测框与真实框的IoU ≥ 0.5并且之前没有被分配，则认为该预测框为真正例。未匹配的预测被视为假正例，未匹配的真实框被视为假负例。

IoU（公式1）和Dice（公式2）指标用于评估预测框和真实框之间的空间重叠。这些指标量化了检测和标注之间的空间一致性，但不代表像素级的分割性能。精度（公式3）和召回率（公式4）分别衡量了检测对象的正确性和完整性，而F1分数（公式5）提供了两种措施的平衡总结。由于mAP@0.5在实时检测系统和边缘部署研究中的广泛应用，因此被选为主要指标。

对于每个模型，分别独立地计算了原始PyTorch模型和优化后的HEF模型的准确性指标，以量化硬件感知优化和量化引入的性能变化。报告了测试图像中的中值，以减少对异常值的敏感性。

(1)IoU=Apred∩Agt/Apred∪Agt
IoU=Apred∩Agt/Apred∪Agt
(2)Dice=2×(Apred∩Agt)/(Apred+Agt)
Dice=2×(Apred∩Agt)/(Apred+Agt)
其中Apred和Agt分别代表预测框和真实框的面积。

(3)Precision=TPP+FP
Precision=TPP+FP
(4)Recall=TPP+FN
Recall=TPP+FN
其中TP、FP和FN分别表示真正例、假正例和假负例的数量。

(5)F1=2×Precision×Recall
F1=2×Precision×Recall

2.7.2 推理延迟和吞吐量
通过测量每张图像的推理延迟（公式6）和吞吐量（公式7）来评估推理性能，以帧每秒（FPS）表示。延迟测量是通过重复推理运行获得的，以捕捉在真实运行条件下的执行变异性。吞吐量是根据测量的延迟值得出的。

(6)Latency=tend?tstart
Latency=tend?tstart
(7)FPS=1000/Latency(ms)
FPS=1000/Latency(ms)
其中tstart和tend表示用于计算推理延迟的推理开始和结束时间戳（以毫秒为单位）。吞吐量以帧每秒FPS表示。

延迟是在应用层面使用高分辨率计时器（time.perf_counter）测量的，捕获了缓冲区可用性和检测输出提取之间的时间。具体来说，计时从应用程序回调接收到处理后的帧缓冲区开始，到检测结果被检索和解析结束。因此，测量的延迟包括缓冲区处理、帧转换和检测输出处理。对于HEF模型，推理和NMS在Hailo-8L加速器上执行，之前在缓冲区交付之前完成，这些操作隐含在测量的延迟中。对于PT模型，推理和NMS在软件管道内的CPU上执行。延迟测量排除了来自磁盘的图像加载和上游管道操作，以避免I/O引起的变异性。吞吐量（FPS）是直接根据公式（7）中的测量延迟值得出的。

2.7.3 功耗和能源效率
功耗测量仅针对在Raspberry Pi 5上运行Hailo-8L加速器的PT CPU基础推理和HEF基础推理进行了收集。在每个模型的稳态推理执行期间记录了多个功耗样本，以捕捉运行时的变异性。报告的功耗值对应于测量间隔内的平均功耗。能源效率（公式8）使用FPS每瓦特（FPS/W）来量化，通过将测量的推理吞吐量除以每个模型的平均功耗来计算。这个指标直接衡量了在功率约束下的检测效率，并允许比较CPU和加速器实现之间的能源性能权衡。

(8)FPS/W=FPSP
FPS/W=FPSP
其中P表示在稳态推理期间测量的平均功耗。功耗测量使用连接在电源和Raspberry Pi 5之间的内置USB功率计进行。设备提供了电压（V）、电流（A）和功率（W）的实时测量，使得能够直接观察推理期间的系统级能耗。测量是在批量大小为一的稳态条件下进行的。USB功耗计的测量分辨率和采样率可能会引入轻微波动；因此，报告的数值是10次运行后的平均值。2.7.4 实验一致性和公平比较为了确保公平和可重复的比较，所有模型都使用了相同的未见过的测试集、相同的预处理步骤和一致的推理配置。在相同的运行条件下，每种模型的延迟和功耗测量重复了10次，以捕捉执行中的变化。对于每个指标，重复实验的中位数值被报告为稳健的估计值，而变化性则通过四分位数范围（IQR）来表征。检测准确性指标是在整个测试集上基于每张图片计算的。为了评估PT和HEF模型之间性能差异的统计显著性，对每种模型的每张图片F1分数进行了Wilcoxon符号秩检验。采用了p<0.05的显著性水平。这种评估协议使得能够在边缘计算环境中系统地比较不同YOLO架构和模型规模的检测准确性、推理速度和能效。3 结果3.1 不同YOLO变体的检测准确性图3展示了在硬件感知优化之前和之后，所有评估的YOLO模型变体的自举F1分数（平均值±95%置信区间）。在所有模型变体中，原始的PT实现都在未见过的测试集上实现了持续的高的检测性能，F1分数的中位数在不同的YOLO世代和模型规模中保持稳定。转换为HEF格式并优化后，所有模型的F1分数都有系统性的下降，绝对F1分数下降了大约0.03到0.18。尽管有这种下降，模型之间的相对排名在PT和HEF配置下仍然基本保持一致。基线准确性较高的模型（例如YOLOv11m和YOLOv11n）在部署后继续表现出色，表明量化在保持架构优势方面是有效的。图3展示了不同YOLO架构下PT和HEF实现的自举F1分数（平均值±95%置信区间），突出了量化和硬件感知优化对检测性能的影响。置信区间进一步表明，在硬件感知优化后，性能变异性略有增加，特别是对于较小模型，而对于中型和大型架构则相对稳定。这些结果强调了模型复杂性和鲁棒性之间的明显权衡，其中较大模型在边缘部署约束下更好地保持了检测性能。为了补充F1分数分析，图4展示了PT和HEF模型在IoU阈值0.5处的自举平均精度（mAP@0.5）及其对应的95%置信区间。与F1分数的结果一致，所有模型在硬件感知优化后都表现出检测性能的下降。性能下降的幅度在不同架构间有所不同，绝对mAP@0.5的下降幅度大约在0.05到0.21之间。尽管有这种下降，模型层次结构在PT和HEF配置之间仍然保持一致，证实了量化后架构优势的保留。置信区间进一步表明在测试样本中的变化性适中，特别是对于低容量架构，HEF模型的分散性略有增加。这些结果加强了F1分数分析的观察结果，并表明虽然硬件感知优化引入了可测量的准确性损失，但它并没有根本改变模型排名或相对性能趋势。3.2 硬件感知优化对检测性能的影响图5展示了在多个检测指标（包括F1分数、mAP@0.5和mAP@0.5:0.95）上，HEF和PT推理之间的性能差异分布。指标差异是通过模型性能的自举估计（Δ = HEF ? PT）计算得出的，每个分布都反映了重新采样测试集内的变化性。这种表述同时捕捉了性能差异的集中趋势和统计不确定性。图5显示了所有YOLO变体和评估指标中，分布一致性地表现出负的中位数偏移，表明基于HEF的推理相对于PT引入了适度的检测性能下降。性能下降的幅度在不同模型间有所不同，ΔF1通常在大约?0.05到?0.18之间，而ΔmAP@0.5和ΔmAP@0.5:0.95的趋势相似，绝对下降幅度略小。模型和指标之间相对较窄的四分位数范围表明在硬件感知优化下行为稳定且一致，没有极端下降或高方差异常值的证据。这些结果表明观察到的性能损失是系统的和可预测的，而不是由孤立故障案例驱动的。与早期的分析一致，轻量级模型（例如YOLOv8n和YOLOv10n）表现出更大的性能下降，而高容量模型（例如YOLOv10x和YOLOv11m）表现出更大的鲁棒性，其分布更接近零。重要的是要注意，这项分析反映了重新采样测试集的总体性能行为，并没有明确捕捉类别间的变化性。因此，即使总体分布看起来稳定，罕见或视觉上复杂的类别也可能受到不同影响。这一限制通过在第3.3节中提出的类别级别分析得到了解决。3.3.3 类别级别的性能分析为了研究驱动这种行为的潜在因素，我们分析了类别级别性能下降（ΔAP@0.5）与数据集特征之间的关系，如图6所示。没有观察到降解与对象数量之间的有意义关系（r = 0.08, p = 0.801），表明仅类别频率不能解释观察到的性能下降。图6显示出降解与对象数量（r = 0.08, p = 0.801）之间没有相关性，而与对象大小（r = 0.49, p = 0.086）之间存在中等正相关趋势。虽然这种关系没有达到传统的统计显著性，但它表明性能下降受到空间特征的影响，而不是实例频率的影响。这种行为与量化已知的效应一致，即数值精度的降低不成比例地影响细粒度空间特征和边界定位。为了进一步了解硬件感知优化对检测性能的影响，通过比较PT和HEF模型在所有杂草和作物类别中的AP@0.5分数进行了类别级别的分析。图7展示了代表性模型的每个类别的性能变化（ΔAP@0.5 = HEF ? PT）。总体而言，结果表明HEF推理引入的性能下降在类别间并不均匀。虽然一些类别的变化很小或略有改善，但大多数类别显示出中等程度的检测准确性下降。值得注意的是，如油菜和玉米这样的大型且视觉上明显的类别表现出相对稳定的性能，有些模型甚至在编译后还有小幅提升。相比之下，较小的或视觉上更复杂的类别，包括黑豆、koschia和马草，表现出更明显的性能下降，某些情况下ΔAP的下降超过了0.20。此外，图8展示了PT和HEF模型的平均类别级别AP@0.5性能。虽然HEF推理一致地产生了较低的均值AP值，但类别间的相对性能趋势保持稳定，表明优化流程尽管引入了可测量的准确性权衡，但仍保持了整体的检测趋势。这些发现表明，硬件感知优化的影响依赖于类别，并受到对象特征的影响，特别是空间规模和特征复杂性。这突显了在某些类别具有更高操作重要性的应用中部署模型时评估每个类别性能的重要性。图8展示了所有评估类别中PT和HEF推理的平均类别级别检测性能（AP@0.5）。误差条代表通过自举获得的95%置信区间。性能差异的统计显著性用（*p< 0.05, •p< 0.1）表示。3.4 推理延迟和吞吐量为了量化硬件感知编译和基于加速器的执行的影响，图9和图10报告了每个模型变体的中位数推理加速比（PT/HEF）。HEF执行在所有模型中都实现了显著的加速，轻量级架构的加速比大约为116倍，而像YOLOv11x这样的大型模型则超过了5000倍。中型模型的加速比在大约1500倍到3100倍之间，表明基于加速器的推理随着模型复杂性的增加而有利地扩展。图9展示了PT和HEF模型之间的每张图片推理延迟比较，以及Hailo加速器上的推理延迟分布。图10展示了每个YOLO模型的中位数推理加速比（PT/HEF），比较了在Raspberry Pi 5上基于CPU的PyTorch推理与在Hailo-8L上基于加速器的HEF执行。需要注意的是，这些加速比是相对于在Raspberry Pi 5上没有硬件加速的情况下基于CPU的PyTorch推理计算的。因此，报告的数值反映了真实的边缘部署基线，而不是完全优化的CPU或GPU实现。因此，加速比的幅度应该结合资源受限的嵌入式系统的背景来解释，其中通常使用仅基于CPU的推理，但没有针对高吞吐量深度学习工作负载进行优化。尽管有这个考虑，图9和图10中的结果表明，将YOLO模型编译成HEF格式并在Hailo-8L加速器上部署，将Raspberry Pi级别的硬件从延迟受限的平台转变为高吞吐量的实时推理系统。这对于在实际情况的农业条件下实现基于深度学习的杂草检测的实用部署至关重要。3.5 功耗和能效图11展示了在Hailo-8L加速器上进行HEF推理时每个模型的功耗分布。所有模型的功耗保持在相对狭窄的范围内，由于计算需求较高，大型架构的功耗略有增加。图11展示了每个模型的相对功耗（HEF/PT），比较了在Hailo-8L上基于加速器的推理与在Raspberry Pi 5上基于CPU的PyTorch执行。为了进行全面的跨后端比较，还测量了在Raspberry Pi 5上基于CPU的PyTorch推理的功耗。图11展示了所有评估模型之间的相对功耗比率（HEF/PT）。值得注意的是，一些模型（例如中型变体）通过硬件加速提高了效率，而其他模型由于加速器的更高利用率而略微增加了功耗。图12展示了综合考虑延迟和功耗时的能效，量化为每瓦特每秒的帧数（FPS/W）。小型和中型模型实现了最高的FPS/W值，强调了它们适合实时、功耗受限的边缘部署。更大的模型虽然提供了竞争性的检测准确性，但由于计算需求的增加而表现出较低的效率。图12推理效率表示为每瓦特每秒的帧数（FPS/W）。总体而言，这些结果表明，基于Hailo-8L加速器的硬件感知编译和部署在推理速度和功耗之间提供了良好的平衡，使得在嵌入式平台上实现高效的实时操作成为可能。3.6 准确性-延迟和准确性-效率权衡图13展示了HEF模型的检测准确性和推理延迟之间的权衡分析，通过F1分数的95%置信区间和延迟测量的变异性来纳入不确定性。每个点代表聚合的模型级别性能，垂直误差条表示F1分数的置信区间，水平误差条反映了重复运行中的延迟分散。图13展示了Hailo-8L加速器上HEF模型的准确性-延迟权衡。每个点代表平均F1分数及其95%的自举置信区间（垂直条）和运行中的中位延迟（水平条）。一个明显的帕累托前沿显现出来，突出了在准确性和速度之间实现最佳平衡的模型。特别是YOLOv11m和YOLOv10x占据了有利的位置，结合了相对较高的检测性能（F1分别约为0.63和0.60）和中等延迟（约2.5–2.7毫秒）。相比之下，较大的模型（如YOLOv11x）实现了最低的延迟（约2.0毫秒），但代价是准确性降低，而包括YOLOv8n和YOLOv10n在内的较小模型则表现出较低的准确性和较高的延迟变异性。重要的是，不确定性界限的包含揭示了一些模型之间的部分重叠，表明表面的性能差异可能并不总是具有统计意义。尽管如此，中型架构始终提供了最有利的准确性-延迟权衡，使它们成为在实际操作约束下实时边缘部署的强大候选者。为了评估所提出的部署流程的效率，我们分析了PT和HEF模型的推理延迟和功耗之间的权衡，如图14所示。延迟是作为单批次大小下的每张图片推理时间（毫秒）来测量的，而功耗代表在使用内联USB功耗计进行推理时记录的平均系统级别消耗（瓦特）。所有测量都反映了目标边缘设备上的实际部署条件。图14展示了Raspberry Pi 5上PT（CPU）和HEF（Hailo）模型的功耗与延迟权衡。每个点代表一个模型变体。延迟以对数尺度显示。HEF模型实现了显著较低的推理延迟，并且功耗相当，表明它们适合实时边缘部署。如图14所示，与PT模型相比，HEF模型一致地实现了显著较低的推理延迟，在评估的部署配置下将延迟减少了几个数量级（从约103–104毫秒减少到约101毫秒）。尽管速度有了显著提升，但两种执行模式的功耗仍处于相似的范围内，通常在大约5.4瓦到7.2瓦之间。这种行为表明，硬件加速带来的性能提升并没有伴随着功耗的成比例增加。因此，与在CPU上使用传统模型（PT）相比，基于硬件加速的HEF模型在单位能量下的性能效率（即每单位能量所能完成的推理次数）显著更高。此外，模型之间的分布显示了PT模型和HEF模型运行区域之间的明显区分：HEF模型占据了低延迟范围，同时保持了相似的功耗水平。这突显了基于Hailo的模型在实时边缘应用中的适用性，因为在这些应用中，延迟限制是关键因素，而功耗预算却受到限制。总体而言，这种权衡分析表明，将模型编译为HEF格式可以在资源有限的平台上实现实用的实时推理，从而弥合了高精度深度学习模型与可部署的边缘AI系统之间的差距。

3.7 YOLO变体的对比分析及模型选择洞察

本节综合评估了在不同检测精度、推理延迟、加速比、功耗和能效方面的结果，全面比较了在Raspberry Pi 5上使用Hailo-8L加速器进行边缘部署时各YOLO模型变体的表现。

3.7.1 检测精度与硬件感知优化

在所有评估的模型中，采用硬件感知优化并将其编译为HEF格式后，检测精度相对于使用PyTorch执行略有下降，但降幅适中。F1分数的中位数下降范围通常较窄，模型之间的相对排名在转换后基本保持不变。特别是中型和大型架构，如YOLOv10x和YOLOv11m，在HEF推理下的F1分数中位数保持在较高水平，表明它们对量化及校准效果的鲁棒性更强。每张图像的F1分数和Dice差异分析进一步确认，没有任何模型出现性能灾难性的下降。对定位敏感的指标（IoU和Dice）虽然出现了小幅负向变化，但四分位数范围较窄，说明编译后的边界框对齐稳定性良好。这些结果表明，Hailo优化流程保持了模型的整体检测性能和排名，但在部署时引入了可测量的精度牺牲，尤其是在需要高定位精度的应用中需要特别考虑。

3.7.2 推理延迟和加速特性

推理延迟结果显示，基于CPU的执行和基于加速器的执行之间存在明显差异。在Raspberry Pi 5上使用PyTorch进行推理时，小型模型的延迟中位数从几百毫秒到大型模型的几秒不等。在评估的软件栈和执行设置下，这样的延迟水平限制了仅使用CPU进行实时农业应用的可行性。相比之下，在Hailo-8L上运行的HEF模型所有变体的延迟中位数均低于5毫秒。轻量级模型如YOLOv8n和YOLOv10n的延迟接近该范围的上限，而大型模型包括YOLOv10x和YOLOv11x则完全符合实时要求。加速比显著提升，轻量级模型的加速比约为100倍，而最大型架构的加速比超过5000倍，其中YOLOv11x的加速比最高。这些结果突显了基于加速器的推理在减少延迟方面的有效性，尤其是在模型复杂性增加时。需要注意的是，延迟表现可能会因软件优化策略和不同的推理框架而有所不同；然而，观察到的趋势为典型的边缘部署场景提供了实用的基准。

3.7.3 功耗与能效权衡

在HEF推理过程中收集的功耗数据显示，不同模型的功耗相对稳定，通常处于一个狭窄的操作范围内。虽然大型模型的平均功耗略高，但与吞吐量的提升相比，增幅较小。能效分析（FPS/W）显示YOLOv11x和YOLOv10x的能效值最高，分别超过90 FPS/W和约70 FPS/W。尽管计算复杂性较低，小型模型的能效也有所下降。这种行为可归因于加速器的利用率差异：大型模型生成更高的计算工作负载，并通过增加并行操作使Hailo加速器能够更充分地利用其处理资源，从而在保持高吞吐量的同时降低功耗。相比之下，小型模型未能充分利用可用硬件资源，固定的开销（如内存访问、调度和数据传输）占用了较多的执行时间，从而降低了整体效率。这些发现表明，专用加速器上的能效很大程度上受工作负载强度和硬件利用率的影响，而不仅仅是模型大小本身，这突显了匹配模型复杂性与加速器能力的重要性。这一趋势与之前在边缘AI加速器中的观察结果一致，即当计算管线完全饱和时能达到最佳效率。

3.7.4 精度-延迟和精度-能效权衡

权衡分析进一步明确了在部署约束下模型的最佳选择。精度-延迟帕累托前沿显示YOLOv10x和YOLOv11m是平衡的解决方案，它们在保持高检测精度的同时具有较低的推理延迟。虽然YOLOv11x效率极高且快速，但其F1分数中位数略低，因此在优先考虑吞吐量和能效而非峰值精度的情况下是一个有吸引力的选择。在涉及精确控制的应用中，低延迟推理对于确保检测与控制的准确空间对齐至关重要。表1提供了在Hailo-8L加速器上进行HEF部署时所有评估的YOLO模型变体的综合性能概述，包括检测精度、推理延迟、加速比、功耗和能效。

表1显示了在Hailo-8L加速器上进行硬件感知优化和编译前后YOLO模型变体的性能。性能变异性通过自助法95%置信区间（下限和上限）报告。加速比是基于YOLOv11x在Hailo-8L上的推理中位数计算的。功耗和能效指标仅针对基于HEF的推理情况报告。加粗的值表示每列中表现最好的结果或对应指标最有利的情况。

从部署的角度来看，这些权衡可以直接关联到实时操作需求。例如，在以典型前进速度运行的机器人杂草控制系统中，推理延迟必须低于相机帧间隔（例如，30–100毫秒，对应10–30 FPS），以确保及时控制。在这种约束下，所有HEF模型都能满足实时要求，而基于CPU的执行则会引入显著延迟。同样，在高吞吐量场景（如连续田地扫描）中，具有较高FPS/W的模型（如YOLOv11x和YOLOv10x）提供了更好的能效，延长了电池限量条件下的运行时间。对于自主平台而言，这种优势尤其重要，因为能源可用性直接影响任务持续时间。总体而言，YOLOv10x在两个权衡维度上都占据了有利的位置，结合了高精度、低延迟和高能效。这些结果表明，模型选择应受应用程序特定约束的指导，需要在精度要求和实时响应性以及能源限制之间找到平衡。

3.7.5 统计显著性分析

为了评估PT模型和HEF模型之间观察到的性能差异是否具有统计学意义，对每个模型的每张图像F1分数进行了Wilcoxon符号等级检验。结果显示，大多数模型表现出统计学上的显著差异（p< 0.05），表明量化后的性能下降是持续的，而非随机变化所致。然而，部分模型没有显示出统计学上的显著差异（p ≥ 0.05），表明量化的影响因模型而异。图15展示了PT模型和HEF模型之间的性能变化（ΔF1）。大多数架构的ΔF1值为负，表明量化后检测性能普遍下降。某些模型（如YOLOv8n和YOLOv11s）的下降更为明显，而其他模型的变化较小或不显著。多个模型存在统计学上的显著差异（p< 0.05），进一步支持了这些性能变化的系统性。这一结果强调了某些架构对量化效应的敏感性。

3.7.6 实用模型选择指南

表2总结了基于汇总的检测精度、推理延迟、加速比和能效结果得出的实用模型选择指南。没有一种单一的架构在所有指标上都占据优势，不同的YOLO变体根据部署优先级（如检测精度、实时响应性和功耗限制）处于有利位置。这些发现表明，没有一种模型能在所有指标上都占据绝对优势；相反，最佳选择取决于应用特定的优先级，如精度、响应性和能源限制。

3.8 关键发现总结

图16展示了在硬件感知优化前后代表性YOLO模型的定性检测示例，说明了不同架构下边界框定位和类别预测的保持情况。虽然这些示例展示了轻量级（YOLOv8n）、中型（YOLOv10b、YOLOv11m）和大型（YOLOv10x、YOLOv11x）模型之间边界框定位和类别预测的一致性，但进一步检查揭示了一些仅凭成功案例无法捕捉到的重要故障模式。为了解决这个问题，我们通过预测与真实注释之间的定量差异和视觉检查明确分析了代表性的故障案例。例如，第二和第三张样本图像中存在严重的过度检测现象，预测的边界框数量远远超过真实值。这些错误在植被茂密或土壤有纹理的混乱场景中尤为明显，模型倾向于将背景图案误判为目标对象，导致大量误检。相反，在第一张样本图像中观察到了欠检测故障，即多个真实对象被遗漏。这些情况通常对应于小型或部分遮挡的杂草，表明在硬件感知量化后细粒度特征表示能力下降。这一观察结果与之前的定量结果一致，即较小对象的性能下降更为明显。此外，包括第四张样本图像在内的具有挑战性的案例展示了误检和漏检的结合，凸显了在复杂田间条件下保持性能稳定性的难度。这些图像通常包含变化的光照、遮挡和不规则的植物结构，进一步放大了量化引起的错误。总体而言，这些故障案例表明，虽然硬件感知优化保持了整体检测能力，但它增加了对背景杂乱的敏感性，并降低了对小对象或模糊对象的鲁棒性。这强调了在评估边缘部署的检测模型时，需要同时考虑总体指标和故障模式分析。

总之，结果表明，在Hailo-8L加速器上进行硬件感知优化和部署可以实现在低成本边缘平台上进行实时、高能效的杂草检测。尽管优化后检测精度有所下降，但推理速度和能效的提升显著提高了实际部署的可行性。特别是中型YOLO模型，在精度、延迟和功耗之间提供了有利的平衡，使其成为现实世界精准农业应用的理想候选者。除了性能基准测试外，本研究中所有优化的HEF模型都作为可直接部署的成果发布，便于在基于Hailo的边缘平台上进行复制和立即采用。

4.1 使用YOLO模型进行定向杂草检测

深度学习（DL）已成为精准农业中自动化杂草检测的主流方法，大幅超越了传统的图像处理和经典机器学习方法。多项系统评价报告了过去十年基于DL的杂草检测研究的显著增长，强调卷积神经网络（CNN）和对象检测框架是处理光照多变、背景杂乱以及作物和杂草视觉相似性复杂场景的最有效工具。在DL架构中，单阶段对象检测器，特别是YOLO系列，由于其检测精度和推理速度之间的良好权衡而得到了广泛应用。与两阶段检测器（如Faster R-CNN）相比，YOLO模型在单次前向传播中完成了边界框回归和分类，使其更适合实时农业应用。大规模的基准测试研究表明，现代YOLO版本在保持与实时部署兼容的推理速度的同时，一致实现了高检测性能。最近的研究还通过对YOLO框架的架构改进，进一步提升了杂草检测的准确性。例如，评估YOLOv8在多类别杂草数据集上的研究显示，与早期YOLO版本相比，平均精度（mAP）和泛化能力都有所提高，这归因于无锚点检测头和优化的特征提取策略。同样，高级变体如HDMS-YOLO引入了多尺度特征处理机制，以提高对视觉上具有挑战性的杂草类别的检测能力，在CropAndWeed基准测试中与基线YOLO11模型相比，实现了更好的定位和召回率（Hua等人，2025年）。本研究使用的Weed Crop数据集为这一研究领域做出了重要贡献，它提供了大规模、高分辨率的田间图像，并对这些图像进行了广泛的注释，涵盖了多种作物和杂草种类。该数据集的引入旨在解决早期收集数据的局限性，后者缺乏环境多样性和足够的类别多样性，而基线评估也证明了基于YOLO的检测器在作物和杂草识别任务中的有效性（Upadhyay等人，2025a）。然而，尽管这些研究主要关注检测准确性指标，如mAP、精确度和召回率，但它们并没有明确评估部署关键因素，包括推理延迟、功耗或能效。正如最近的一些综述所强调的，算法性能与可部署性之间的差距仍然是将基于深度学习的杂草检测从实验基准转变为实际农业系统的主要瓶颈（Rai等人，2023年）。本研究直接解决了这一限制，通过将基于YOLO的杂草检测扩展到不仅仅是准确性评估，并在真实的边缘AI部署条件下系统地分析了推理性能、延迟和能效。

除了确认基于YOLO的模型在杂草检测中的有效性外，本研究的结果还提供了关于不同架构如何响应硬件感知优化和量化的见解。特别是，像YOLOv10x和YOLOv11m这样的更大模型在HEF转换中表现出更强的鲁棒性，与轻量级变体相比，F1分数和mAP的相对下降较小。这种行为可以归因于模型容量和特征表示的差异。较大的架构通常保持更高的通道深度和更丰富的特征层次结构，这在学习到的表示中引入了冗余。这种冗余使得网络能够更好地容忍编译过程中引入的量化噪声，同时保持分类信心和定位准确性。相比之下，轻量级模型的表示能力较低，使它们对精度损失和校准效应更加敏感。此外，较新的YOLO变体在架构上的改进，包括增强的特征聚合和检测头，可能有助于在数值精度降低的情况下提高稳定性。这些发现表明，对边缘部署的鲁棒性不仅取决于模型的全精度，还取决于架构在量化执行下维持性能的有效性。总体而言，这些观察结果强调了在边缘AI应用中考虑量化鲁棒性的重要性，特别是在精度农业场景中，精度和实时性能都至关重要。

4.2 硬件感知优化和量化的影响

硬件感知优化和量化是使深度学习模型能够在边缘和嵌入式平台上高效运行的关键步骤。现代对象检测网络通常使用32位浮点精度进行训练，这提供了高数值精度，但会带来显著的内存和计算需求，这些需求不适合低功耗设备（Jacob等人，2018年）。量化通过将数值精度降低到8位整数表示来克服这一限制，从而减少内存占用并加速推理，同时引入可控的近似误差。实际上，训练后的量化和编译器级优化需要代表性的校准数据来估计激活分布和尺度参数。这个过程对于转换后的准确性维护至关重要，特别是对于对象检测任务，其中分类信心和边界框定位都必须保持稳定（Krishnamoorthi，2018年）。在Hailo编译管道中ONNX到HEF转换期间提供校准图像的需求反映了这一既定要求，并与硬件感知推理优化的标准实践保持一致。我们的结果显示，硬件感知优化和量化引入了适度的但系统的检测准确性降低，这体现在HEF编译后的中位F1分数、IoU和Dice指标的小幅负偏移上。然而，这些偏移的幅度在模型之间保持有限且相对稳定，表明量化的影响是可控的而不是破坏性的。在边缘AI研究中也有类似的观察结果，量化后的对象检测模型在保持大部分准确性的同时实现了显著的执行速度和效率提升（Banner等人，2019年；Nagel等人，2021年）。重要的是，每张图像的Delta分析显示编译后的准确性指标的四分位区间很窄，表明性能下降在样本之间是一致的，并且似乎不会不成比例地影响特定图像或类别。

这种稳定性对于农业应用尤为重要，因为在农业环境中，环境的多样性已经可能对模型的鲁棒性构成挑战。 precision agriculture领域之前的工作强调，在不同的田间条件下保持稳定性能往往比峰值准确性的边际改进更为重要（Rai等人，2023年）。与仅关注模型压缩或理论效率提升的研究相比，这项工作提供了关于硬件感知优化如何影响实际部署条件下检测行为的实证证据（Salem等人，2025年）。总体而言，观察到的权衡是在推理延迟和能效方面有数量级的改进，而准确性略有下降，这与更广泛的边缘AI发现一致，并突显了量化作为嵌入式系统上实现实时推理的实际推动者（Jacob等人，2018年；Nagel等人，2021年）。总体而言，这些发现表明，硬件感知优化和量化不仅仅是工程上的便利，它们是基于深度学习的杂草检测系统在田间部署的基础组成部分。当与适当的校准和编译器支持结合使用时，这些技术可以在保持适合精度农业应用的检测可靠性的同时实现显著的性能提升。

4.3 与基于GPU的边缘平台的比较

具有实时推理要求的深度学习模型通常在基于GPU的边缘平台上进行基准测试，例如NVIDIA Jetson系列，这些平台在农业和机器人技术的计算机视觉应用中得到了广泛采用。这些平台通过集成的GPU和优化的软件堆栈（如TensorRT）提供加速的并行处理能力，使其成为研究和应用系统中边缘部署的常见选择（Assun??o等人，2022年）。先前的研究表明，当应用适当的优化技术时，基于GPU的边缘平台可以实现实时性能，尽管这样的优化可能会在计算效率和检测准确性之间引入权衡。这些权衡在农业视觉系统中尤为重要，因为安全和检测可靠性至关重要。然而，需要注意的是，本研究并未包括与基于GPU的平台的直接实验比较。相反，以下讨论将观察结果置于边缘AI部署的更广泛背景下。

尽管基于GPU的解决方案（如Jetson）为复杂网络提供了强大的并行计算能力，但它们通常比专门构建的AI加速器具有更高的功耗和热输出。这对于需要持续低功耗操作的电池供电和田间部署系统来说具有重要意义。相比之下，专门的AI加速器（如本研究中使用的Hailo-8L）是专门为能效高的深度学习推理设计的。本研究中呈现的结果，特别是低推理延迟和高FPS/W，证明了这种架构在评估条件下的效率，尽管与GPU平台的直接性能比较超出了本研究的范围。对农业中对象检测的更广泛回顾强调了部署环境的多样性以及平台选择的重要性（Khan等人，2025b）。有人认为，precision agriculture应用必须平衡准确性、计算效率和部署成本，并且轻量级模型和高效的硬件后端对于在作物监测、杂草管理和自主操作中的实际采用至关重要（Khan等人，2025b）。这些研究表明，实际的部署决策必须平衡准确性、计算效率和能源限制。在这个背景下，虽然基于GPU的平台提供了灵活性和强大的性能，但专用加速器可能在长期、低功耗的农业部署中具有优势。

尽管本研究侧重于使用Hailo-8L加速器的部署，但提出的工作流程在很大程度上是硬件无关的，可以扩展到其他边缘AI平台。整个流程包括在PyTorch中进行模型训练，导出到中间表示（例如ONNX），以及针对特定硬件的编译，这是现代边缘加速器共有的部署范式。例如，类似的工作流程可以应用于使用TensorFlow Lite转换和量化感知编译的Edge TPU系统，或者使用TensorRT优化的高功耗GPU平台（如NVIDIA Jetson设备）。这样的跨平台部署策略在先前的嵌入式深度学习和边缘AI系统研究中得到了广泛探索（Leon Veas等人，2021年）。尽管不同平台之间的具体工具链和支持的操作可能有所不同，但模型准确性、延迟和能效之间的观察到的权衡预计将保持一致。然而，平台特定的因素，如量化方案（例如整数精度）、内存限制和操作符支持可能会影响性能下降的程度。因此，虽然具体的数值结果可能会因硬件生态系统而异，但本研究的关键发现，特别是硬件感知优化对小对象检测的影响以及模型规模选择的重要性，广泛适用于边缘AI部署场景。特别是，本工作中观察到的小对象检测对量化的敏感性很可能会由于数值精度和特征表示的限制而在各种边缘加速器中得到通用。

总体而言，这些观察结果强调了在选择用于边缘AI应用的模型时应考虑量化鲁棒性作为一个关键因素，尤其是在精度和实时性能都至关重要的precision agriculture场景中。

4.4 实用贡献：部署就绪的HEF模型和Hailo Ag Model Zoo

在precision agriculture研究中，一个关键挑战是文献中报道的高精度杂草检测方法与其在低功耗边缘硬件上的实际可部署性之间的差距。虽然许多诊断研究专注于在离线或高性能计算环境中提高检测准确性（例如mAP分数），但它们很少提供优化模型或在实际硬件上评估性能。先前的研究表明，量化和模型压缩可以显著提高资源有限平台上的杂草检测模型的推理速度和能效（Kouzinopoulos和Manna，2025年）。然而，这些研究往往仍处于概念验证阶段，没有为社区提供现成的优化模型。我们的工作直接解决了这一差距，通过生成并发布了一组在HEF中优化的模型，这些模型可以在Hailo-8L加速器上部署。这套部署就绪的模型包括YOLO家族中的各种模型（例如YOLOv8、YOLOv10、YOLOv11），并配备了校准的量化和编译器支持，以确保在边缘推理场景中的最佳性能。提供编译后的HEF工件至关重要，因为许多从业者和研究人员缺乏自己进行硬件感知优化的专门工具链或计算资源。重要的是，将编译后的HEF模型作为“Hailo Ag Model Zoo”GitHub仓库的一部分公开发布将带来几个实际好处（hailo-ag-model-zoo，2026年）。首先，它降低了在真实农业平台（例如机器人除草机、自主拖拉机和电池供电的地面系统）上部署先进杂草检测模型的障碍，消除了个别用户需要进行昂贵的模型转换和优化过程的需求。其次，它促进了可重复性和基准测试：研究人员可以直接将他们的硬件和软件配置与一组通用的优化模型进行比较，条件一致。为了确保可用性和可重复性，Hailo Ag Model Zoo仓库被构建为提供部署和评估所需的所有组件。具体来说，该仓库包括：（i）所有评估的YOLO变体的预编译HEF模型，（ii）相应的PyTorch检查点和配置文件，（iii）针对Raspberry Pi 5和Hailo-8L部署的模型特定推理脚本，以及（iv）详细介绍ONNX到HEF转换流程和校准程序的文档。此外，仓库还提供了示例校准数据集和生成代表性校准输入的说明，使用户能够复制量化过程或将其适应新的数据集。通过详细的设置指南进一步支持可重复性，包括环境规范、依赖项要求和推理及基准测试的分步执行命令。所有模型和脚本都是版本控制的，并具有与本研究中报告的实验相对应清晰的版本标签。该仓库以开源许可证发布，以便研究社区重新使用、比较和扩展。这种结构化的发布确保了所提出的模型不仅在实验上得到了验证，而且可以直接部署，降低了研究原型与实际农业应用之间的障碍。

这一贡献与precision agriculture研究中的更广泛趋势一致，其中社区数据集和基准模型（例如CropAndWeed）在推动该领域方面发挥了重要作用（Upadhyay等人，2025b）。提供一个行业级别的模型仓库扩展了这一范式，包括了部署工件，促进了学术和商业使用的更快迭代和采纳。它还补充了最近关于轻量级和优化杂草检测模型的工作，例如PD-YOLO，提供了一种无需每个用户重复优化和量化步骤的边缘执行方法（Li等人，2025年）。

4.5 局限性和未来方向

尽管边缘推理性能强大，但仍存在几个限制，这些限制反映了基于深度学习的杂草检测中的更广泛挑战。首先，模型在多样化环境条件下的泛化仍然是一个重大挑战。照明、土壤背景和植物形态的差异可能会导致模型在训练数据范围之外测试时性能下降，这一点在最近关于深度学习杂草检测研究的综合评论中得到了强调（Rai等人，2023年；Saini和Nagesh，2025年）。此外，大多数可用的数据集（包括本研究中使用的数据集）都是在相对受限的条件下收集的，并且主要关注有限的作物-杂草组合。这限制了训练模型的应用范围，使其难以适应更广泛的农业环境。要克服这些限制，需要更大、更多样化的数据集，以及改进的策略，如领域适应和半监督学习（Hu等人，2024年；Saleh等人，2025年）。

其次，尽管像Hailo-8L这样的边缘加速器提供了出色的延迟和能效，但计算资源的限制仍然限制了可部署架构的复杂度。特别是，在进行了硬件感知优化后观察到的性能下降表明，数值精度的降低对小物体或低对比度物体的影响尤为显著。未来的工作应研究先进的模型压缩和优化技术，如剪枝、知识蒸馏和量化感知训练，以提高鲁棒性同时保持边缘计算效率（Khater等人，2025年）。

第三，虽然本研究的评估是在静态图像上进行的，但许多现实世界的农业应用依赖于从移动平台（如无人机或地面机器人）捕获的连续视频流。在这种情况下，会出现额外的挑战，包括运动模糊、滚动快门效应和可变的帧率，这些都可能降低检测的准确性和时间稳定性。此外，户外田间环境的照明变化很大，包括阴影、直射阳光和天气引起的变化，这些也可能进一步影响模型的鲁棒性。从硬件角度来看，嵌入式平台上的持续实时运行还可能引入热限制和功耗限制，可能会导致随着时间的推移出现热节流和推理吞吐量减少。尽管本研究没有明确评估这些因素，但测量到的延迟和能效表明所提出的流程适合在受控条件下进行实时部署。未来的工作将把评估扩展到连续视频流和动态田间场景，以评估时间一致性和长期系统稳定性。

最后，需要承认几个特定于研究的局限性。评估是在一个相对较小的测试集上进行的，这可能会限制结果的统计泛化能力，尽管通过基于自举的置信区间估计来解决这个问题。此外，实验是在单一数据集上进行的，没有进行跨数据集验证，这可能会影响关于泛化能力的结论。功率测量是在系统层面使用外部仪表获得的，并且没有与替代硬件平台（例如基于GPU的边缘设备）进行直接比较。因此，跨平台能效比较应谨慎解读。

这些局限性指出了未来工作的重要方向，包括更大规模的评估、多数据集验证、标准化的跨平台基准测试，以及将感知模型与自主决策和执行系统集成，以支持现实世界的农业应用。

**5 结论**

本研究在低成本边缘计算平台上对基于深度学习的杂草检测模型进行了以部署为导向的评估，将模型开发、硬件感知优化和设备上的推理集成到一个统一的实验框架中。通过在相同的数据和部署条件下对多个YOLO版本和模型规模进行基准测试，结果表明，在资源受限的边缘硬件上实现接近实时的杂草检测是可行的，无需使用基于GPU的系统。研究结果表明，硬件感知的编译和量化能够显著降低推理延迟并提高能效，同时在未见过的测试集上保持约0.6的F1分数。尽管在优化后观察到准确性略有下降，但这种权衡对于实际部署来说是可行的，特别是在电力和成本约束严格的移动和分布式农业平台中。中等规模的YOLO模型成为强有力的候选者，它们在准确性、速度和效率之间提供了平衡的折中方案。

除了性能基准测试之外，这项工作还发布了可用于部署的、经过训练并经过硬件编译的杂草检测模型。此外，本研究为Hailo农业模型动物园奠定了基础，以支持可复现的研究并加速边缘AI技术在精准农业中的应用。总体而言，这些结果强调了在模型开发早期考虑部署限制的重要性，并表明特定任务的推理加速器在实现节能农业传感系统中可以发挥关键作用。然而，为了全面评估实际部署中的泛化和可扩展性，还需要在不同的作物、环境条件和操作规模上进行进一步的验证。未来的工作将把这个框架扩展到其他作物、传感模式和闭环机器人系统，进一步推进边缘智能在可持续农业实践中的集成。

热点排行