基于多智能体强化学习的行栽作物协同检测算法比较研究：PPO在精准农业中的优势分析

《Smart Agricultural Technology》：Comparing and analysing the effectiveness of Multi-Agent Reinforcement Learning (MARL) algorithms for simplistic coordination in row cultivation applications

【字体：大中小】 时间：2026年01月31日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本研究针对精准农业中缺乏简单、可复现的多智能体强化学习(MARL)基准测试环境的问题，开发了一个标准化的PettingZoo/Gymnasium仿真环境，系统比较了PPO、DQN、MADDPG和QMIX四种代表性MARL算法在行栽作物病害检测任务中的性能。结果表明，PPO算法在稀疏奖励、部分可观测环境下表现最优，平均每回合奖励达0.698，病害检测命中率达5.273次，且几乎消除了误报和重复检测行为，为农业自主侦察系统的实际部署提供了稳健基准。

在精准农业迅猛发展的今天，人工智能、机器人技术和传感器正彻底改变传统农场管理方式。通过优化资源分配、提高产量和促进可持续性，精准农业为现代农业带来了革命性变革。然而，在这一充满希望的领域，一个关键问题尚未得到充分解决：在部分可观测和多目标奖励环境下，缺乏简单的多智能体强化学习(MARL)基准用于协同作物检测。

当前，无人地面车辆(UGV)和无人飞行器(UAV)已成为作物监测、定点喷洒、变量施肥技术(VRT)以及基于GPS/GIS的测绘的关键工具。尽管基于卷积神经网络(CNN)的植物病害感知技术已经相当成熟（准确率超过95%），但与空间多智能体协调相关的挑战——如覆盖冲突和重复访问——尚未得到系统研究。现有MARL研究往往直接从理论范式跳转到复杂的特定领域系统或抽象网格世界覆盖，缺乏一个既易于获取又能体现农业意义的测试平台，无法对核心算法家族进行系统比较。

为了填补这一空白，来自韦洛尔理工学院 Chennai 校区的研究团队在《Smart Agricultural Technology》上发表了一项创新研究，开发了一个标准化的PettingZoo/Gymnasium仿真环境，专门用于比较多种MARL算法在行栽作物协同检测任务中的性能。

研究团队设计了一个简化的行栽农业场景，其中两个同质智能体在32株植物的行上移动，进行二元病害检测。每个回合最多20步，智能体可以执行移动（前进/后退）、检查或无操作等离散动作。奖励函数经过精心设计，平衡了多个竞争目标：正确检测病害奖励+5分，误报惩罚-0.1分，重复检查惩罚-0.2分，前进奖励+0.1分，后退惩罚-0.01分。这种多目标奖励设计反映了真实农业侦察中的关键权衡——早期准确诊断的高效益与浪费时间、燃料和电池的成本之间的平衡。

研究团队系统比较了四种代表性MARL算法：PPO（近端策略优化）、DQN（深度Q网络）、MADDPG（多智能体深度确定性策略梯度）和QMIX（值混合网络）。这些算法涵盖了MARL的主要范式：策略优化与基于值的方法、独立学习与集中训练分散执行(CTDE)方法、以及值分解方法。

关键技术方法包括：使用PettingZoo/Gymnasium框架构建标准化仿真环境；设计包含部分可观测性的马尔可夫博弈过程；实现多目标奖励函数；应用广义优势估计(GAE)和裁剪替代目标等稳定训练技术；进行系统化的超参数调优和性能评估。

3.1. 环境设计与马尔可夫博弈过程

研究将任务建模为部分可观测马尔可夫博弈，其中全局状态编码植物状态和智能体位置，每个智能体接收包含位置、最近植物指数和健康代理等信息的局部观测。状态转移确定性地更新智能体位置并标记植物检查状态，病害标签在一个回合内保持静态。

3.2. PPO方法论

PPO采用参数共享策略，每个智能体拥有一个分类策略π_θ(a|o)和值函数估计V_ψ(o_t)。通过广义优势估计(GAE)计算优势函数，使用裁剪替代目标L^CLIP(θ)进行策略优化，结合值函数损失和熵奖励项以确保稳定学习。

3.3. DQN方法论

DQN作为独立值学习基线，每个智能体维护一个Q网络Q_θ(o,a)和目标网络Q_θ?。动作通过ε-贪婪策略选择，使用时间差分(TD)目标进行网络更新，并通过经验回放缓冲提高学习稳定性。

3.4. MADDPG方法论

MADDPG采用集中训练分散执行(CTDE)框架，每个智能体拥有一个演员网络μ_θⁱ(oⁱ)和一个集中评论家网络Q_?ⁱ(s,a)。演员通过确定性策略梯度更新，评论家通过最小化TD误差进行训练。

3.5. QMIX方法论

QMIX通过单调混合函数将联合动作值Q_tot(τ,u,s)分解为每个智能体的效用函数Q_i，满足?Q_tot/?Q_i≥ 0的单调性约束，确保个体贪婪动作与团队最优性一致。

5.1. 算法比较评估

实验结果清晰显示了各算法的性能差异。PPO表现最优，平均奖励分数为0.698，每回合平均检测命中5.273次，误报和重复检测率接近零（分别为0.098和0.075）。DQN表现出典型的停滞特性，平均奖励仅为0.179，命中率0.173，且重复检测率高达0.913。MADDPG呈现下降趋势，最终奖励为-1.431，重复检测率上升至11.964。QMIX也表现不佳，平均奖励为-0.184，命中率仅0.174。

5.2. 结果讨论

PPO的卓越性能归因于其裁剪替代损失和广义优势估计，促进了稳定、增量的策略更新和有效的信用分配。即使在稀有高奖励和误报、重复检测的强惩罚环境下，PPO也能快速收敛到最优检测策略。相比之下，基于值的方法如DQN和QMIX受多智能体环境非平稳性的影响，导致不可靠的贝尔曼目标和低效行为的传播。MADDPG尽管使用集中评论家改进联合策略学习，但在稀疏、重惩罚奖励和部分可观测性下容易产生值过高估计和“评论家漂移”。

5.3. 算法敏感性分析

敏感性分析显示，PPO在不同疾病流行率（5%-50%）、行大小（16-64株植物）和时间范围（10-40步）条件下均保持稳定性能。在低流行率下，PPO保持80%-90%的相对命中率，而基于值的方法性能下降超过50%。随着行大小增加，PPO奖励与植物比率保持稳定，而DQN和MADDPG在超过32株植物时出现指数级协调失败。

研究结论明确确立了近端策略优化(PPO)作为精准农业中部署多智能体强化学习的最稳健架构。PPO展示了优于其他算法的性能，其成功很大程度上归因于其依赖于优势估计器、裁剪机制和熵正则化的架构特点，使智能体能够有效区分有价值的检查行为和成本错误。

从实际应用角度，研究结果对自主农业系统的操作部署具有重要意义。接近零的误报和重复检测率表明PPO智能体可以实现高水平的操作可靠性，这是现实场景中最小化资源浪费的先决条件。通过学会区分可行目标与噪声并避免冗余行动，该系统支持时间高效流程，这对于针对性变量施肥技术(VRT)和实时病害检测等应用至关重要。

展望未来，该研究为将这一模块化MARL框架发展为全面农业自主解决方案指明了清晰路径。未来的实施可以通过批量学习增强智能体效率，使系统能够在多个季节周期中保留长期知识，而不是在单个回合后重置学习参数。最终，PPO展示的稳定性和错误避免能力为能够推动可持续、高精度农业的智能多智能体系统提供了基础蓝图。

研究的局限性主要在于完全依赖仿真环境，未考虑真实农业环境中的随机物理复杂性。此外，当前范围仅限于病害检测作为单一目标，而真实农业管理需要同时优化灌溉、害虫控制和产量估计等多个目标。未来的工作将整合高保真物理引擎和领域随机化技术，确保在仿真中训练的策略在转移到物理机器人平台时保持稳健。

热点排行

新闻专题