动态方向频率检测Transformer(DDF-DETR):面向田间棉花幼苗多尺度检测方法

《Agriculture》:DDF-DETR: A Multi-Scale Spatial Context Method for Field Cotton Seedling Detection Feng Xu, Huade Zhou, Yinyi Pan, Yi Lu and Luan Dong

【字体: 时间:2026年03月08日 来源:Agriculture 3.6

编辑推荐:

  该文提出了一种基于RT-DETR改进的DDF-DETR模型,通过动态门控混合模块(DGMB)、方向感知自适应Transformer编码器(DAATE)和频率感知亚像素上采样网络(FASN)三大核心组件,有效解决了无人机(UAV)影像中棉苗检测面临的背景干扰强、幼苗特征弱、多尺度变化等挑战。实验表明,该方法在新构建的新疆棉田数据集上取得了优异性能。

  
1. 引言
棉花的出苗质量直接影响后续产量与纤维品质,传统的人工监测方法效率低下,无法满足大规模精准农业管理的需求。无人机(UAV)遥感技术以其成本低、操作灵活、时空分辨率高等优势,为农田监测提供了规模化手段。然而,无人机图像进行棉花幼苗检测面临诸多挑战:个体幼苗目标微小,且在不同飞行高度下形态多样;强烈的塑膜反光、杂草、土壤裂缝等带来显著的背景干扰;而“缺苗”目标表现为负空间特征,与背景噪声高度相似。现有的CNN-Transformer混合检测架构受到固定卷积感受野的限制,难以适应目标的多尺度变化,注意力机制缺乏对方向几何特征的显式建模,而基于插值的上采样则会衰减小目标的高频边缘细节。针对这些问题,本文提出一种多尺度空间上下文检测方法:动态-方向-频率检测Transformer(DDF-DETR)。
2. 数据集构建
本研究的数据集采集于新疆昌吉市大西渠镇华兴农场,棉花品种为中棉113,采用“一膜三带六行”的种植模式。图像采集时间为2025年5月至6月的棉花苗期,使用大疆Mavic 3 Pro无人机,搭载哈苏L2D-20C相机,在15米、5米、3米和1.5米四个高度获取多尺度图像。图像标注使用LabelImg工具,采用PASCAL VOC格式,标注了“seedling”(棉苗)和“missing seedling”(缺苗)两类目标。经过筛选和标注,数据集包含3372张图像和416,869个标注实例。为全面验证模型在复杂农业环境下的适应性,数据集专门纳入了多种典型田间干扰场景,包括强烈的塑膜反光、光照阴影、杂草干扰、塑膜破损、土壤裂缝以及小目标等。数据统计分析显示,标注目标的平均宽度为13.1像素(标准差9.5像素),平均高度为19.3像素(标准差13.1像素),表明棉苗目标普遍呈现微小且细长的形态特征,对检测器的小目标感知能力提出了高要求。
3. 整体架构设计
DDF-DETR模型以RT-DETR(Real-Time Detection Transformer)为基线网络,并针对棉田复杂场景下微小棉苗目标检测面临的细节损失和特征退化问题进行了三项主要改进:动态门控混合模块(DGMB)、方向感知自适应Transformer编码器(DAATE)和频率感知亚像素上采样网络(FASN)。
在主干网络中,DGMB模块替换了ResNet原有的BasicBlock结构;在Neck网络中,DGMB同样替换了原来的RepC3模块,实现了全链路的动态特征提取。该模块通过多分支动态卷积和门控机制的融合,实现对棉苗各向异性几何形态的自适应特征提取。门控机制可以抑制背景噪声(如塑膜反光、不规则裂缝)的响应通道,降低背景干扰对缺苗检测的影响。
在混合编码器中,DAATE模块替换了原有的AIFI模块,通过极化线性注意力机制增强了方向几何特征的表征能力。其非对称的位置编码策略(仅应用于键向量)引导编码器沿着棉苗行种植模式的主导空间方向优先聚合特征,有助于判断局部黑点特征是否符合种植模式,从而区分真实的缺苗孔洞和随机出现的背景阴影。同时,空间感知前馈网络(SFFN)通过跨阶段特征引用,为注意力混合后语义丰富但空间混合的输出提供了空间连贯的补充信息。
在特征金字塔的上采样路径中,FASN模块替换了最近邻插值。它通过学习型亚像素卷积和方向感知的空间移位机制,实现频率感知的特征重建,从而恢复小目标的高频边缘和纹理信息,帮助模型区分边缘清晰的缺苗孔洞和模糊的塑膜阴影。
4. 实验结果与分析
为验证DDF-DETR模型的有效性,实验在自建的新疆棉田数据集上进行,使用mAP(平均精度均值)、参数量(Params)和计算量(GFLOPs)等作为主要评价指标。逐步消融实验表明,集成全部三个模块(DGMB + DAATE + FASN)的模型取得了最佳性能,mAP@0.5和mAP@0.5:0.95分别达到83.72%和63.46%,相较于基线RT-DETR-R18分别提升了2.38%和5.28%,同时参数量减少了30.6%,计算成本降至42.8 GFLOPs。
在DynamicInceptionDWConv2d的卷积核形态消融实验中,完整的S(方形核)、H(水平条状核)、V(垂直条状核)三分支组合取得了最高的检测精度和最低的训练方差,证实了三种核形态在多尺度几何建模中的互补作用。
与其他多尺度特征提取方法(如DRB、ContextGuided、SFSCconv、DCNv2)相比,本文提出的方法在各项评价指标上均达到了最优。相较于性能最接近的DCNv2,mAP@0.5和mAP@0.5:0.95分别提升了1.38%和1.31%,且计算量更低。
在方向感知编码器的对比实验中,DAATE的性能优于标准的线性注意力(Linear Attention)、cosFormer和FLatten Transformer等方法。其极化核分解能同时编码兴奋和抑制的空间关系,有效地区分前景棉苗响应和背景纹理激活。
在上采样方法对比中,FASN相较于传统的最近邻插值、CARAFE和DySample等方法,能更好地恢复小目标的高频细节,从而在精确率(P)和召回率(R)上均取得了更优的结果,体现了其对微小目标边缘和纹理特征的重建能力。
实验还通过不同干扰场景下的可视化检测结果对比,直观展示了DDF-DETR在复杂背景下的优异表现。它不仅能准确识别微小且形态各异的棉苗目标,还能有效抑制塑膜反光、杂草和土壤裂缝等干扰,实现高精度的缺苗检测。
5. 结论
本文提出的DDF-DETR模型,通过动态门控混合模块实现了对多尺度各向异性棉苗形态的自适应特征提取,并通过门控机制抑制背景噪声;通过方向感知自适应Transformer编码器,以线性计算复杂度建模了方向性几何特征;通过频率感知亚像素上采样网络,恢复了特征金字塔中的高频细节信息。在自建的新疆棉田数据集以及公开的VisDrone2019和TinyPerson数据集上的实验验证了该方法的有效性和鲁棒性。该研究为复杂农田环境下的作物幼苗自动化检测提供了高效、精准的解决方案,对于推动精准农业技术的发展具有实际意义。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号