《Smart Agricultural Technology》:Improved Strawberry Disease Classification under Class Imbalance through In-Backbone Latent Diffusion
编辑推荐:
本研究针对温室环境下草莓真菌病害分类中存在的类别不平衡和数据稀缺问题,提出了一种在ResNet-50骨干网络内部(conv3→conv4间)集成隐空间扩散的特征增强框架。该方法通过多潜在头模块对中间特征进行随机细化,显著提升了白粉病(Powdery mildew)、枯萎病(Fusarium wilt)和灰霉病(Gray mold)等少数类别的识别召回率,在真实温室采集数据集上宏平均F1分数达到0.90,较像素级扩散方法提升80%,且推理延迟降低6.5倍。该研究为农业病害诊断中的特征表示学习提供了新思路。
草莓作为高经济价值作物,在全球范围内面临严重的真菌病害威胁,其中白粉病(Powdery mildew)、枯萎病(Fusarium wilt)和灰霉病(Gray mold)尤为突出,每年仅在美国就造成约1.5亿美元的经济损失。这些病害在温室高密度栽培环境下传播迅速,传统人工巡检方式存在主观性强、效率低的问题。尽管基于卷积神经网络(CNN)的自动识别技术已在实验室环境中取得超过90%的准确率,但在真实农业场景中,模型面临类别不平衡(健康样本占比70%)和域偏移(光照变化、遮挡复杂背景)的双重挑战,导致对少数病害类别的识别召回率急剧下降至不足15%。
为突破这一瓶颈,LG电子CTO部门AI实验室的研究团队在《Smart Agricultural Technology》发表论文,提出了一种创新性的“骨干网络内隐扩散”框架。该研究摒弃了传统像素级数据增强和外部生成式增强的思路,将去噪扩散概率模型(DDPM)直接嵌入到分类器骨干网络的特征空间中,在ResNet-50的conv3→conv4过渡区域进行特征级扩散增强。通过多潜在头(K=3)架构对特征表示进行随机细化,在保留病灶细微纹理特征的同时,有效抑制环境噪声干扰,使模型在类别严重不平衡的条件下仍能保持稳定的判别性能。
关键技术方法主要包括:1)在ResNet-50的conv3层(16×16×512特征图)插入多潜在头扩散模块,每个头独立预测噪声分量;2)采用T=50步的扩散过程,直接在隐空间进行前向加噪和反向去噪;3)通过特征投影将增强后的特征映射至conv4输入维度。实验使用来自Roboflow和AI-Hub的公开数据集(20,988张图像)进行训练,并采用韩国三个温室现场采集的615张图像作为独立测试集。
3.1 无数据增强的基线性能
在未使用任何增强策略时,ResNet-50基线模型的宏平均F1-score仅为0.34。具体表现为对白粉病和枯萎病的召回率极低(0.08和0.13),而灰霉病则出现大量误报(精度0.26)。这表明原始模型对少数病害类别存在严重识别偏差。
3.2 常规数据增强效果
采用翻转、旋转、色彩抖动等常规增强后,模型性能显著提升(F1-score=0.69)。白粉病召回率从0.08提升至0.68,说明几何变换能有效缓解过拟合,但对细微病理特征的增强能力有限。
3.3 像素级扩散增强对比
外部像素级DDPM生成增强虽将F1-score提升至0.50,但存在显著缺陷:生成图像虽视觉逼真,却丢失了关键诊断特征(如灰霉病召回率降至0.28),且推理延迟高达822ms。这表明像素级合成难以保持病害判别性特征。
3.4 隐空间扩散特征增强性能
提出的骨干网络内扩散框架取得突破性进展:宏平均F1-score达0.90,其中枯萎病召回率提升至1.00,白粉病召回率从0.08跃升至0.90。特征可视化显示,该方法能选择性增强病灶区域激活,抑制背景噪声(图7)。UMAP降维分析进一步证实,隐扩散使各类别特征分布更紧凑、分离度更高(图9)。
3.5 内部特征表征分析
通过计算卷积层特征熵发现,conv3层在空间分辨率(16×16)和语义抽象程度间达到最佳平衡。插入扩散模块后,特征熵提升7.3%,且conv4→conv5层的信息损失减少8.5%(图11)。多潜在头输出显示,各头专注于不同病理特征模式(如菌丝纹理、病斑边界),通过互补融合提升判别力(图8)。
3.6 扩散插入位置消融实验
层间对比表明,conv3→conv4过渡点效果最优(F1-score=0.51),较早插入(conv2)会引入过多噪声,较晚插入(conv4后)则因空间信息丢失导致性能下降39.7%(图10)。这验证了中层特征在保持病理细节与高级语义间的关键作用。
3.7 与替代架构对比
EfficientNet-B4和ViT-B/16在此任务中表现不佳(F1-score分别为0.31和0.19),凸显了Transformer架构对大数据量的依赖性问题。所提方法在保持参数量仅增加3%的前提下,推理速度较像素扩散提升6.5倍,内存占用降低32%(表8)。
研究结论表明,将扩散过程嵌入分类器骨干网络,能实现特征增强与分类目标的端到端对齐。这种方法避免了外部生成式增强的语义失真问题,通过隐空间操作显著提升了对少数病害类别的敏感性。特别值得关注的是,该方法对枯萎病的完美召回(100%)表明白粉菌属(Podosphaera aphanis)和镰刀菌(Fusarium oxysporum f. sp. fragariae)引起的微观病变更易在特征空间中被捕捉。讨论部分指出,该框架的模块化设计使其可扩展至其他作物病害诊断场景,但未来需在开放环境数据集上进一步验证泛化能力。此外,研究揭示了隐扩散在平衡表示学习中的潜力:不仅缓解了类别不平衡,还通过随机细化机制提升了模型对域偏移的鲁棒性。这项技术为资源受限环境下的精准农业病害监测提供了新的技术路径。