基于全局-局部特征融合扩散模型的夜间苹果采摘图像增强

《Computers and Electronics in Agriculture》:Nighttime apple harvesting image enhancement based on a global–local feature fusion diffusion model

【字体: 时间:2026年03月24日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  低光果园图像增强方法研究,提出基于扩散模型的框架,结合U-Net、Transformer和CBAM模块提升图像质量,实验显示PSNR达27.11 dB,SSIM 0.8891,YOLOv13检测精度提升至0.352。

  
徐柳昌|倪婷|周芳硕|林清明|陈璐瑶|罗倩倩|夏凯|薛星宇|郑新宇|吴森森|杜振宏|方凯|冯海林
浙江农林大学数学与计算机科学学院,杭州,311300,中国

摘要

夜间收割是提高农业自动化效率的重要策略;然而,在低光照条件下,图像质量下降严重限制了机器视觉系统的感知精度。在复杂的果园环境中,现有方法常常会出现细节丢失和结构扭曲的问题,这使得难以满足高精度操作的要求。为了解决这些问题,本研究提出了一种基于U-Net框架的生成扩散模型用于图像增强。模型中加入了Transformer模块以捕捉全局上下文,并使用卷积块注意力机制来强化果实以及树枝和叶子的特征。此外,还采用了基于金字塔的分辨率采样和全局颜色校正模块来平衡细节恢复与颜色一致性。实验结果表明,该模型在合成苹果数据集上的PSNR达到了27.1144 dB,SSIM达到了0.8891。为了进一步评估其实际应用能力,我们使用合成数据集和真实的低光照数据集进行了对比分析。结果表明,该模型能够对真实场景进行有效的泛化,并改善了细节重建效果。经过模型增强后,YOLOv13检测器的mAP50–95从0.249提高到了0.352。总体而言,所提出的方法有效缓解了极端光照条件下的严重视觉退化问题,为全天候、高精度的自动化农业操作提供了技术支持。

引言

全球农业正在向自动化和智能系统转型(Lezoche等人,2020年;Misra等人,2020年;Sharma等人,2022年),这一趋势主要受到劳动力短缺加剧、生产成本上升以及对可持续农业实践迫切需求的影响(Oliveira等人,2021年;Cheng等人,2023年;Getahun等人,2024年)。在这一背景下,以水果和蔬菜为代表的园艺生产因其高劳动强度和重要的经济价值而成为自动化技术的重点应用领域。在水果和蔬菜生产中,尤其是对于苹果等高价值作物而言,收割是一个典型的劳动密集型操作。因此,迫切需要能够替代人工劳动的自动化系统(Zhang等人,2020年;Zhang等人,2024年;Huang等人,2024年)。为了进一步提高自动化效率,将自主收割机器人的操作窗口扩展到夜间条件——从而实现全天候自主作业——已成为该领域的发展趋势(Tang等人,2023年;Hou等人,2023年)。这一研究方向不仅使得24小时连续作业成为可能,还有助于减轻白天高温对果实质量和机器性能的不利影响,同时提高了对动态农业调度需求的适应性。
然而,将操作扩展到夜间条件带来了相当大的技术挑战。自主收割机器人严重依赖视觉系统进行精确的果实检测和定位,但在夜间或低光照条件下,图像质量会急剧下降。传感器捕捉到的图像通常具有对比度低、颜色失真、信噪比低和细节模糊等问题(Tang等人,2023年;Shi等人,2025年)。这种视觉质量的下降直接削弱了现有检测算法的鲁棒性和准确性,导致检测遗漏或定位错误,从而阻碍了自动化收割系统在全天候场景中的可靠部署。因此,开发一种能够在农业环境中有效处理低光照条件的图像增强技术对于充分发挥自主收割系统的潜力并实现真正的全天候智能操作至关重要。
尽管近年来在夜间农业作物视觉感知方面付出了大量努力,以提高在低光照条件下的果实检测和定位的鲁棒性和准确性,但仍存在一些挑战。首先,传统的物理先验和经典增强方法对光照变化非常敏感,且缺乏实时性能(Linker和Kelman,2015年;Liu等人,2016年;J. Wei等人,2018年)。因此,当夜间果园光照波动、噪声增加以及纹理变弱时,这些方法难以稳定地恢复对检测至关重要的结构和细节信息。
其次,深度学习方法——特别是YOLO系列——在夜间检测性能上有了显著提升;例如,YOLOv4实现了昼夜检测(Mirhaji等人,2021年),而YOLOv3结合U-Net则支持联合检测(Liang等人,2020年)。然而,在实际田间条件下,如极低光照、复杂背景干扰和密集果实重叠/遮挡的情况下,它们的鲁棒性和适应性仍有待提高,这常常导致细节丢失、边界模糊以及检测和定位错误增加。
第三,为了克服这些限制,最近的研究转向了Transformer和生成模型:前者利用全局依赖性来处理模糊的夜间图像(Wang等人,2024年;Sun等人,2022年),后者(如CycleGAN,Wu等人,2024年)用于数据增强和减少光照偏差。然而,这些努力通常只解决孤立的问题,缺乏一个能够同时优化全局亮度、局部纹理、颜色一致性和实际夜间果园效率约束的集成框架。因此,在复杂光照和密集果实场景下,同时实现高增强质量、忠实细节保留和检测性能提升仍然具有挑战性。
为了解决上述挑战,本研究专注于夜间苹果树,并提出了一种基于生成扩散的框架,专门用于增强夜间果园图像。该方法旨在改善低光照条件下的果实感知的视觉质量和鲁棒性。为了支持模型开发和评估,我们通过合成低光照图像构建了一个数据集,这些图像模拟了夜间条件下的果园情况。基于该数据集,模型采用了U-Net框架,并在瓶颈处加入了Transformer模块以捕捉全局依赖性。进一步集成了卷积块注意力机制(CBAM),通过强调果实和树枝-叶子的细节来增强特征表示,同时抑制低光照图像中的背景干扰。此外,还采用了基于金字塔的分辨率采样策略:低分辨率阶段模型处理全局亮度,而高分辨率阶段恢复局部纹理细节,从而平衡了实时效率和增强质量。最后,应用了全局校正模块来补偿低光照苹果树图像中的颜色偏移。
一系列系统实验验证了所提出方法的有效性和优越性。在定量和定性评估中,该模型在三个图像质量指标上均取得了最佳性能。在测试的调度策略中,配置[1,1,2,2]几乎保持了与基线[1,1,1,1]相同的图像质量,同时将推理速度提高了约65%,从而在性能和计算效率之间实现了最佳平衡。最后,在苹果树图像检测任务中,增强后的性能显著提升:应用于YOLOv13时,mAP50达到了0.627,mAP50–95达到了0.352。这些结果证明了所提出框架在夜间果园自动化收割中的实际价值。
总结来说,本研究的主要贡献如下:
  • 我们构建了一个夜间苹果果园场景的低光照-正常曝光配对数据集,并通过亮度和噪声的统计分析确认其分布与真实夜间图像一致。
  • 我们提出了一种基于金字塔的条件扩散框架,结合了基于Transformer的全局建模和基于CBAM的局部增强,实现了全局光照一致性和局部细节恢复的联合优化。
  • 系统性的消融研究和下游检测实验表明,增强后的图像在物体检测性能上有了显著提升,凸显了该方法在夜间自动化收割中的实际价值。

节选

果树夜间视觉技术

为了满足农业自动化设备全天候操作的需求,出现了夜间果实视觉感知技术。然而,夜间操作通常面临光照不足、信噪比低以及果实颜色和纹理特征模糊的问题。这些因素使得在严重退化的视觉条件下实现鲁棒的果实识别成为一项关键的技术挑战。为了解决这个问题,该领域的研究已经从传统的基于模型的方法发展到了

概述

增强低光照苹果果园图像是一个分层挑战。在全局层面,必须均匀提升图像亮度,同时保持树木的整体结构一致性——特别是果实和树枝之间的空间关系——以防止不自然的曝光或结构扭曲。在局部层面,模型需要准确识别和恢复苹果和叶子的关键特征——如轮廓、颜色和细微纹理——这些特征对于

实验数据集

我们整合了三个苹果树图像数据集——AppleBBCH81(Kodors等人,2024年)、ESOGU-APPLES(Karapa?a等人,2022年)和Apple Farm2——总共得到了2822张图像。
AppleBBCH81数据集包含了在LatHort果园果实成熟期从垂直和倾斜视角拍摄的苹果图像。标注后的图像被裁剪成640 × 640像素的YOLO格式瓦片,重叠率为30%

讨论

本研究提出了一种生成扩散模型,用于增强低光照苹果果园图像,在图像质量和下游物体检测性能上取得了显著提升。优异的结果源于该模型的多组件协同架构,它创新性地结合了U-Net框架、Transformer模块、CBAM注意力机制、金字塔分辨率策略和全局校正器。这些组件共同提供了一种新颖而有效的

结论

本研究提出了一种用于低光照果树场景的图像增强生成扩散模型。通过结合U-Net框架、Transformer模块、CBAM注意力机制和金字塔采样策略,该模型在全局光照建模和局部细节恢复之间取得了平衡。实验结果表明,所提出的方法显著提高了图像质量和果实检测准确性,展示了扩散模型在复杂场景中的潜力

CRediT作者贡献声明

徐柳昌:撰写——审稿与编辑,撰写——初稿,方法论,资金获取,概念化。倪婷:撰写——初稿,验证,方法论,概念化。周芳硕:可视化,调查。林清明:可视化,调查。陈璐瑶:调查。罗倩倩:调查。夏凯:撰写——审稿与编辑。薛星宇:撰写——审稿与编辑。郑新宇:撰写——审稿与编辑。吴森森:撰写——审稿与

手稿准备过程中生成AI和AI辅助技术的声明

声明:在准备这项工作时,作者使用了ChatGPT(OpenAI-ChatGPT5)来提高英文手稿的可读性和清晰度。使用该工具后,作者根据需要对内容进行了审查和编辑,并对发表文章的内容负全责。

资助

本研究得到了国家自然科学基金(32271869,32571810)和衢州科技计划项目(项目编号2024K138)的支持。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号