《Smart Agricultural Technology》:CHIMERA: Cleaning Heterogeneous Image Datasets from Measurement and Label Noise for Robust Classification Accuracy
编辑推荐:
人工智能模型性能高度依赖训练数据的质量,然而在农业场景中,受限于耗时的采集过程及生物变异性,构建大规模洁净数据集面临显著挑战,使得数据清洗成为基础性环节。传统清洗策略多聚焦于测量噪声(Measurement Noise),即由伪影或非目标物体导致的输入数据偏离
人工智能模型性能高度依赖训练数据的质量,然而在农业场景中,受限于耗时的采集过程及生物变异性,构建大规模洁净数据集面临显著挑战,使得数据清洗成为基础性环节。传统清洗策略多聚焦于测量噪声(Measurement Noise),即由伪影或非目标物体导致的输入数据偏离有效分布,常被视作离群点;而同样关键的标注噪声(Label Noise),源于有效输入的误标注,表现为特征—标签关系异常而非统计离群点,却常被忽视。尽管这两类噪声已被广泛研究,但通常被独立处理。鉴于二者在实际场景中常共存,研究人员提出了CHIMERA(Cleaning Heterogeneous Image Datasets from Measurement and Label Noise for Robust Classification Accuracy)统一框架,用于在图像分类任务中检测并分离测量噪声与标注噪声,前者予以剔除,后者标记以待重标注。CHIMERA首先基于预训练网络在含噪样本上进行微调以生成预测标签,这些标签被认为更接近真实情况;随后依据预测标签对样本分组,并通过特征提取与离群点检测进行处理。检测出的离群点被判定为测量噪声,而预测标签与原标签不一致的样本则被标记为标注噪声。在以害虫监测为背景的昆虫分类任务中,研究人员证实CHIMERA可显著提升数据集质量与分类性能,准确率达90.52%,相较原始含噪数据集的87.93%有明显改善。通过解耦测量噪声与标注噪声,CHIMERA为图像数据集清洗提供了实用路径,在数据资源受限的农业环境中可有效增强模型鲁棒性。
研究背景方面,人工智能在农业领域的应用正日益广泛,然而可靠的人工智能系统高度依赖高质量数据。农业数据采集因生物变异性、季节周期及高昂的专家标注成本而尤为困难,导致数据集往往在数量和质量上存在局限。图像分类任务中普遍存在的测量噪声与标注噪声会进一步降低模型性能,且二者通常共存。现有方法多单独处理某一种噪声,缺乏对混合噪声的统一处理机制,限制了其实际应用价值。为此,研究人员开发了CHIMERA框架,旨在同时识别并区分这两类噪声,以提升数据利用效率与模型性能。该研究发表于《Smart Agricultural Technology》。
关键技术方法方面,研究人员采用二元昆虫分类任务作为验证场景,样本来源于比利时农田2023至2025年间采集的粘虫板图像,经裁剪生成150×150像素的昆虫子图像,并人工注入控制比例的测量噪声(非昆虫物体)与标注噪声(类别翻转)。方法层面,研究人员首先基于ImageNet预训练的ResNet-18网络在含噪数据上微调以生成预测标签;随后将样本按预测标签分组,利用预训练网络提取特征,并通过UMAP降维与HDBSCAN密度聚类进行离群点检测,最终结合标签一致性判断实现噪声分离。
研究结果部分,研究人员首先评估了噪声的影响,发现在洁净数据上训练的模型准确率为92.36%,而在含噪数据上降至87.93%,表明噪声显著损害性能。在基线ADBench清洗策略中,直接使用512维特征进行离群点检测,ECOD方法仅能识别27.8%的测量噪声,且几乎无法检测标注噪声,分类准确率无提升。引入UMAP降维后,MCD方法的测量噪声检出率提升至49.3%,但仍受限于预设污染比例假设,且标注噪声仍未被有效识别,准确率略有下降。采用无预设污染比例的UMAP-HDBSCAN聚类策略后,测量噪声检出率达到98.2%,但对标注噪声依然无效,准确率小幅提升至88.79%。最终,CHIMERA框架整合预测标签生成与聚类检测,成功将测量噪声与标注噪声分离,测试准确率达90.52%,接近洁净数据基准。
讨论与结论部分,研究人员指出传统离群点检测方法虽可部分去除测量噪声,但无法应对标注噪声,而CHIMERA通过联合利用特征空间分布信息与标签一致性信息,实现了对两类噪声的有效区分。该方法避免了简单剔除所有可疑样本的弊端,允许将误标注样本回收重标注,从而在数据受限场景下最大化数据价值。研究亦指出,CHIMERA在受控实验环境下表现良好,但在真实世界更复杂、非均匀分布的噪声场景中,其假设可能受到挑战,需结合其他策略以增强鲁棒性。总体而言,CHIMERA为农业图像数据清洗提供了一种模块化、可扩展的解决方案,兼具实用性与通用性。