输入数据对自动固体废物识别中视觉语言模型（VLM）的影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Resources, Conservation and Recycling》：The impacts of input data on visual-language models (VLM) in automated solid waste recognition

【字体：大中小】 时间：2026年03月15日 来源：Resources, Conservation and Recycling 11.8

编辑推荐：

　　固体废物识别研究评估了视觉语言模型在数据复杂性影响下的性能变化，通过三个不同质量的数据集对比发现图像复杂性增加9.9%导致识别准确率下降8.1%，而清晰度影响较小。研究为智能废物管理中的数据优化提供实证依据。

陈俊杰|卢伟生|卢静|张毅|董志明|杨冰|彭子瑜|袁亮

香港大学房地产与建筑系，香港薄扶林道

摘要

固体废物的识别是其后续处理和材料分类的基石。多模态语言模型，特别是视觉-语言模型，在无需针对特定领域数据集进行专门训练的情况下，已经展示了令人满意的识别性能。然而，现实生活中的数据输入往往存在较大差异，这些差异如何影响识别性能尚不清楚。本文通过对三组来自公开来源和内部数据源的固体废物图像进行比较实验来回答这一问题。这些图像通过包括复杂性和清晰度在内的既定质量指标进行评估。研究发现，当复杂性增加9.9%（从6.77增加到7.44）时，视觉-语言模型的性能一致下降了8.1%（从0.90下降到0.827），而清晰度仅有轻微影响。该研究为提高数据质量以利用人工智能进行自动化废物分类提供了宝贵的实证指导。

引言

固体废物主要包括城市固体废物（MSW）、工业废物以及建筑和拆除废物（CDW），是全球面临的主要挑战之一。它占废物总量的很大比例，对自然环境造成了严重威胁（联合国环境规划署，2024年）。固体废物的典型材料包括纸张、塑料、玻璃、金属、有机废物和建筑垃圾（Kaza等人，2018年）。有效管理这些废物对于减少碳排放和实现循环经济至关重要（Yuan等人，2024年）。这已成为地方和全球层面的重要环境问题。在最终将废物填埋或焚烧之前，已经推荐了各种3R（即减少、再利用和回收）实践，并按逆金字塔层次结构进行组织。

在3R的任何一种实践中，固体废物识别（SWR）都是关键的初始步骤。它涉及对混合废物中的材料进行识别和分类，以便进行适当的分类和回收。SWR对于减少环境影响（如填埋场占用和资源消耗）至关重要（Hoornweg和Bhada-Tata，2012年）。传统上，这项任务主要依赖人工操作，但这种方法因效率低下、准确性差以及对工人健康的威胁而受到广泛批评（Lu和Chen，2022年）。为了解决这些问题，越来越多地应用基于计算机视觉（CV）的自动化解决方案来提高各种废物管理场景下的废物识别任务的准确性和效率（Dong等人，2022年）。

尽管在自动化SWR的CV应用方面进行了大量研究（Lu和Chen，2022年），但其缺点是需要为训练识别模型准备专门的定制数据集。大型语言模型（LLM）的快速发展为解决这一缺点提供了新的机会。根据定义，LLM（如ChatGPT和DeepSeek（OpenAI，2023年）是一类在大型数据集上预训练的人工智能（AI）系统，能够生成类似人类的文本并理解上下文（Brown等人，2020年）。LLM领域发展迅速。最新的进展不仅限于语言处理，还扩展到了不同类型的数据处理。由此产生了能够处理多种类型输入的多模态语言模型。其中一部分模型专门用于处理图像内容，因此被称为视觉-语言模型（VLM）。特定的VLM实例（如CLIP（Radford等人，2021年）能够结合视觉和文本数据，从而更高效、更准确地解释图像和文本语言。此外，这些VLM已经过预训练，无需繁琐的领域特定训练即可表现良好。观察发现，LLM在建筑环境中的多个应用领域取得了巨大成功，例如建筑缺陷检测（Yong等人，2023年）。VLM的成功激励我们超越传统的CV方法，开发用于自动化SWR的VLM。

众所周知，现代AI系统的有效性在很大程度上取决于输入数据的质量。许多研究都展示了“输入垃圾，输出垃圾”的现象。然而，这些研究往往关注数据集层面的通用方面，如标签准确性、类别平衡和噪声（Budach等人，2022年）。固体废物识别具有许多特定于领域的特征，与通用场景不同。例如，由于类型、形状和条件的不同，废物材料的外观变化很大。VLM可能难以在不同示例之间进行泛化（Lu等人，2022年）。废物通常出现在杂乱的环境中，材料之间相互重叠或遮挡（Chen等人，2021年），更不用说复杂的照明条件，这会干扰模型用于识别的视觉特征（Bobulski和Kubanek，2021年；Szeliski，2022年；Wang等人，2024b）。此外，现有研究主要集中在传统的深度学习（DL）算法上，而VLM在架构和训练策略上具有本质差异。文献中尚未见到关于特定数据属性如何影响VLM在废物识别中性能的全面理解。

本研究的目的是评估不同输入数据特征如何影响VLM在自动化固体废物识别中的性能。通过分析具有不同数据质量的多个数据集、测试最先进的VLM以及在不同数据条件下评估模型性能来实现这一目标。本研究通过识别影响VLM性能的关键数据因素，为改进实际场景中的数据收集和模型鲁棒性提供了策略建议。本文的其余部分组织如下：第2节回顾了VLM及其在废物识别任务中的应用；第3节介绍了详细的方法论，包括数据整理、提示工程、测量指标和相关性分析；第4节展示了分析结果和关键发现；第5节讨论了这些发现的意义；第6节提出了未来研究的建议。

部分摘录

LLM和视觉-语言模型

LLM被定义为一种能够理解和生成类似人类语言的高级DL系统，处于人工智能（AI）的前沿。尽管经过数十年的研究努力，直到2022年ChatGPT的发布，LLM才开始受到媒体的广泛关注。VLM是多模态LLM系统，它们联合处理视觉（例如图像、视频）和文本数据以执行预测任务（Radford等人，2021年）。与传统的CV模型相比，VLM能够更好地整合视觉

数据来源和整理

本研究使用三个具有不同特征的数据集来检验输入数据对VLM在固体废物识别（SWR）中的影响。每个数据集代表一个具有不同材料重叠程度和复杂性的真实世界废物场景。

数据分析、结果和发现

本研究选择ChatGPT-4o作为实现工具，这主要是因为它在当前LLM解决方案中是最广泛采用和验证最充分的多模态模型。其在多个领域的广泛应用产生了大量关于其性能能力的实证证据，使其成为研究数据复杂性如何影响识别任务的理想基准模型。该模型的流行也确保了研究结果的可靠性

本研究的贡献

本研究在智能固体废物管理领域做出了重要贡献，可以从两个方面总结。首先，这项研究尝试探索输入数据对VLM在自动化SWR中性能的影响，这是利用已经预训练了大量文本和视觉数据的VLM进行实际应用的重要一步。通过探索不同类型输入数据

结论

本研究调查了输入数据特征对VLM在自动化SWR中性能的影响。通过对三个不同数据集（即TrashNet、BeltCDW和TruckCDW）使用ChatGPT-4o进行测试，研究揭示了几个关键发现。值得注意的是，图像复杂性（通过熵量化）与识别性能之间存在强烈的负相关（R2 = 0.98），复杂性增加9.9%（从6.77增加到7.44）导致平均F1分数下降8.1%

CRediT作者贡献声明

陈俊杰：撰写——原始草稿、可视化、方法论、正式分析、数据整理、概念化。卢伟生：撰写——审阅与编辑、监督、资源获取、概念化。卢静：验证、方法论、正式分析。张毅：撰写——原始草稿、方法论、调查。董志明：撰写——原始草稿、方法论、调查。杨冰：撰写——原始草稿、方法论、调查。彭子瑜：撰写——审阅

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了香港研究资助委员会（RGC）一般研究基金（GRF）（项目编号：17202224）的支持。作者感谢在线提供的公共数据集以及香港政府土木工程和发展部（CEDD）提供的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号