《Scientific Reports》:Evaluating AI models for food and alcohol advertisement classification against human benchmarks
编辑推荐:
为应对社交媒体上食品与酒精营销的规模化监测需求,研究者评估了大型语言模型与视觉语言模型在识别广告及其特征方面与公众和专家意见的一致性。通过对1000条比利时品牌广告进行人机标注对比,发现GPT-4o、Qwen 2.5等模型在酒精识别、目标群体等单选项特征上与营养师共识一致率超过90%,为自动化监测提供了可行性依据。该研究提出了分级部署建议,区分了人机一致特征与需专家监督的复杂特征,对公共卫生监管具有重要实践意义。
在数字时代,社交媒体已经成为品牌与消费者沟通的核心阵地,食品与酒精类广告在其中尤为活跃。这些广告如何影响公众健康,尤其是对不健康饮食和饮酒行为的潜在诱导,成为了公共卫生领域日益关注的问题。然而,海量的广告内容使得传统的人工监测方法变得耗时耗力、难以扩展,建立一个自动、准确且可规模化的监测体系迫在眉睫。问题的关键在于,当前最先进的人工智能,特别是大型语言模型与视觉语言模型,能否像人类专家一样,精准地识别出广告,并解读其背后的特征,比如是否含有酒精、针对哪个消费群体、采用了何种营销策略?为了解答这个核心问题,研究人员在《Scientific Reports》上发表了一项研究,系统地评估了AI模型在食品与酒精广告分类任务上的一致性表现。
研究人员开展了一项严谨的对比研究,以评估AI模型在识别广告特征方面与人类判断的一致性。研究团队收集了1000条来自比利时主要品牌在Facebook平台投放的广告,构建了一个高质量的标注数据集。为了建立可靠的评估基准,他们引入了两类人类标注者:一是600名众包工作者,代表“公众意见”;二是三位营养师,代表“专家共识”。研究团队将这些人标注的结果与四个主流AI模型(GPT-4o、Qwen 2.5、Pixtral和Gemma3)的预测结果进行对比分析。整个研究旨在探究两个核心层面:一是AI模型与人类(特别是专家)在判断不同类型广告特征时的一致程度;二是分析模型可能存在的系统性偏差。基于这些分析,最终为如何在实际公共卫生监测中分级、有效地部署这些模型提供了具体建议。
本研究主要采用了以下关键技术方法:1) 社交媒体广告数据采集与清洗,来源为比利时主要品牌的Facebook广告;2) 分层人工标注,包括大规模众包标注和专家(营养师)标注,以建立评估基准;3) 多模型评估框架,调用GPT-4o、Qwen 2.5、Pixtral、Gemma3等先进的大语言模型与视觉语言模型进行并行预测;4) 一致性量化分析,通过计算模型预测与人类共识(特别是营养师共识)之间的一致性指标(如百分比)进行评估;5) 偏差模式分析,识别模型在特定标签识别上是否存在系统性高估或低估。
模型与人类在广告特征识别上的一致率分析
研究人员首先比较了AI模型与人类标注者在不同复杂度特征上的一致率。对于“单选项”特征,即答案明确、非此即彼的特征,如广告中是否含有酒精、或广告的目标群体定位,表现最佳的AI模型(GPT-4o和Qwen 2.5)与营养师共识的一致率超过了90%。这个数字与不同营养师个体之间相互判断的一致率水平相当,表明在这些相对简单的识别任务上,先进的AI模型已经达到了接近人类专家的判断水准。然而,对于“多选项”特征,比如广告中是否包含“促销活动”或使用了哪些具体的“营销策略”,模型与专家共识的一致率则有所下降。尽管如此,模型在这些复杂任务上的表现波动,仍然处在众包评分者个体判断差异的范围之内。这意味着,虽然模型处理复杂、模糊特征的能力不如处理明确特征,但其表现并未脱离普通人类的判断水平范围。
AI模型在广告特征识别中的偏差模式
除了总体一致率,研究还深入分析了模型预测的偏差模式,即模型倾向于如何“理解”某些特定标签。分析发现,某些标签被模型系统性低估,而另一些则被系统性高估。例如,在判断广告是否针对“儿童”群体,或是否包含“健康声明”时,某些模型表现出稳定的高估倾向;而在识别“酒精饮品类型”或“食品营养类别”等特征时,则可能出现低估。这种偏差并非随机错误,而是揭示了模型内部表征与人类(特别是专家)分类逻辑之间的系统性差异。理解这些偏差模式,对于未来修正模型、设计更合理的提示词(prompt)或优化标注体系至关重要。
针对自动化广告监测的分级部署建议
基于上述发现,研究提出了一个务实的分级部署框架,旨在指导如何将AI模型有效地整合到现实的公共卫生广告监测系统中。该建议将广告特征分为两个层级:第一层级是那些AI模型已经能够以“人类级”准确度进行监控的特征,如识别“酒精存在”和“目标群体”。对于这类特征,AI模型可以高置信度地自动化处理,极大提升监测效率。第二层级则涵盖了更为复杂的特征,例如识别具体的“营销策略”或对“食品”进行精细分类。对于这类任务,当前AI模型的表现尚不稳定,需要结合专家的人工监督,并对分类体系(taxonomy)本身进行细化和优化。这种分级方法避免了“一刀切”,既利用了AI的自动化潜力,又通过保留必要的人力干预来确保复杂判断的准确性。
本研究通过系统的人机对比实验,揭示了当前先进的大型语言模型与视觉语言模型在食品与酒精广告内容识别领域的性能边界与潜力。核心结论表明,以GPT-4o和Qwen 2.5为代表的模型,在识别“酒精存在”、“目标群体”等定义清晰、选项单一的特征时,与人类专家(营养师)的共识具有高度一致性(>90%),其表现已可比肩人类专家间的相互判断。然而,当面对“营销策略”、“食品类别”等多选项、语义更复杂的特征时,模型的一致性则有所下降,但其表现波动仍处于普通公众判断的差异范围内。更深入的偏差分析指出了模型在理解特定标签时存在系统性倾向,这为未来优化模型提示与标注体系提供了明确方向。基于这些结果,研究提出的分级部署建议具有重要的实践意义:它区分了可立即投入自动化监测的高可靠性任务与仍需“人机协同”审慎处理的复杂任务。这项研究不仅为公共卫生领域的广告监管提供了可操作的自动化工具评估方案,也为人机交互、AI评估方法论在复杂社会场景中的应用树立了一个范例。它证明,在明确的框架和分级的策略下,AI可以成为公共卫生研究和政策制定中一个强大而可靠的辅助工具,帮助应对信息时代海量营销内容带来的监管挑战。