利用生成式大语言模型转变社交媒体情感分析：以人造肉争议为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Food Quality and Preference》：Transforming social media sentiment analysis with generative large language models: A case study from the cultured meat debate

【字体：大中小】 时间：2026年05月11日 来源：Food Quality and Preference 4.9

编辑推荐：

　　陈天丽|叶丽帆·苏|吴怡曼·玛格丽特|马修·J·斯塔西维茨|王毅成美国伊利诺伊大学厄巴纳-香槟分校食品科学与人类营养系摘要社交媒体可以作为讨论新型食品的重要数据来源。然而，目前用于分析用户在这些平台上表达的与食品相关以及其他情感的方法存在一些缺点，包括成本高昂

　　陈天丽|叶丽帆·苏|吴怡曼·玛格丽特|马修·J·斯塔西维茨|王毅成
美国伊利诺伊大学厄巴纳-香槟分校食品科学与人类营养系

摘要
社交媒体可以作为讨论新型食品的重要数据来源。然而，目前用于分析用户在这些平台上表达的与食品相关以及其他情感的方法存在一些缺点，包括成本高昂、耗时以及/或准确性较低。为了解决这些问题，本文提出了一系列利用大型语言模型（LLM）GPT-4o的情感分析框架。通过使用12.5年间超过230,000条关于培养肉的推文的标注数据集，我们比较了五种方法：三种GPT-4o配置（零样本学习并配详细指导、零样本学习仅配基本指导以及微调），以及VADER和BERT。其中，经过微调的GPT-4o表现出更高的准确性；而无论是否配详细指导的零样本GPT-4o，其表现都与不需要任何模型训练的BERT相当。将基于微调GPT-4o的LLM框架应用于整个数据集作为案例研究，揭示了关于培养肉的在线讨论中的重要动态，包括其正面、负面、中立及混合观点的总体平衡，以及监管里程碑对其的影响。总体而言，我们严格评估的、高度可扩展的生成式LLM框架能够准确且高效地处理关于新型食品的在线讨论——其性能优于广泛使用的词典（VADER），并接近或等于经过微调的深度学习模型（BERT）的性能——有时甚至无需大量的机器学习专业知识或预标记的数据集。因此，它们为食品科学家和消费者科学家提供了易于部署且高效的计算工具，用于分析在线叙述。

引言
食品技术的创新对于实现更可持续和稳健的食品系统至关重要（Giacalone & Jaeger, 2023）。然而，消费者往往对于接受或消费新型食品持犹豫态度（Siegrist & Hartmann, 2020）。鉴于公众对这些创新的态度会影响它们的普及程度（Nucci & Hallman, 2015），了解公众如何看待这些技术至关重要。然而，现有的确定公众态度的方法可能成本高昂、耗时且/或相对不够准确。本文旨在解决这些缺点。

传统上，调查是收集和分析公众意见的主要工具（Reveilhac et al., 2022），其次是焦点小组讨论（例如O'Keefe et al., 2016; Tucker, 2014）。然而，进行调查或焦点小组讨论需要大量的时间和成本（Zhang et al., 2022），尤其是在跨国或大规模的情况下。因此，近年来越来越多的公众意见研究转向了来自社交媒体平台的数据，这些平台为个人分享和讨论各种话题提供了便利（例如El Barachi et al., 2021; Hu et al., 2021）。此外，由于这些平台包含了长时间生成的大量全球数据（Garcia et al., 2021），使用它们作为数据源可以帮助解决传统方法在时间、空间等方面的限制（Y. Chen & Zhang, 2022）。在各类平台中，截至2022年12月拥有超过3.68亿月活跃用户的Twitter/X（Statista, 2023）因其数据比Facebook等其他社交媒体平台更易于获取，而在包括食品相关研究在内的多个领域受到青睐（例如Molenaar et al., 2024）。尽管社交媒体数据不能代表全体人口，但它们提供了对公众讨论的窗口，可以补充更传统的数据收集方法（Reveilhac et al., 2022）。

从大量文本中提取洞察需要强大的计算方法，尤其是在社交媒体平台上数据几乎不断生成的情况下。自然语言处理（NLP）是其中一个方法论领域，其目标是使计算机能够理解、解释并可能生成人类语言（Drikvandi & Lawal, 2023）。在NLP中，情感分析专注于通过分类文本来提取情感：通常分为正面、负面和中立（Guo, 2022; Hardeniya & Borikar, 2016）。Chen和Zhang（2022）指出，截至当时所有发表的关于食品相关社交媒体数据的情感分析都使用了基于词典的方法（例如Feldmeyer & Johnson, 2022; Mostafa, 2019; Trivedi & Singh, 2021）。这些方法主要依赖于预定义的单词词典及其相关情感分数（Hussain et al., 2023）。在食品相关研究中最常用的基于词典的方法之一是VADER（Valence Aware Dictionary for Sentiment Reasoning；例如Jenkins et al., 2023; Mohamed et al., 2023; Molenaar et al., 2024），它专为分析社交媒体文本而设计（Ainapure et al., 2023）。虽然基于词典的方法易于部署且方便使用（Gomez-Adorno et al., 2024），但由于词典覆盖范围有限以及无法捕捉上下文依赖的意义（Pratama & Hayaty, 2023; Sazzed & Jayarathna, 2021），它们的准确性往往较低。

正如Joloudari et al.（2023）和Zhao et al.（2021）所指出的，2018年引入的先进深度学习模型BERT（Bidirectional Encoder Representations from Transformers；Devlin et al., 2018）通过在一系列任务中实现最先进的性能（包括情感分析）彻底改变了NLP。由于BERT在包含33亿个单词的语料库上进行了预训练（Devlin et al., 2018），它对社会语言中的词与词之间的关系有深刻的理解（Sadler et al., 2024）。然而，要将它的通用语言理解应用于特定任务，BERT通常需要微调（即在特定任务的标记数据集上进行额外训练），以便使其预训练的知识适应特定任务的要求（Lohani et al., 2024）。识别推文的情感就是一个需要BERT微调的例子。然而，获取微调所需的标记数据可能耗时且成本高昂（Aouedi et al., 2022）。对于情感分析任务，标记过程通常涉及人工注释者——无论是领域专家还是众包工人——他们根据代码手册手动识别和分类文本中的情感（Van Atteveldt et al., 2021）。尽管结果可能一致且可靠，但人工数据标记在可扩展性方面存在挑战：这对于需要大型标记数据集的情感分析模型来说是一个严重的缺点（Tan et al., 2023）。

最近，像GPT系列（例如ChatGPT；OpenAI, 2024b）这样的生成式LLM的发展引入了一种解决多样化NLP任务的新方法（Gray et al., 2023），包括情感分析子任务（Belal et al., 2023）。GPT-4拥有数十亿个参数，并在大量文本数据上进行了预训练，可以根据用户提供的提示生成类似人类的回答（Tao et al., 2024; Tian et al., 2024）。这种能力使得生成式LLM能够通过零样本（ZS）提示来执行任务，即不需要任何特定任务的标记数据，而是完全依赖指令（Wang & Gayed, 2024）。情感分析任务的一个ZS提示示例是：“句子X对目标t的态度是什么？从以下选项中选择：正面、负面、中立”，其中X代表要分析的文本，t是指焦点主题或实体（Rusnachenko et al., 2024, p. 3152）。这种能力可以大大减少获取和标记特定任务数据所需的时间和成本。然而，ZS提示并不是基于LLM的情感分析的唯一技术。像GPT-3.5和GPT-4这样的生成式LLM也可以针对特定任务进行微调，包括情感分析。一些最近的研究探讨了使用生成式LLM进行情感分析的潜力，无论是通过ZS提示还是微调，有些研究比较了这两种方法（例如Belal et al., 2023; Fatouros et al., 2023）。然而，这些研究中使用的提示缺乏一些通常在人工标记工作编码指南中发现的特定任务细节。例如，为了分析对COVID-19调查的免费文本回复的情感，Lossio-Ventura et al.（2024）用“以下句子的情感是什么：‘x’？”来提示ChatGPT。但在缺乏精确的、特定任务的情感类别定义的情况下，生成式LLM的情感判断主要基于它们在原始开发者的大规模预训练阶段获得的知识；这可能会降低结果的可解释性和一致性。相反，基于特定任务数据微调的GPT-4在情感分析方面的表现优于使用基于基本指导的ZS提示的GPT-4（Roumeliotis et al., 2024）。这意味着使用标记示例进行微调可以使这些模型更好地内化特定任务的知识。然而，目前尚不清楚生成式LLM在解读为人工注释者设计的特定任务编码指南方面的能力如何，或者将此类指南纳入其指令是否会比微调更有效地提高其情感分析性能。据我们所知，还没有研究利用生成式LLM对食品相关社交媒体数据的情感分析潜力。

因此，本研究探讨了如何在情感分析中应用GPT-4o（GPT-4的增强版本，也是我们在主要分析开始时可用的最新GPT系列模型）。我们选择的目标食品是培养肉，它是通过非致命方式从动物来源培养细胞制成的（Gruber, 2022）。许多关于培养肉的意见研究依赖于传统的调查和焦点小组（Bryant et al., 2019; Bryant & Dillard, 2019; Wilks & Phillips, 2017）。虽然一些消费者认为这是一种提高动物福利和环境可持续性的方法（Rolland et al., 2020; Tuomisto, 2019），但也有人对其安全性、营养价值和感觉不自然性表示担忧（Bryant & Barnett, 2020）。我们使用与培养肉相关的Twitter/X数据集作为示例，1）在三种设置下评估了GPT-4o的性能——ZS提示并配基本指导、ZS提示并配代码手册以及微调并使用标记数据——并将这些设置的性能与VADER和BERT进行了比较；2）应用步骤1中确定的最佳方法来追踪关键培养肉相关新闻事件中的情感变化，展示了该方法监测在线公众讨论的能力。

本研究的贡献有三方面。首先，其对五种情感分析方法的详细比较评估为未来研究的方法选择提供了关键见解，因为每种方法都有自己的优势和局限性。其次，它系统地展示了三种基于LLM的方法，并比较了各自的提示设计和训练范式。通过明确引入基于人类标记实践的代码手册指导，这种方法推进了现有的零样本策略，这些策略经常忽略了人类引导的编码框架在基于LLM的分析中的潜在作用。最后，通过在大型纵向数据集上验证表现最佳的基于LLM的框架，本研究建立了一种适用于食品领域的方法论工具，能够可靠地捕捉随时间变化的情感。

总的来说，这些贡献为开发、测试和/或应用基于LLM的方法来分析社交媒体文本的研究人员提供了方法论上的进步和实用指导，特别是在需要严格、以人类为中心的内容分析的情境中。此外，这些工具为食品科学家、政策传播者和行业从业者提供了灵活的方法论选项，以便监测围绕新兴食品技术的在线叙述的语气和动态，从而在食品创新的关键阶段实现更有效和基于证据的沟通策略。

数据收集和清洗
我们的初始数据集包含424,382条英文推文，时间跨度为2010年7月1日至2022年12月31日，通过Brandwatch使用以下查询词条收集：“cultured meat” OR “lab grown meat” OR “in vitro meat” OR “cell based meat” OR “cultivated meat” OR #culturedmeat” OR #labgrownmeat OR #invitromeat OR #cellbasedmeat OR #cultivatedmeat。在选择这些搜索词条时，我们优先考虑了在学术、媒体和行业讨论中常用且始终能产生可靠结果的术语。具体来说，我们对该框架的应用证实了它能够成功检测到诸如基线情感稳定性以及围绕主要事件的明显情绪波动等纵向模式。

**结论**
在这五种情感分析方法的方法学比较中，FT GPT-4o取得了最高的整体准确率和加权F1分数，超越了BERT和VADER；而两种ZF GPT-4o配置（特别是使用代码本的配置）在较低的标注成本下实现了与BERT相当的性能。这些发现表明，生成式大语言模型（Generative LLMs）能够提供可扩展且准确的分析工具，用于处理大规模、特定领域的社交媒体数据，尤其是在学术研究中。

**作者贡献声明**
陈天力（Tianli Chen）：负责写作——审稿与编辑、撰写初稿、数据可视化、方法论设计、形式化分析以及数据整理与概念化工作。
苏怡凡（Leona Yi-Fan Su）：负责写作——审稿与编辑、项目监督、方法论设计以及资金筹集工作。
吴漪曼（Yee Man Margaret Ng）：负责写作——审稿与编辑、方法论设计以及资金筹集工作。
斯塔西维茨（Matthew J. Stasiewicz）：负责写作——审稿与编辑以及方法论设计工作。
王一成（Yi-Cheng Wang）：负责写作——审稿与编辑、项目监督以及资金筹集工作。

**关于写作过程中使用生成式AI和AI辅助技术的声明**
作者在准备本作品时使用了生成式AI技术，根据需要对内容进行了审阅和编辑，并对发布的文章负全部责任。

**关于利益冲突的声明**
作者声明不存在任何可能影响本文研究结果的已知财务利益冲突或个人关系。

联系信箱：

粤ICP备09063491号

热点排行