评估基于人类分析和基于大型语言模型的内容分析方法：以社交媒体中负面口碑分类为例

《Computers in Human Behavior》：Evaluating Human-Based and Large Language Model-Based Content Analysis: A Case Study on Negative Word-of-Mouth Classification in Social Media

【字体：大中小】 时间：2026年01月21日 来源：Computers in Human Behavior 8.9

编辑推荐：

　　本研究旨在比较人工标注与基于大语言模型（LLM）的自动化内容分析在分类社交媒体上的负面用户评论（NWOM）中的有效性。通过三个实验，评估了ChatGPT在提供分类定义和关键词条件下的分类准确率、精确度、召回率和F1分数，并调整模型参数。结果表明，LLM在检测负面评论召回率上表现优异，但在 irony 和 boycott 等细微分类上精确度低于人工标注，但结合定义和关键词能显著提升准确性和一致性。这为AI辅助内容分析提供了理论支持和实践框架，同时揭示了LLM的局限性。

杨约兰德 | 王志坚 | 周宝琳 | 田洁宇 | 文嘉琪 | 陈念欣

台湾新北市国立台北大学信息管理研究生院

摘要

本研究的主要目的是探讨在社交媒体上对负面口碑（NWOM）进行分类时，人工注释与基于大型语言模型（LLM）的自动化内容分析的有效性。以ChatGPT作为代表性的LLM，我们评估了其在将评论分类为五种情感类型（正面、中性、负面、讽刺和抵制）方面的表现。通过三个实验，在不同条件下比较了ChatGPT的分类准确性、精确度、召回率和F1分数与人工注释者的表现，这些条件包括提供分类定义和关键词，以及调整参数如“temperature”和“Top_p”。研究结果表明，虽然ChatGPT在检测负面评论方面表现出较高的召回率，但在处理讽刺和抵制等细微情感分类时存在困难，而人工注释者的精确度更高。明确提供定义和关键词显著提高了ChatGPT的分类准确性和一致性，尤其是在区分与抵制相关的评论时。然而，调整“temperature”和“Top_p”仅带来了微小的改进。这些结果突显了将LLM与人工注释结合使用以优化大规模内容分析的潜力，同时解决了自动化情感分类的局限性。该研究为AI辅助内容分析提供了理论和实践上的见解，对社交媒体监控、品牌危机管理和影响者互动策略具有启示意义。

引言

内容分析是一种广泛使用的定性数据分析方法，依赖于注释者的手动分类和解释。尽管该方法在捕捉语义细微差别和提供深入的文本分析方面非常有效，但它劳动密集、耗时，并且容易受到主观偏见和情感影响。在分析具有多层情感的文本时，这些挑战尤为明显，导致解释结果的一致性较差[1]、[2]。

随着人工智能的进步，研究人员探索了使用AI技术进行自动化内容分析的潜力[3]、[4]、[5]、[6]。自然语言处理（NLP）实现了文本的自动化处理，促进了情感提取、关键词识别、语义理解和主题分类[7]、[8]，与人工注释相比，在处理大量非结构化数据时显示出巨大潜力[8]、[9]。

然而，尽管NLP技术提高了效率，但在处理隐含语义和多层情感方面仍存在不足。依赖于上下文理解的情感往往无法得到充分捕捉，仅基于关键词的分析可能导致误分类。例如，结合事件背景可以揭示原本被忽略的强烈讽刺意味。因此，改进NLP对上下文细微差别的捕捉能力对于提高分析准确性至关重要[10]。

NLP持续发展，以实现对语言中情感的更精确理解。大型语言模型（LLM），如ChatGPT，在上下文理解和语义识别方面优于传统NLP技术[9]。LLM能够准确检测情感差异，并识别隐含的批评或行动号召。文献表明，LLM在文本分类和情感分析方面表现出色，尤其是在多语言环境中，显著提高了内容分析的准确性和适用性[11]。

将LLM应用于情感分析和文本分类越来越受到学术界的关注[12]。由LLM驱动的自动化内容分析为处理大量基于文本的数据提供了一种可行的方法，尤其是在网络空间中。社交媒体的指数级增长进一步加剧了用户生成内容的复杂性和数量，使得传统的人工内容分析变得不足够。人工注释需要大量资源，且容易受到主观性的影响，从而影响分析的一致性。

近年来，社交媒体影响者（SMIs）在各种平台上成为关键人物，他们通过个性化内容、真实的生活方式记录和直接互动吸引大量观众。他们的影响力扩展到品牌营销、公共关系和倡导活动[13]。与传统名人相比，社交媒体影响者创造的内容更具共鸣性和即时性，因此在塑造消费者态度和购买决策方面非常有效，从而改变了数字营销和品牌沟通策略[14]。

粉丝互动是社交媒体影响者影响力的核心。实时互动，如回复、直播讨论和评论交流，增强了联系感，加强了信任和忠诚度[15]。同时，观众反馈为社交媒体影响者提供了改进内容策略的关键见解，使其符合粉丝期望并巩固了他们在社交媒体上的存在感[16]。然而，社交媒体影响者越来越多地卷入争议中，这些争议在社交媒体上迅速升级。在这种情况下，粉丝会积极参与讨论，表达支持、批评或情感反应，这可能显著影响影响者的声誉和品牌合作。因此，有效管理争议对于维护社交媒体影响者的公众形象和影响力至关重要[13]、[14]。

在情感分类的研究中，情感分析、文本挖掘和主题建模等技术使研究人员能够从这些数据集中提取有意义的见解，从而揭示消费者情感及其对品牌表现的影响。关于社交媒体影响者与粉丝互动的研究仍然有限。特别是，在社交媒体影响者相关争议中，快速准确地识别评论背后的情感和意图的研究存在空白。本研究旨在将LLM与特定场景的分类相结合，开发一个针对影响者相关争议的内容分析框架。它进一步探讨了LLM在这一领域的有效性和局限性。

LLM在内容分析中展示了显著的效率和灵活性。这些模型自动化了关键词提取和语义分析，处理多语言文本，并整合了情感检测和主题分类。通过大幅减少手动分析所需的人工和时间，LLM使研究人员和品牌能够实时了解受众情感。这反过来有助于通过大规模数据处理和识别细微的情感基调来优化营销和沟通策略。随着算法和计算的进步，基于LLM的自动化内容分析预计将继续发展，为社交媒体影响者和品牌提供更深入、灵活和前瞻性的决策支持。

随着社交媒体影响力的扩大，企业和个人品牌管理者越来越重视粉丝的情感和反馈[17]。理解粉丝的情感和反应对于危机管理和形象修复至关重要。能够快速分类评论——区分讽刺性批评和抵制意图——可以帮助影响者和公关团队提供有针对性的回应，并减轻声誉损害。LLM技术为高效处理大规模数据和提升情感分析能力提供了有前景的工具。

本研究分析了社交媒体上的粉丝评论，并比较了人工注释和基于LLM的注释之间的分类一致性。先前的研究表明，在类似的分析任务中，基于LLM的注释与人类的结果具有中等到高的一致性[3]。然而，其在复杂情感分类方面的表现仍需进一步验证。

本研究包括在不同提示条件下的多个实验，以评估LLM的分析能力，例如提供分类定义或关键词。这些实验评估了分类准确性和稳定性，同时测试了模型在各种提示和参数设置下的表现——这是评估其可行性的关键因素[18]。通过这些评估，本研究旨在探索ChatGPT在情感分析中的潜在应用和局限性。

通过实现粉丝评论的快速分类，本研究旨在将分析时间从几周缩短到几小时或几分钟，同时保持高准确性和最小化劳动力成本。传统方法通常需要几周时间进行评论分类和情感分析，而LLM可以在几小时或几分钟内完成这些任务，大大提高了效率。通过整合LLM，本研究提出了一个高效准确的分析框架，以应对大规模社交媒体数据分析的挑战[19]。

此外，本研究建立了一个标准化的分析流程，结合了人工和基于LLM的方法，为粉丝行为、品牌危机管理和社交媒体互动的研究提供了理论基础和方法论支持。未来的研究可以通过探索不同文化背景下的情感分析或结合额外的NLP技术（如情感强度分析）来扩展本研究，以提高分类准确性[20]。

部分摘录

负面在线口碑

负面口碑（NWOM）是指消费者通过社交媒体、论坛或评论平台分享的对公司、品牌或产品的不利意见，以影响其他潜在消费者的态度和购买决策[21]。同样，影响者在社交媒体上也收到许多负面评论[22]。研究发现，负面口碑的驱动因素包括对产品或服务的不满[23]、[24]、以及

方法论

本研究通过比较人工分类和基于LLM的分类，在分析负面口碑案例时，探讨了使用大型语言模型（LLM）进行自动化内容分析的可行性。该研究旨在展示LLM在内容分析中的适用性，并为标准化自动化内容分析程序的发展做出贡献。

数据分析

本研究通过比较人工注释和基于ChatGPT的负面口碑（NWOM）分类，评估了使用LLM进行自动化内容分析的可行性。研究重点在于检测负面评论，并识别其中的讽刺或抵制相关评论，以帮助社交媒体影响者更好地了解受众意见。我们选择了YouTube频道“Xiaowu, the Apprentice Internet Celebrity”作为研究对象。

研究发现

本研究评估了ChatGPT在分类社交媒体注释中的复杂情感文本方面的表现。研究结果表明，ChatGPT在区分负面评论和非负面评论方面表现出较强的召回率，有效识别了大部分正确的类别。然而，其精确度仍低于人工注释，特别是在讽刺等细微情感方面。

实验2显示，提供分类定义显著提高了召回率

CRediT作者贡献声明

杨约兰德（Yolande Yunhsiou Yang）：撰写——审阅与编辑、撰写——初稿、可视化、监督、调查。田洁宇（Chieh-Yu Tien）：撰写——初稿、调查、形式分析。文嘉琪（Jia-Ci Wen）：撰写——初稿、调查、形式分析。王志坚（Chih-Chien Wang）：撰写——审阅与编辑、监督、项目管理、方法论、概念化。周宝琳（Pau-Lin Chou）：可视化、软件开发、调查、数据管理。陈念欣（Nien-Hsin Chen）：验证、调查、形式分析。

利益冲突声明

? 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。

摘要

引言