《Conservation Biology》:Automating the analysis of public saliency and attitudes toward biodiversity from digital media
编辑推荐:
本文提出了一套创新的自动化分析流程,结合民间分类学(folk taxonomy)与零样本大型语言模型(LLM),从数字新闻(GDELT)和社交媒体(X/Twitter)中高效提取并分析公众对生物多样性的关注度(saliency)与态度。该方法有效解决了物种检索词选择、内容相关性过滤(如使用BART模型进行主题分类)及转载文章识别(基于TF-IDF向量余弦相似度)等关键挑战,并以COVID-19疫情期间对蝙蝠、穿山甲等关键类群的舆论动态为例,揭示了公众话语在音量、情感(采用VADER分析)及主题分布上的时空变化,为大规模监测人与自然关系提供了可扩展的自然语言处理(NLP)解决方案。
引言
测量公众对野生动物的态度为了解人与自然关系提供了关键见解,并有助于监测《全球生物多样性框架》目标的进展。然而,在全球范围内进行此类评估面临挑战。数字新闻和社交媒体记录了丰富的公众话语,但从中提取关于野生动物态度的信息并非易事。检索词的选择因物种日常用名与其学名或正式通用名之间的差异而复杂化,且原始数据常充斥无关内容和转载文章。保护文化组学——通过分析数字数据来检验社会与自然的关系——为理解公众对生物多样性的兴趣提供了有前景的方法。
方法
检索词选择
本研究开发了一种新颖的方法,通过从英语通用名中推导民间分类学来简化日常语言中使用的动物名称识别。该方法涉及四个步骤:识别通用名中的共享结尾、将共享结尾的物种分组、将组组织成层次结构,以及审查层次结构以选择反映公众命名和熟悉度的分组。研究人员从国际自然保护联盟(IUCN)红色名录中获取了5650种哺乳动物物种及其9150个英语通用名,通过识别共享结尾(如“sea lion”)构建候选民间分类群,并利用图论将集合关系表示为无向图进行人工审查,最终为每个民间分类实体编译了一组正面关键词和可选的负面关键词。
新闻和社交媒体信息检索
在线新闻文章从全球事件、语言和语调数据库(GDELT)中收集,使用其DOC API通过关键词搜索获取2019年1月1日至2021年12月31日期间发布的英语文章。社交媒体分析则使用Twitter Academic Access 2.0 API访问X(前身为Twitter)的完整公共推文存档,查询时包含地理定位数据以支持物种媒体描述的地理差异分析。
新闻条目的相关性过滤
为了解决物种通用名在非生物语境(如运动队、公众人物)中使用的问题,本研究开发了一种两阶段相关性过滤器。首先,使用无监督学习方法(潜在狄利克雷分配,LDA)从文章内容中归纳出候选主题集。研究人员从GDELT中查询了2019年使用14个目的哺乳动物物种民间分类学搜索词的新闻文章,随机抽取10,000篇文章,提取包含搜索关键词的句子及其前一句作为上下文,应用LDA指定40个主题,最终得到23个主题。由多名研究人员独立审查并将主题分类为相关或无关。然后,采用零样本文本分类方法,使用Facebook的BART大型语言模型(bart-large-mnli变体)将文章标题分类到这些主题中。如果任何相关主题的得分超过0.5,则标记文章进行全文抓取。评估显示,该过滤器整体精确度为83.6%,召回率为88.2%,F1分数为85.8%。
文章全文抓取
对于被标记为相关的GDELT新闻文章,通过HTTP请求获取其HTML内容,并使用Python库(如trafilatura、newsplease、boilerpy3)提取文章正文。如果原始URL失效,则尝试从互联网档案馆获取快照。
新闻数据后处理
为识别转载文章,使用词频-逆文档频率(TF-IDF)创建文章文本的向量表示,并计算文章向量对之间的余弦相似度。比较两个月内发表的所有文章对,如果余弦相似度超过0.95,则将较晚发表的文章归类为较早文章的转载。此外,通过扫描文章中的正面搜索词来检测实体提及,提取包含提及的句子及前一句,以便进行情感分析等自然语言处理任务。
公众关于物种的话语分析
对每个焦点分类群,按月份和国家汇总提及该分类群的文章数量以分析话语量。使用情感词典模型(Valence Aware Dictionary and sEntiment Reasoner, VADER)分析媒体和公众讨论的情感,为每篇文章生成范围从-1(强烈负面)到1(强烈正面)的情感分数。还生成了合唱地图可视化不同分类群公众话语量的地理分布,使用弦图说明与每个分类群新闻报道相关的主题分布和共现情况,并应用断点分析检验每个焦点分类群随时间推移的平均音量或情感是否存在显著变化。
结果
民间分类学与目标分类群数据
专家指导的手动审查表明,该方法产生了大多有用且可解释的分组,捕捉了广泛的区别和更详细的嵌套模式。例如,“rock wallaby”和“forest wallaby”作为“wallaby”更广泛分组内的不同子集出现。共享名称结尾偶尔会导致不同分类群的混淆,例如,食肉动物中的一个连通组件将几个物种归入民间分类群“sea lion”,但同一组件也将海狮与Panthera leo(lion)和Puma concolor(mountain lion)联系起来,因为它们共享名称结尾“lion”。为避免混合搜索结果,移除了这些边,这直接指导了使用负面关键词(例如,“lion”且不包含“mountain lion”且不包含“sea lion”)以提高搜索特异性。
原始文章数量从“bat”的588,077篇到“long-tongued bat”的311篇不等。大约54%的文章被预测与野生动物无关,其中“bat”(62.6%)、“gorilla”(48.4%)、“elephant”(45.3%)和“vampire bat”(36.4%)由于同音异义、习惯用语和流行文化描绘而产生高比例的无关内容。三分之一被选中进行抓取的全文文章因链接失效而无法访问。这些分类群中41%的文章是转载的,表明通过将分析限制在相关、原创的文章上可以显著提高计算效率。最终,具有广泛吸引力的分类群(如大象、大猩猩)比知名度较低的分类群(如穿山甲)拥有更多的野生动物新闻文章,通用分类群比特定分类群拥有更多的文章。
在社交媒体上,从2019年到2022年,公众关于不同分类群的帖子数量从几百到近30万条不等。
话语的地理差异
全球公认的动物(如大猩猩)在网上受到广泛关注,而知名度较低的分类群(如穿山甲和伏翼蝠)的报道则更加地理集中。穿山甲主要出现在东南亚的报道中,而伏翼蝠尽管在不列颠群岛普遍存在并在亚洲广泛分布,但在英国以外吸引的媒体关注较少。因此,媒体对不同动物分类群的曝光度因地理而异,可能影响公众的认知度和熟悉度。
除了总体覆盖量的差异,情感在不同国家和平台间也存在差异。在新闻和Twitter上最常提及穿山甲的国家中,新加坡关于穿山甲的新闻覆盖量比加纳多,且这些文章的平均情感在新加坡比在加纳更积极(0.09 对比 -0.12)。在Twitter上,加纳关于穿山甲的推文量更高,但平均情感得分(0.13)低于新加坡数量较少但更积极的推文集(0.33)。在加纳,话语倾向于关注偷猎和非法贸易,而在新加坡,报道包括非法贸易,但也强调穿山甲目击事件、法律保护和公众参与。这些对比说明了同一分类群如何根据区域保护动态嵌入不同的叙事背景中。
与不同分类群相关的主题
通过BART模型预测的主题共现显示,主题分布在不同分类群间存在差异。有些分类群主要出现在狭窄的主题背景中,而其他分类群则与更广泛、相互关联的主题范围相关。
比较已知为SARS-CoV储存宿主的菊头蝠与非冠状病毒储存宿主的长舌蝠,这两类物种的主题分布和共现情况截然不同。长舌蝠的新闻覆盖更多集中于自然类主题,如保护或野生动物。此外,自然或保护威胁主题(如自然、野生动物、气候变化、栖息地丧失等)倾向于在同一篇文章中共现。相比之下,菊头蝠的媒体覆盖显示出相对更多关于保护威胁(如栖息地丧失、自然灾害、气候变化)和社会经济问题(如商业、健康、教育)的讨论。与长舌蝠相比,健康和食品是菊头蝠更普遍的主题。然而,对于这两种蝙蝠,弦图表明在单个文章水平上是广泛分布的主题关联,而非少数主导主题或强烈重复出现的主题对。
分类群关注度随时间的变化
提及不同分类群的新闻文章和推文数量的变化在总体趋势、时间和幅度上显示出明显对比。被指认为冠状病毒宿主或潜在溢出宿主的分类群(穿山甲或菊头蝠)的关注度与未明显与COVID-19相关的保护关注物种(如大象)的关注度不同。断点分析表明,提及菊头蝠的新闻媒体文章数量在2020年1月10日出现显著变化,此前平均每两周3篇文章,之后跃升至平均每两周20篇文章。对于穿山甲或大象的新闻文章量或推文量,或菊头蝠的推文量,未发现其他显著断点。然而,在世界穿山甲日前后,所有三年数据集中穿山甲相关文章和推文量均出现一致的年度增长。对于大象,在2020年6月初发现与大象死亡事件相关的Twitter活动激增,但新闻中没有相应的增长。对于完整的焦点分类群集,在2019年11月至2020年9月期间,发现了狐蝠、大猩猩和鼠耳蝠新闻媒体报道的额外断点,尽管与菊头蝠不同,这些断点与平均文章量无变化或减少相关。未发现任何分类群的推文量存在显著断点。
关于分类群的话语随时间的变化
监测显示,不同分类群的平均情感得分存在差异。在所考察的这三个分类群中,穿山甲在新闻中的平均情感得分最低(平均为-0.01),而菊头蝠在Twitter上的得分最高(平均为0.28)。在这三个分类群中,穿山甲在新闻中的平均情感得分最低,但在Twitter上情感得分较高(0.14),大象的平均情感为0.12(新闻)或0.13(Twitter),菊头蝠在各处的平均情感最高(新闻中为0.18,Twitter上为0.28)。
在所有检查的分类群中,只有菊头蝠在情感得分上存在显著断点。菊头蝠话语在2020年10月6日显示出新闻媒体报道和Twitter帖子情感的转变。菊头蝠报道的平均情感在新闻媒体中保持不变(0.2)。然而,Twitter上菊头蝠的情感从平均0.2变为0.4(即随时间变得更加积极)。
讨论
本方法学使从业者和研究人员能够在全球范围内监测公众对生物多样性的看法,并可进行地理或时间上的细分。该方法基于最近几项利用自然语言处理和机器学习方法处理和分析与生物多样性相关的大量非结构化文本数据的进展。本研究通过同时从新闻媒体和社交媒体抓取数据、创建民间分类学以扩大数据样本、使用尖端大型语言模型以高效、高性能和可复制的方式过滤数据,以及在原始新闻文章链接无法访问时使用互联网档案馆作为备用来源,扩展了这些工作。
本研究的一个进展是使用字符串算法和图论生成民间分类学,可作为基于关键词搜索的实用基础。为物种选择搜索词并非易事。科学名或完整通用名提供了特异性,但常常遗漏公众对分类群的更广泛引用,尤其是在非正式或非科学背景下。反之,提出更广泛的搜索词来捕获相似物种群是主观的,并且由于需要预先决定组边界而难以大规模进行。研究表明,通过基于通用名结尾自动生成候选分类分组可以简化这一过程,允许专家概念性地审查哪些组保留、拆分或合并,并使基于名称关系的完整结构可见。这种搜索策略能够更广泛地检索提及分类群的在线内容。研究发现,文化上更突出的分类群(如大象)和更通用的分类群(如蝙蝠)往往在新闻和社交媒体平台上显示出更高的内容量和更广泛的地理覆盖。同时,这种方法引入了多义性,因为共享的分类群名称可能出现在隐喻、象征或其他非生物语境中。这一挑战对于非常通用的分类群或熟悉的分类群尤其严重,需要可扩展的相关性过滤方法。
通用或文化上突出的分类群名称在非生物语境中的使用对大规模分析生物多样性话语构成了反复出现的挑战。在通用网络内容上训练的大型语言模型为解决此类问题带来了新的可能性,特别是通过零样本方法应用这些尖端模型而无需特定任务的训练。这消除了训练模型所需标记数据的需求,使得这些方法能够以相对有限的努力应用,使其非常适合模型开发资源有限的环境。在本案例中,尽管精确度因分类群而异,但召回率始终保持较高水平,并且该方法显著减少了无关内容。例如,研究发现高达62%提及蝙蝠的文章是无关的,这凸显了有效的分类群相关性过滤的重要性。通过监督相关性分类器(可能借助LDA主题输出在语义空间中进行采样)可以提高精确度。在全文抓取后,第二阶段分类器可以确定分类群名称的每次出现是否在生物意义上使用,即使在包含混合用法的文章中也是如此。这些增强将支持更细粒度的决策,但会降低灵活性并增加标注工作量。
基于本方法生成的数据,不同分类群在新闻媒体文章中的主题分布以及它们在新闻媒体或Twitter上的音量和情感随时间的变化方面存在差异。观察到在COVID-19爆发初期,菊头蝠的新闻报道急剧增加,与案例研究中的其他蝙蝠分类群形成对比,后者未表现出显著的音量变化。提及菊头蝠的文章和推文的情感得分总体积极,但在大流行早期下降,随后在2020年底再次上升,此时在新闻和Twitter话语中观察到一个显著的断点。尽管大流行提供了一个说明性案例,但本方法旨在更广泛的应用。它可以应用于其他重大事件,包括保护运动、政策公告和全球生物多样性峰会,以调查公众话语在这些时刻如何转变。这包括检查公众注意力是否由这些事件引发,或者它们是否在已经由日益增长的公众关注所塑造的背景下出现。这些见解有助于评估公众参与倡议的影响,并随着时间的推移,为设计更成功的活动提供信息。报道量的变化,甚至围绕分类群的主题焦点缩小,可能标志着社会性灭绝的早期阶段,不仅因为物种从公众注意力中消退,而且围绕它们的叙事收缩到有限的框架。通过自动分析覆盖量和情感来跟踪此类模式,为更广泛地监测公众对生物多样性的兴趣提供了一种可扩展、标准化的方法。
本方法可以作为一个自动化自然追踪器的基础,帮助从业者和研究人员大规模跟踪公众对生物多样性的看法。监测人类与自然的看法对于评估实现《全球生物多样性框架》目标的进展至关重要,特别是那些与人兽冲突和可持续利用相关的目标。通过从新闻和社交媒体抓取和处理数据,该系统可以提供全球性、成本效益高、近实时的洞察。为了使该方法适应持续监测,对数据源(如GDELT)的定时查询(例如,每天或每小时)可以直接输入现有流程,从而实现连续分析而无需重大结构更改。因此,数字方法为评估《全球生物多样性框架》的合规性开辟了新途径,这一点尤其紧迫,因为即使到2024年,这些目标中的大多数在评估机制方面仍存在显著差距。如果没有在相当长时期内进行有效跟踪,保护目标可能变得在政治上无关紧要,因为无法评估不同国家取得的进展(或缺乏进展)。
研究确定了未来探索和增强本方法的几个关键领域。一个主要方面涉及解决本方法的语言范围问题,目前仅集中于英语数据。将范围扩大到包括在生物多样性巨大多国家使用的其他语言,如西班牙语、中文、葡萄牙语或印尼语,将至关重要。此外,保护社会科学监测必须适应平台治理和数据可访问性的动态变化。Twitter所有权和管理的最新转变强调了这一需求的紧迫性。这些转变恰逢有关气候变化和COVID-19大流行背景下野生动物错误信息的扩散,以及活跃用户(特别是关注环境的用户)的显著减少,这两者都对基于在线数据的监测方法构成了日益严峻的挑战。作为理解这些动态如何塑造关于物种和保护的公众话语的一步,未来的工作可以整合检测错误信息的自然语言处理方法——例如基于检索的事实核查——并识别有偏见的语言,包括情感框架或模糊表述。
总体而言,本研究强调了将机器学习与不同数据平台的自动跟踪相结合以监测公众对生物多样性看法的潜在益处。预计像本方法或基于本方法构建的方法可以通过创建在全球尺度上检验人类与自然看法的新方式来增强应用保护。