《People and Nature》:Environmental and socio-economic factors behind data provision in 17 citizen science projects
编辑推荐:
近年来,生态学领域的公民科学(Citizen Science)方法日益普及。尽管该方法具备低成本收集海量数据等优势,但多数项目仍面临非随机采样、伪缺失及各类偏差(如探测偏差、报告偏差或参与者相关偏差)的挑战。为解析导致数据非随机提交的环境与社会经济潜在驱动因素
近年来,生态学领域的公民科学(Citizen Science)方法日益普及。尽管该方法具备低成本收集海量数据等优势,但多数项目仍面临非随机采样、伪缺失及各类偏差(如探测偏差、报告偏差或参与者相关偏差)的挑战。为解析导致数据非随机提交的环境与社会经济潜在驱动因素,研究人员分析了匈牙利17个独立生态与保护类公民科学项目的可地理定位记录级数据库,并将记录与独立的行政数据集匹配,以识别塑造参与者活跃度的环境与经济社会预测因子——该活跃度因项目目标、主题及其他特征差异显著。尽管项目间存在差异,研究人员仍识别出将特定市镇人口密度与保护区占比同参与者活跃度关联的一般模式,两个变量均与观测数量显著相关。若将城市化程度最高、人口最密集的首都排除在分析外,受教育程度与老年人口比例均同单个项目接收的观测数呈正相关;然而,人群社会经济地位(SES)与参与者活跃度的关系在不同公民科学项目中差异极大。研究结果强调,公民科学参与度同时受环境背景与社会经济特征塑造,导致数据提交存在系统性空间偏差,为未来公民科学项目的设计与现有数据分析提供了新的方法论启示。
研究背景与意义
公民科学(Citizen Science)作为生态学和保护生物学的重要数据获取手段,近年在全球范围内快速发展。这类方法通过志愿者参与,能以极低成本覆盖广阔地理范围,弥补传统科研中人力与预算的限制,甚至帮助发现未被记录的生物入侵事件。然而,其产生的数据普遍存在机会性、仅含存在记录的特点,导致严重的空间与时间异质性——这种采样偏差会使物种分布模型(SDMs)的估计结果偏离真实情况,尤其当研究目标为稀有物种或广布类群时,偏差的来源更难区分是物种真实分布还是参与者行为导致。现有研究已表明,公民科学的参与者群体并不具备社会代表性,往往偏向更高教育水平、更高社会经济地位(Socio-Economic Status, SES)、年龄更大的群体,但这种个体层面的偏差如何转化为区域层面的数据提交模式,此前缺乏大尺度的实证证据。本研究首次联合匈牙利17个生态与保护类公民科学项目,通过匹配行政统计数据,系统揭示环境与社会经济因素对数据提交的驱动作用,为理解公民科学数据的系统性偏差提供了国家尺度的证据。该研究发表于Wiley旗下的交叉学科期刊《People and Nature》。
关键技术方法
研究人员整合了17个项目的超30万条记录,覆盖匈牙利全部197个市镇(Járás,行政区划单位)。首先按参与者观测来源的地理特征,将项目分为两类:HOME类(观测主要来自参与者居住地)和MIXED类(观测同时来自居住地与其他区域)。随后构建了市镇级数据集,以每千人观测数为因变量,选取6个行政指标作为预测因子:平均税基(收入代理)、7岁以上人口大学学历占比(教育代理)、65岁以上老年人口占比、14岁以下儿童占比、人口密度(人/km2)和保护区占市镇面积比例(合并国家公园与Natura 2000区域)。采用元分析方法,分别计算每个项目内预测因子与观测数的皮尔逊相关系数,再汇总得到项目组和整体水平的效应量。为避免首都布达佩斯的特殊影响,所有分析均重复运行包含与不包含首都的样本。
研究结果
社会经济地位(SES)
教育和收入作为SES的代理指标,未显示全国层面的统一关联。不同项目的结果差异极大:部分项目(如MosquitoMonitor、入侵蜗牛监测)呈显著正相关,少数项目(如BeaverMap)呈显著负相关。排除首都后,教育水平的整体效应量达到显著的小效应水平,但仍存在高度异质性。
年龄结构
老年人口比例在多个项目中与观测数呈正相关(如HOME类的MosquitoMonitor,MIXED类的WildWatcher、入侵蜗牛监测等),但整体效应量仅在排除首都后达到显著,且为极小的效应。儿童比例则在两个HOME类项目(MyPond、Spider-Web)中呈正相关,这两个项目均要求参与者拥有私家花园。
人口密度
整体层面人口密度与观测数呈极小的显著负相关,但该效应完全由MIXED类项目中首都区域的低人均贡献驱动。排除首都后,该关联不再显著,仅个别项目呈现特异性关联:MosquitoMonitor在城市化区域表现更好,西班牙蛞蝓监测则更多来自农业区。
保护区占比
这是最稳健的关联:无论HOME还是MIXED类项目,保护区占比均与观测数呈显著正相关,多个项目(如Tickwatcher、iNaturalist、eBird等)均支持这一模式。排除首都后,MIXED类的效应量达到中等水平,是所有预测因子中最稳定的环境驱动因素。
预测因子相关性
教育、收入、老年人口比例、儿童比例、人口密度和保护区占比之间存在不同程度的共线性,其中教育与收入、老年与儿童比例的共线性最强,但未因此剔除任何变量,而是在解释结果时加以考虑。
讨论与结论
讨论部分指出,研究验证了保护区占比对公民科学参与的普遍促进作用,支持了“自然环境越丰富,观测机会越多”的预期。人口密度的负向关联反映了首都的人均贡献远低于其他地区,而老年人口比例的正向关联可能与该群体有更多闲暇时间或对自然保护更关注有关,但也无法排除是人口老龄化地区本身物种更丰富的混淆效应。SES未显示统一模式,说明其影响高度依赖项目的具体情境——例如面向城市环境的项目可能吸引更高SES的参与者,而面向农村生境的项目则可能相反。研究进一步强调了公民科学中包容性的重要性:若低收入群体持续缺席,不仅会导致数据偏差,还会让这些社区无法从科学参与中获益,进而加剧社会不平等。
结论部分明确,公民科学数据提交受环境与社会经济因素共同驱动,不存在适用于所有项目的通用影响因素。每个项目都呈现出独特的因子关联模式,因此在推断采样偏差时需谨慎对待项目特异性。不过,保护区占比的正向关联和人口密度的负向关联是跨项目的稳定趋势。研究人员建议,未来设计公民科学项目时应预先评估数据提交的可能偏差,并在分析中纳入环境变量作为控制因子,或通过平衡子抽样、补充伪缺失记录等方法降低偏差的影响。所有原始记录因隐私限制未公开,但元分析所用汇总数据集已在匈牙利研究数据仓库公开。