《International Journal of Human-Computer Studies》:Critical reflections on user studies’ evaluation methods for group recommender systems
编辑推荐:
本文针对群组推荐系统(GRS)评估中外部评估与真实用户感知存在差异的问题,提出了一种创新的内部评估者方法。研究者通过构建包含参与者自身偏好的受控但真实的虚构群组场景,对六种基于社会选择的聚合策略(如ADD、FAI、MAJ等)及其解释效果进行了大规模随机对照试验(n=444)。研究揭示了聚合策略的有效性高度依赖于群组成员偏好内部多样性的特定“群组配置”,并发现解释的提供并未显著提升用户对策略的理解。该方法为在避免高昂真实群组招募成本的前提下,进行更生态有效的GRS评估提供了新范式,对多利益相关者推荐系统研究也具有重要启示。
和朋友一起决定今晚去哪家餐厅吃饭,是日常生活中常见的场景。然而,要让一个口味各异的群体都对最终选择感到满意,并非易事。群组推荐系统(Group Recommender Systems, GRS)应运而生,旨在通过聚合群体成员的个体偏好,为整个群体生成推荐,以支持群体决策过程。当前,最主流的方法依赖于基于社会选择理论(Social Choice Theory)的聚合策略(Aggregation Strategies),例如将成员的评分相加(Additive Utilitarian, ADD),或选择让最少成员反感的项目(Least Misery, LMS)等。
尽管这些策略在理论上被广泛研究,但如何在实际应用中对它们进行有效且可靠的评估,始终是领域内的一大挑战。传统的评估方法主要面临两大困境:一是招募真实的群体进行实验,成本高昂、样本量小,且难以控制群体的内部特征(如成员偏好的相似度);二是让单个参与者作为“外部评估者”,去评判一个与自己无关的虚构群体的推荐结果,这种方法虽然可控性强,但其结果的生态效度(Ecological Validity)和可靠性常受质疑,因为真实的群体成员在接收推荐时的感知可能与外部评判者截然不同。此外,以往的评估大多只关注推荐结果的好坏,而未能深入探究用户是否真正理解了推荐背后所采用的聚合策略逻辑,而这在可解释人工智能(Explainable AI, XAI)日益受到重视的今天显得尤为重要。
为了突破这些方法论上的局限,来自马斯特里赫特大学(Maastricht University)的Francesco Barile等研究人员在《International Journal of Human-Computer Studies》上发表了一项研究。他们设计并实施了一项预注册的大规模随机对照试验(n=444),引入了一种创新的“内部评估者”方法论。该方法的精髓在于,为每位研究参与者量身定制一个包含其本人在内的、具有特定偏好分布的真实感虚构群组场景。具体而言,研究首先会请参与者提供其真实好友的姓名(分为“通常意见一致”和“通常意见相左”两类)以及他们自己对一系列餐馆的评分。然后,研究者利用预先定义好的几种典型“群组配置”(例如,成员偏好高度一致的“均匀型”、偏好分歧巨大的“分歧型”、存在少数派与多数派对立的“少数派型”等),将参与者的真实偏好数据映射到这些受控的配置中,从而生成六个既真实(对参与者而言)又可控(对研究者而言)的评估场景。这使得参与者能够以“内部成员”的身份,切身感受和评估系统为其所在“群体”生成的推荐。
研究采用混合实验设计,包含两个组间因素——所使用的聚合策略(六种:ADD, APP, FAI, LMS, MAJ, MPL)和呈现的解释类型(两种:有解释 vs. 无解释),以及一个组内因素——群组配置(六种)。研究人员测量了参与者对推荐结果的群体公平性感知、群体共识感知、满意度,以及从参与者个人角度出发的个体公平性感知、个体共识感知和个体满意度。更重要的是,研究还设置了一项任务来客观评估参与者对所用聚合策略的“理解度”,即要求他们在接受一系列示例“训练”后,对一个新场景应用所学策略进行预测。
关键技术与方法
本研究的关键技术方法在于构建受控内部评估场景的流程:1) 偏好获取:收集参与者真实社交圈信息及项目偏好,作为构建个性化群组的基础。2) 场景映射:将参与者偏好映射到预设的抽象群组配置(如Uniform, Divergent, Minority等),生成包含参与者及其真实社交关系的具体推荐场景。3) 实验设计:采用多因素混合设计,通过在线平台(Prolific)招募参与者,随机分配至不同策略和解释条件,依次评估不同群组配置下的推荐。4) 理解度测评:通过“模拟模型行为”任务,要求参与者根据所学策略预测新群组的推荐结果,客观衡量其理解程度。研究所用样本队列来源于在线众包平台。
研究结果
不同聚合策略的有效性高度依赖于群组配置
研究结果清晰地表明,没有任何一种聚合策略在所有情况下都是最优的。策略的有效性(体现在公平性、共识感知和满意度上)与特定的群组配置存在显著的交互作用。例如,在偏好高度一致的“均匀型”群组中,“最愉悦策略”(MPL)和“公平策略”(FAI)表现最佳;而在存在明显同盟的“同盟型”群组中,“多数投票策略”(MAJ)和FAI则更受青睐。对于偏好差异巨大的“分歧型”群组,“加性功利策略”(ADD)似乎是一个不错的折衷方案。最有趣的发现出现在“少数派型”群组中:当参与者自身处于少数派位置时,尽管MPL策略推荐的是最符合其个人偏好的项目(这使其个体满意度很高),但他们能清醒地认识到这个选择对群体整体而言是不公平的,因此在对群体层面的公平性和共识评价中,MPL的得分很低。这凸显了内部评估与外部评估可能存在的差异,也证明了参与者能够区分“对个人有利”和“对群体有利”。
解释并未显著提升用户理解
一个有些出乎意料的发现是,为推荐提供基于社会选择策略的文本解释,并未能显著提高参与者对策略的理解程度。无论是否有解释,参与者正确预测系统推荐的能力主要取决于策略本身的复杂程度。例如,相对直观的MAJ策略,其理解度显著高于更为复杂的FAI和APP策略。解释的有无在主效应上以及与其他因素的交互效应上均未显示出统计学显著性。这表明,当前研究中采用的这类相对简单的解释,可能不足以帮助用户内化复杂的聚合逻辑。
研究结论与意义
该项研究通过引入创新的“内部评估者”方法论,成功地在大规模受控实验中验证了群组推荐系统中聚合策略的有效性并非一成不变,而是深刻依赖于群组成员偏好的内部结构。这一发现强调了未来群组推荐系统需要具备适应性,能够根据检测到的群组特征动态选择最合适的聚合策略。同时,研究也指出,当前常用的简单解释形式在促进用户理解方面效果有限,这为未来设计更有效、可能是个性化或交互式的解释机制指明了方向。
在更广泛的层面上,这项研究的意义超越了群组推荐系统本身。它所提出的方法论——通过精心设计将个体参与者嵌入受控的、真实的多方决策场景中——为评估其他类型的多利益相关者推荐系统(Multi-stakeholder Recommender Systems)提供了宝贵的范本。在这类系统中,平台、用户、提供商等不同利益相关者的目标和偏好同样存在差异甚至冲突。该研究方法使得在实验室环境中,以较低成本、大规模地模拟和评估这些复杂动态并确保生态效度成为可能。因此,这项工作不仅深化了我们对群组推荐动态的理解,也为整个人工智能辅助的群体决策研究领域提供了重要的方法论进步。