《Scientific Reports》:Integrating transformer-based credibility signals into neural collaborative filtering for fake review-aware recommendation
编辑推荐:
在线推荐系统(RS)正面临日益严峻的信任挑战,原因在于欺骗性评论扭曲了用户反馈。尽管推荐系统优化与虚假评论检测各自取得了进展,但将可信度信号直接集成到推荐训练过程中仍有待探索。本研究提出虚假评论感知推荐系统(Fake-Review-Aware Recommen
在线推荐系统(RS)正面临日益严峻的信任挑战,原因在于欺骗性评论扭曲了用户反馈。尽管推荐系统优化与虚假评论检测各自取得了进展,但将可信度信号直接集成到推荐训练过程中仍有待探索。本研究提出虚假评论感知推荐系统(Fake-Review-Aware Recommender System, FRARS),该系统将基于Transformer的欺骗概率嵌入神经矩阵分解(Neural Matrix Factorisation, NeuMF)模型的训练目标中。在多种检测器中,DeBERTa-v3-base表现最优(在YelpCHI上ROC-AUC=0.932,在YelpNYC上ROC-AUC=0.921)。FRARS通过两种机制应用这些概率:硬过滤(Hard Filtering)移除超过欺骗阈值的交互,而软加权(Soft Weighting)则按比例降低不确定交互的影响。研究人员在两个独立的Yelp数据集——YelpCHI(67,395条评论,约49%为欺骗性评论)和YelpNYC(359,052条评论,约10%为欺骗性评论)——上对FRARS进行评估。FRARS-Soft在YelpCHI上将NDCG@10提高了20.9%,在YelpNYC上提高了19.5%,同时在精确率和召回率方面也获得了相应提升;所有基于Transformer的改进均在统计上显著(p<0.001)。检测器质量与推荐增益之间存在显著单调关系(YelpCHI上Spearman ρ=0.964,YelpNYC上ρ=0.929)。这些在不同地区、规模和欺骗水平下的一致结果表明,FRARS为实现更可信的推荐平台提供了一种实用的模块化路径。
## 研究背景与问题
数字市场——尤其是餐饮、食品服务和酒店业——高度依赖在线评论和声誉信号。在这些领域中,评论发挥着认识论资产(epistemic assets)的功能:它们影响顾客的预期、选项比较以及最终选择。然而,评论易于撰写、易于通过语言操纵,且具有较强的经济效应,导致虚假和合成评论迅速增长,引发重大信任问题并扭曲社会认同效应。近期研究表明,生成虚假评论的速度、成本和可扩展性已超越人类或基于规则审核者的检测能力,且欺骗策略正变得日益复杂和多模态。
这一挑战关联了两个此前分离的研究领域:推荐系统与在线信任。由于训练数据日益具有对抗性,推荐系统已不能仅凭准确性或排序质量来评判;若未对可信度进行建模,它们可能放大误导性信号而非真实偏好。该问题在餐饮和酒店等体验型领域尤为严峻,因为消费者福利和市场公平性依赖于可靠的评论信号。尽管协同过滤、神经表征学习和排序技术已取得进展,虚假评论检测也产出了更强大的深度学习和混合模型,但这两类工作鲜有交汇。平台作为统一决策系统运行,评论质量与推荐质量无法被视为独立的流水线,由此产生了一个尚未充分探索的问题:当可信度评分从虚假评论检测器集成到神经协同过滤时,将如何影响推荐系统的排序结果?
为填补这一空白,研究人员提出了虚假评论感知推荐系统(FRARS)。在该方法中,虚假评论缓解成为主要推荐目标的一部分,而非独立的审核步骤。FRARS利用基于Transformer的欺骗概率在NeuMF训练过程中进行干预,这些概率可通过移除被判定为欺骗性的交互(硬排除)或降低其影响(软加权)来应用。该研究的目标并非引入新的推荐系统架构,而是以可控且严格的方式衡量可信度智能如何影响排序性能。
## 核心技术方法
研究人员采用以下关键方法开展研究:首先,使用基于Transformer的语言模型(包括BERT-base、RoBERTa-base和DeBERTa-v3-base等)作为虚假评论检测器,对两个独立的Yelp数据集(YelpCHI和YelpNYC)进行欺骗概率估计;其次,采用神经矩阵分解(NeuMF)作为固定不变的推荐主干架构,该架构结合广义矩阵分解(GMF)路径与多层感知器(MLP)路径;然后,通过两种机制将可信度信号集成至推荐训练:硬过滤机制设定阈值τ=0.7,移除欺骗概率高于该阈值的用户-物品交互;软加权机制则保留所有交互,但按w
u,i = 1 ? p
fake(r
u,i)计算真实性权重,调整各交互在损失函数中的贡献;此外,采用5折交叉拟合程序严格防止检测器与推荐器之间的信息泄露;评估采用留一法(leave-one-out)全排序协议,使用Precision@10、Recall@10、NDCG@10、MAP@10和Hit@10等指标。
## 研究结果
### YelpCHI上的虚假评论检测性能
在芝加哥地区的YelpCHI数据集上,经典TF-IDF模型表现中等(ROC-AUC≈0.84–0.85),而基于Transformer的语言模型取得最优结果,其中DeBERTa-v3-base达到最高性能(ROC-AUC=0.932,PR-AUC=0.722,F
1=0.792)。Transformer模型同时展现出更低的Brier分数,表明其概率估计更为可靠、过度自信程度更低。
### YelpCHI上的基线NeuMF性能与FRARS改进
在无任何可信度信号的基线条件下,NeuMF在YelpCHI上建立性能基准。应用FRARS后,软加权在所有检测器上均一致提升所有top-k性能指标,且改进随检测器质量提升而增强。使用DeBERTa-v3-base时,FRARS-Soft取得:P@10=0.074(提升23.3%)、R@10=0.099(提升19.3%)、NDCG@10=0.110(提升20.9%)、MAP@10=0.066(提升22.2%)、Hit@10=0.421(提升17.9%)。硬过滤也带来性能提升,但幅度小于软加权,原因是过滤降低了交互密度。统计显著性检验(配对Wilcoxon符号秩检验)显示,所有基于Transformer的检测器均达到p<0.001的显著性水平,而经典模型达到p<0.05。
### YelpCHI上的阈值敏感性分析
硬过滤的阈值敏感性分析显示,τ∈{0.3, 0.5, 0.7, 0.9}中,较低阈值移除过多交互损害召回率,τ=0.7在噪声削减与数据保留间达到最佳平衡,该阈值通过在验证集上最大化NDCG@10选取,而非事后在测试集上选择。
### YelpCHI上的检测器质量与下游排序增益关系
研究人员通过计算检测器ROC-AUC与NDCG@10改进值ΔM之间的Spearman秩相关系数,量化了检测器强度与推荐改进的单调关系。对于YelpCHI上的FRARS-Soft,Spearman ρ=0.964,p=0.003;对于FRARS-Hard,ρ=0.929,p=0.007。两者均在p<0.01水平统计显著,确认了检测器质量与推荐改进之间的强单调关联,且软加权展现出高于硬过滤的相关性。
### YelpCHI上的低欺骗 prevalence 鲁棒性
通过将YelpCHI中的欺骗性标签子采样至训练交互的5%、10%和20%,研究人员评估了FRARS在低欺骗prevalence条件下的有效性。结果表明FRARS-Soft在低至10%欺骗prevalence时仍维持统计显著改进,为后续YelpNYC实验(自然欺骗prevalence约10%)建立了下界预期。
### YelpNYC上的并行实验结果
在纽约地区的YelpNYC数据集上,研究人员应用完全相同的实验流程。该数据集规模约大5倍(359,052条评论)、地理区域不同、且欺骗prevalence显著更低(约10%),提供了更接近真实平台条件的测试场景。尽管存在类别不平衡,检测器层级结构与YelpCHI一致,DeBERTa-v3-base再次领先(ROC-AUC=0.921)。FRARS-Soft使用DeBERTa-v3-base取得:P@10=0.063(提升21.2%)、R@10=0.085(提升19.7%)、NDCG@10=0.098(提升19.5%)、MAP@10=0.058(提升23.4%)、Hit@10=0.389(提升17.5%)。硬过滤与软加权之间的差距小于YelpCHI,因低欺骗prevalence导致硬过滤移除的交互比例很小(约8%)。Spearman相关分析在YelpNYC上得到复制:FRARS-Soft的ρ=0.929,p=0.007;FRARS-Hard的ρ=0.893,p=0.012。所有Transformer检测器均达到p<0.001的显著性。
## 讨论与结论
### 讨论
**可信度作为推荐系统中的一等信号**:研究结果证实,推荐系统隐含假设训练数据反映真实偏好,当欺骗性评论违反该假设时,模型质量下降。FRARS通过集成欺骗感知信号,在实施用户-物品嵌入之前衰减不可靠证据,建立了认识论治理层。与TrustSVD和SocialMF等依赖显式社会结构的信任感知协同过滤不同,FRARS从基于自然语言处理的欺骗概率推导信任,且计算欺骗概率仅增加数据准备阶段的一个离线步骤,不提高推荐器的推理成本。
**软加权优于硬过滤的证据**:软加权在两种数据集上均优于硬过滤,具有两方面启示:可信度更适合建模为连续概率而非二元标签;维持交互密度对协同过滤具有战略重要性。三项互补分析解释了这一优势:数据保留方面,硬过滤在YelpCHI上移除约38%训练交互,在YelpNYC上移除约8%,而软加权保留100%交互;嵌入范数分析显示,YelpCHI上硬过滤使用户嵌入平均范数降低12.4%,而软加权仅变化2.1%;梯度衰减机制方面,软加权按w=1?p
fake缩放各交互的梯度贡献,保留部分有用信息,而硬过滤完全消除阈值以上交互的梯度。
**检测器质量作为推荐鲁棒性的影响因素**:检测器强度与下游推荐增益之间的强单调关系在两种数据集上均得到验证(Spearman ρ≥0.89,所有四种条件下),建立了检测器质量作为推荐性能影响因素的因果关系,在虚假评论检测研究与推荐评估之间创建了直接联系。
**阈值敏感性与证据保留**:τ=0.7在两种数据集上均取得最佳NDCG@10,但敏感性差异明显:YelpCHI上激进阈值严重损害召回率,而YelpNYC上阈值效应较缓和。这提示平台须基于特定欺骗prevalence调谐可信度阈值。
**对信息系统研究的贡献**:该研究传递的更广泛信息是,数据可信度与算法设计同等重要,应纳入训练目标而非仅置于独立审核层。FRARS提供模块化、可复现的流水线,量化了可信度信号向排序指标的传播。
### 研究结论
该研究引入FRARS,将基于Transformer的欺骗概率集成至神经矩阵分解推荐器。在规模、地区和欺骗prevalence均不同的两个独立数据集(YelpCHI和YelpNYC)上进行端到端评估,FRARS在软加权和硬过滤下均一致提升top-k性能,NDCG@10在每个数据集上提升约20%。检测器-推荐关联在两种数据集上均强且显著(Spearman ρ=0.964和0.929,p<0.01),证实了检测器质量对推荐鲁棒性的可度量决定性。这些结果的一致性支持了该方法的外部效度。研究表明,增强训练数据的认识论质量无需重大架构重新设计;通过将欺骗风险智能集成至现有协同过滤流水线,即可实现有意义的增益,为寻求提升推荐系统鲁棒性和可信度的平台提供了实用、低摩擦的路径。