整合NIP与MLM:基于元学习的统一序列推荐新框架MetaSR

《ACM Transactions on Knowledge Discovery from Data》:Bridging NIP and MLM: A Unified Meta-Learning Framework for Sequential Recommendation

【字体: 时间:2026年02月16日 来源:ACM Transactions on Knowledge Discovery from Data

编辑推荐:

  本文推荐一篇关于序列推荐系统(SRS)的前沿研究,其核心贡献在于提出了MetaSR框架。该工作创新性地将单向的下一个物品预测(NIP)与双向的掩码语言建模(MLM)两大主流范式,通过元学习(Meta-Learning)统一起来。框架通过内循环(支持集)利用MLM动态捕捉用户个性化行为模式,在外循环(查询集)采用NIP直接对齐推荐目标,并引入基于强化学习(RL)的自适应掩码序列选择(AMSS)机制以提升效率。实验表明,MetaSR在多个公开基准数据集上显著优于现有模型,为提升个性化序列推荐的准确性与适应性提供了系统性的解决方案。

  
在信息过载的时代,推荐系统已成为不可或缺的工具,其中序列推荐系统(SRSs)通过分析用户历史交互序列来预测其下一个可能感兴趣的物品,近年来备受研究者关注。当前序列建模存在两大关键范式:单向的下一个物品预测(NIP)和双向的掩码语言建模(MLM)。NIP擅长学习用户历史中的长期依赖和全局模式,但其单向编码仅利用了先验信息,且依赖严格的序列顺序假设,限制了对现实中动态、非严格行为模式的适应能力,从而制约了其捕捉细致动态偏好变化和进行个性化推荐的能力。另一方面,MLM通过利用双向上下文信息生成用户特定的掩码序列来捕捉个性化行为,能快速适应用户偏好的动态变化并探索细微模式,但其训练目标与个性化序列推荐任务的目标存在错位。
为了整合这两种范式的优势,研究者提出了MetaSR框架。该框架在统一的元学习过程中,创造性地将NIP与MLM相结合。具体而言,其将MLM任务(掩码预测)作为元学习的内循环任务(即支持集),通过动态调整掩码项来生成匹配个体行为模式的序列,从而捕捉个性化的用户偏好。在外循环(即查询集)中,则采用NIP范式直接训练MetaSR朝向序列推荐目标。这种联合训练方式弥合了MLM与序列推荐任务之间的鸿沟,同时也克服了NIP在捕捉动态个性化偏好方面的局限性。
MetaSR的核心架构包括三个主要部分。首先,其推荐主干网络与BERT4Rec类似,由嵌入层、Transformer编码器和掩码物品预测层构成。其次,框架引入了基于强化学习(RL)的自适应掩码序列选择(AMSS)机制。该机制旨在解决传统元学习方法因均匀采样任务而可能选择与用户当前兴趣错位的低效训练问题。AMSS会从用户交互历史生成的多个随机掩码序列候选池中,自动选择最能匹配用户行为模式、对下游NIP目标改善最大的序列,来构建个性化的支持集,从而加速元学习过程并实现更好的个性化。
MetaSR的训练过程遵循典型的双层元学习优化。在每一次元训练迭代中,对于给定用户,首先通过BERT风格的随机掩码生成K个候选支持序列。AMSS策略根据当前元模型状态和用户嵌入,输出一个概率分布,据此采样M个序列构成个性化的支持集。然后,元模型参数被复制到基础模型,基础模型在这个支持集上进行内循环适应(通过梯度下降),学习用户特定的兴趣。适应后的模型随后在查询集(一个仅掩码了序列最后一项的NIP任务)上进行评估,计算外循环损失。该损失用于通过梯度下降更新元模型的参数,此过程即外循环优化。与此同时,AMSS策略自身也通过REINFORCE算法进行优化,其奖励信号定义为内循环适应前后,模型在NIP查询集上损失的减少量,以此鼓励策略选择能带来更大下游性能提升的支持序列。
该研究在Beauty、Toys、ML-1M和ML-20M四个公开基准数据集上进行了广泛的实验验证。结果表明,MetaSR在Hit Rate(HR)和Normalized Discounted Cumulative Gain(NDCG)等指标上均显著优于包括SASRec、BERT4Rec、CL4SRec在内的现有先进序列推荐模型。消融研究进一步证实了元学习框架、以及AMSS机制各自对模型性能提升的重要贡献。此外,研究还展示了MetaSR在冷启动场景下的有效性,其能够较好地处理仅有短序列的新用户或物品的推荐问题。研究也通过案例分析了MetaSR在捕捉用户动态偏好、实现高度个性化推荐方面的优势。
综上所述,MetaSR通过元学习框架无缝整合了NIP的目标导向预测能力和MLM的细粒度个性化捕捉能力,并辅以智能化的任务选择机制,为序列推荐领域提供了一种高效、灵活且性能优越的解决方案。其代码和数据集已公开,可供进一步研究和应用。
i on MLM support sequences selected by AMSS, and the outer loop updates the meta-model θ0using the loss on the NIP query sequence. (b) AMSS policy learning (dashed green arrows): The AMSS ψ is optimized via RL. The reward is computed based on the improvement in NIP query performance, guiding future task selection to enhance personalization and efficiency.">
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号