一种统一的序列推荐框架,该框架结合了门控差分放大注意力机制以及重复-探索意图建模技术

《Neural Networks》:A Unified Framework for Sequential Recommendation with Gated Differential Amplified Attention and Repetition–Exploration Intent Modeling

【字体: 时间:2026年02月13日 来源:Neural Networks 6.3

编辑推荐:

  本文提出GDA-REIM框架,通过门控差分放大注意力机制抑制长序列中的注意力噪声,并采用意图评分分割与边界约束损失区分重复与探索行为,显著提升推荐性能。

  
当前序列推荐领域的发展呈现出两个显著的技术瓶颈:其一,自注意力机制在处理长序列时容易产生噪声干扰,导致模型对关键历史特征的捕捉能力下降;其二,传统Softmax输出层在区分用户重复访问历史物品与探索新物品的意图时存在天然缺陷。针对这两个核心问题,Jinzhao Su等学者提出了一套创新性的解决方案,通过构建Gated Differential Amplified Attention(GDAA)模块与意图建模框架的有机整合,形成了名为GDA-REIM的统一架构体系。

在自注意力机制的设计层面,现有模型普遍存在两个结构性缺陷。首先,注意力权重的分配机制缺乏有效噪声抑制手段,特别是在处理超过50次交互的长序列时,模型容易受到无关历史行为的干扰。实验数据显示,传统Transformer架构在处理包含100+交互历史的用户序列时,约35%的注意力权重被分配给与当前推荐目标无关的物品。其次,模型难以准确捕捉用户意图的动态平衡——当用户既表现出重复访问行为又存在探索需求时,传统方法容易陷入意图混淆的困境。这种双重挑战导致现有模型在NDCG@10指标上普遍存在15%-25%的优化空间。

GDA-REIM的核心创新在于将噪声抑制机制与意图建模策略深度耦合。其技术路径包含三个递进式突破:在注意力机制层面对噪声进行物理消除,通过意图建模框架建立动态平衡机制,最后在联合优化过程中实现两个子任务的协同进化。具体而言,GDAA模块通过"差异化-门控化-放大化"的三阶段处理流程,有效实现了对注意力噪声的精准抑制。实验表明,经过GDAA处理后的序列特征,在Top-10推荐列表中无关物品的干扰率降低至8%以下,同时关键特征的注意力权重提升达40%。

在意图建模方面,GDA-REIM构建了双重作用机制。首先,通过"分区域意图评分"(PIS)模块将历史交互序列划分为局部重复区域和全局探索空间,这种空间分割策略使得模型能够同时处理用户的历史行为模式与当前意图。其次,引入"意图边界强化"(IDM)损失函数,通过设计动态的软边界约束,在训练过程中不断优化重复行为与探索行为的决策阈值。这种机制使得模型在ML-1M数据集上的重复-探索意图分离准确率提升至92.7%,显著高于传统方法的78.4%。

技术实现层面,GDAA模块的创新体现在对传统自注意力机制的改进。通过将查询和键向量分解为"相似性关注组"和"差异性关注组",模型能够生成两套互补的注意力权重分布。实验数据显示,这种双路径注意力机制在处理包含噪声的50次交互序列时,能够将有效信号识别率从68%提升至89%。进一步的门控机制根据注意力差异的显著性动态调整权重,配合自适应增益模块,使长序列建模能力得到质的飞跃。

在实验验证部分,研究团队在三个真实场景数据集上进行了系统性对比测试。在ML-1M数据集上,GDA-REIM模型在NDCG@10指标上达到0.783,较SASRec提升11.2%,较Recbole提升9.7%。特别是在处理超过30次交互的长序列时,性能优势更为显著,Top-10准确率提升幅度达到18.4%。在Amazon-Video-Games数据集上,模型成功平衡了用户对游戏复购与尝试新游戏的意图,使Recall@100指标达到89.3%,较现有最优模型提升6.8个百分点。Twitch平台的数据验证进一步表明,该模型在实时流媒体场景中,能够有效抑制用户观看历史的噪声干扰,使推荐多样性指数提升23.6%。

消融实验揭示了各模块的关键作用:GDAA模块单独使用时可使NDCG@10提升8.2%,但缺乏意图建模的配合时性能增益仅达3.1%;而PIS模块在未集成GDAA时,NDCG@10指标下降7.5%,说明两者存在显著协同效应。特别值得注意的是,IDM损失函数在训练初期即能引导模型建立清晰的意图边界,这种动态优化机制使得模型在冷启动场景下的表现优于传统方法32.7%。

实际应用中发现,GDA-REIM在处理高噪声数据时展现出独特的鲁棒性。例如在电商平台的促销时段数据中,用户行为存在明显的噪声干扰(点击-购买转化率低于正常时段的40%),此时传统模型准确率下降18.3%,而GDA-REIM通过GDAA的噪声抑制机制,仅导致3.1%的性能波动。这种稳定性源于差分注意力机制对异常值的自然过滤能力,以及意图建模框架对噪声的主动规避策略。

在工程实现方面,研究团队提供了完整的开源代码库(https://anonymous.4open.science/r/GDA-REIM/),特别设计了高效的动态内存管理模块,使模型在处理百万级用户数据时内存占用降低42%。针对长序列计算中的性能瓶颈,团队开发了基于分块计算的注意力优化算法,在保持推荐精度的前提下,将计算效率提升至传统方法的1.8倍。这些工程优化使得GDA-REIM在商业级服务器集群上的部署效率达到SASRec的1.5倍,在Twitch实时推荐场景中延迟控制在120ms以内。

该研究的技术贡献具有双重突破价值:在理论层面,首次将差分放大机制引入自注意力计算,建立了噪声抑制与意图建模的数学耦合关系;在实践层面,提出的动态门控机制使模型能够自适应调整噪声抑制强度,在电商、教育、流媒体等不同应用场景中均展现出泛化能力。特别值得关注的是,其训练框架中的双阶段优化策略(先门控后放大,再意图强化)显著提升了模型收敛速度,训练周期缩短约35%。

未来技术演进方向可从三个维度进行拓展:首先,探索多模态数据融合机制,将文本评论、视频观看时长等辅助信号纳入注意力计算;其次,研究动态意图边界迁移学习框架,以应对用户行为模式的周期性变化;最后,开发基于边缘计算的轻量化部署方案,满足实时推荐场景的低延迟需求。这些方向的发展将进一步提升模型在实际商业场景中的适用性。

该研究的技术路线对推荐系统开发具有重要启示:当面对复杂的序列数据时,应当采用"分层过滤-意图建模-动态平衡"的三层架构。其中,第一层通过差分注意力机制过滤噪声,第二层建立意图分离模型,第三层通过联合优化实现系统性能的全面提升。这种结构化设计思路为后续推荐系统的研究提供了可复用的技术框架。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号