在数字时代,酒店推荐系统已成为通过提供符合个人偏好的个性化选项来提升客户满意度的关键工具。这些系统在酒店和旅游业中日益重要,因为由于预订周期缩短、价格敏感度增加、对特定地点设施的偏好变化以及移动平台在最后一刻预订中的广泛使用,客户的期望和预订行为不断演变(Remountakis, Kotis, Kourtzis, & Tsekouras, 2023)。通过采用先进技术,这些推荐系统旨在简化决策过程、提升客人体验并优化服务效率。智能平台如聊天机器人、物联网(IoT)和智能移动应用程序(MobApps)现在促进了客人与酒店之间的实时、定制化互动,改变了住宿体验(Monti, Rizzo, & Morisio, 2021)。传统的酒店推荐方法主要基于静态数据库或手动推荐,往往无法满足现代旅行者的复杂需求。这些方法通常依赖简单过滤器或关键词搜索,导致结果过于泛化,可能忽略用户的特定偏好(Zhang & Niu, 2024)。此外,传统方法无法动态适应房间可用性、季节性需求或用户反馈等实时因素,导致个性化能力有限(Li, Shi, Shi, Cai, & Dong, 2023)。随着旅行者越来越寻求符合其独特偏好的定制化建议,这些方法在响应性和准确性方面显示出显著局限。
机器学习(ML)方法引入了自动化推荐功能,利用历史用户行为数据来提高准确性。协同过滤、基于内容的过滤和混合方法已被广泛采用,以推荐符合用户偏好的酒店(Dursun-Cengizci & Caber, 2025)。然而,基于ML的推荐系统面临数据稀疏、冷启动问题和适应用户需求变化能力有限的限制。例如,新用户或数据不足的酒店可能会收到次优推荐,而偏好不断变化的用户可能无法得到静态ML模型的充分服务(Shin, Joung, & Lim, 2024)。深度学习(DL)技术,特别是神经网络,通过捕捉用户数据中的复杂非线性关系进一步提升了酒店推荐系统(Chen, Huang, Xiao, Zhang, & Zhao, 2024)。卷积神经网络和循环神经网络等在通过建模用户偏好和行为的复杂模式方面显示出潜力。尽管有这些进步,DL模型通常需要大量标记数据进行训练,并且计算成本较高(Halder, Lim, Chan, & Zhang, 2024)。此外,它们往往缺乏透明度,使得解释推荐依据变得困难,这可能影响用户信任。然而,现有ML/DL方法存在一个根本性缺陷:它们依赖于静态的一次性学习,无法持续适应用户互动或实时上下文变化。此外,它们将推荐任务视为从用户偏好到酒店列表的单向映射,未能模拟决策的顺序性和交互性。
为了解决这些挑战,强化学习(RL)方法越来越多地被用于酒店推荐任务。RL框架通过与环境的持续互动学习最优策略,从而能够动态适应用户偏好的变化和上下文约束。例如Soft Actor-Critic(SAC)技术在连续动作空间中表现出色,通过熵正则化优化随机策略,鼓励探索同时减少过拟合(Jai Arul Jose & AlAjmi, 2024)。然而,基于SAC的方法在复杂的多智能体环境中常常遇到困难,因为多个智能体之间的互动共同影响推荐结果。在这种情况下,责任分配问题决定了每个智能体对共享奖励的贡献,这在智能体同时学习时成为一个主要限制。
Actor-Critic策略梯度算法也被用于通过联合学习动作选择的策略网络和估计长期奖励的价值网络来增强推荐系统的适应性和基于奖励的决策,从而减少策略更新的方差并提高学习稳定性。尽管有这些优势,大多数Actor-Critic方法主要是为单智能体环境设计的,并未明确处理非平稳性或智能体间的依赖性,这限制了它们在复杂多智能体场景中的有效性。因此,传统的Actor-Critic方法往往无法完全捕捉个性化酒店推荐环境的动态性,其中多个智能体、上下文因素和用户互动需要实时协调。
强化学习方法因通过试错学习最优策略而受到关注,有望改善酒店推荐。尽管在游戏和机器人技术等领域取得了有希望的结果,但基于RL的推荐系统面临收敛缓慢和高计算需求等挑战(Mubarak & Baizal, 2023)。此外,传统的RL方法可能无法有效处理受实时上下文因素影响的动态和相互依赖的用户偏好。现有酒店推荐模型——无论是传统的、基于ML的、基于DL的还是传统的RL——都存在无法有效模拟多智能体环境、解决用户间责任分配、结合因果推理以及动态适应实时条件(如可用性、流量或偏好漂移)的问题。这些缺点限制了个性化、协调性和在复杂推荐场景中的响应性。为了克服这些挑战,本研究提出了一种创新方法,将多智能体Actor-Critic策略梯度、因果感知强化学习(CARL)和多智能体深度确定性策略梯度(MADDPG)算法整合到酒店推荐系统中。通过利用反事实多智能体策略梯度(COMA)方法,该系统解决了责任分配问题,使智能体能够评估其对整体奖励的贡献,并根据协作反馈改进推荐。结合因果感知技术确保推荐反映了酒店属性对用户偏好的真实影响,减少了偏见并提高了相关性。最后,MADDPG通过深度强化学习实现了实时、自适应的推荐,有效平衡了智能体之间的个体和协作互动。本研究的主要贡献包括:
•本研究利用反事实多智能体策略梯度(COMA)解决责任分配问题,使每个智能体(旅行者)能够评估其对系统奖励的影响,从而提高协调性和推荐准确性。
•该框架整合了极小极大遗憾优化(MiRO)来处理用户偏好和酒店可用性的波动,最小化变化环境中的最坏情况遗憾。
•因果感知强化学习(CARL)用于通过理解用户偏好和酒店属性之间的因果关系来解决混淆因素。这种方法使系统能够提供更加个性化和相关的推荐。
•系统进行集中训练,智能体共享信息以实现有效学习,然后进行分散执行,使智能体能够根据本地观察结果进行实时推荐。
•本研究提出了一种先进的多智能体深度确定性策略梯度(MADDPG)算法,通过考虑实时可用性、客户偏好和位置、流量等环境条件来优化推荐。