利用多智能体强化学习提升酒店推荐效果：一种新颖的MADDPG方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Enhancing hotel recommendations with multi-agent reinforcement learning: a novel MADDPG approach

【字体：大中小】 时间：2026年03月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　酒店推荐系统通过强化学习框架整合多智能体Actor-Critic、因果感知强化学习（CARL）和MADDPG算法，解决信用分配、偏好波动及实时适应问题，实验准确率达99%。

马哈茂德·马斯坦|G. 杰伊·阿鲁尔·乔斯|贝塔拉·拉凯什|赛义德·乌马尔

阿曼管理与技术学院计算机科学与MIS系，哈尔班，阿曼

摘要

酒店推荐系统通过个性化建议提高用户满意度，但传统方法难以应对动态偏好和实时约束。虽然机器学习提高了准确性，但它面临数据稀疏和适应能力有限的问题。本研究引入了一个强化学习框架，整合了多智能体Actor-Critic策略梯度、因果感知强化学习（CARL）和多智能体深度确定性策略梯度（MADDPG）。反事实多智能体策略梯度（COMA）解决了责任分配问题，而极小极大遗憾优化（MiRO）增强了对抗偏好波动的鲁棒性。因果感知建模确保了推荐的公正性，集中训练与分散执行相结合实现了实时适应性。在Datafiniti数据集上的实验结果显示准确率达到99%，超过了现有模型。该研究通过解决强化学习挑战、优化多智能体协作以及整合因果感知决策机制，推动了人工智能的发展。

引言

在数字时代，酒店推荐系统已成为通过提供符合个人偏好的个性化选项来提升客户满意度的关键工具。这些系统在酒店和旅游业中日益重要，因为由于预订周期缩短、价格敏感度增加、对特定地点设施的偏好变化以及移动平台在最后一刻预订中的广泛使用，客户的期望和预订行为不断演变（Remountakis, Kotis, Kourtzis, & Tsekouras, 2023）。通过采用先进技术，这些推荐系统旨在简化决策过程、提升客人体验并优化服务效率。智能平台如聊天机器人、物联网（IoT）和智能移动应用程序（MobApps）现在促进了客人与酒店之间的实时、定制化互动，改变了住宿体验（Monti, Rizzo, & Morisio, 2021）。传统的酒店推荐方法主要基于静态数据库或手动推荐，往往无法满足现代旅行者的复杂需求。这些方法通常依赖简单过滤器或关键词搜索，导致结果过于泛化，可能忽略用户的特定偏好（Zhang & Niu, 2024）。此外，传统方法无法动态适应房间可用性、季节性需求或用户反馈等实时因素，导致个性化能力有限（Li, Shi, Shi, Cai, & Dong, 2023）。随着旅行者越来越寻求符合其独特偏好的定制化建议，这些方法在响应性和准确性方面显示出显著局限。

机器学习（ML）方法引入了自动化推荐功能，利用历史用户行为数据来提高准确性。协同过滤、基于内容的过滤和混合方法已被广泛采用，以推荐符合用户偏好的酒店（Dursun-Cengizci & Caber, 2025）。然而，基于ML的推荐系统面临数据稀疏、冷启动问题和适应用户需求变化能力有限的限制。例如，新用户或数据不足的酒店可能会收到次优推荐，而偏好不断变化的用户可能无法得到静态ML模型的充分服务（Shin, Joung, & Lim, 2024）。深度学习（DL）技术，特别是神经网络，通过捕捉用户数据中的复杂非线性关系进一步提升了酒店推荐系统（Chen, Huang, Xiao, Zhang, & Zhao, 2024）。卷积神经网络和循环神经网络等在通过建模用户偏好和行为的复杂模式方面显示出潜力。尽管有这些进步，DL模型通常需要大量标记数据进行训练，并且计算成本较高（Halder, Lim, Chan, & Zhang, 2024）。此外，它们往往缺乏透明度，使得解释推荐依据变得困难，这可能影响用户信任。然而，现有ML/DL方法存在一个根本性缺陷：它们依赖于静态的一次性学习，无法持续适应用户互动或实时上下文变化。此外，它们将推荐任务视为从用户偏好到酒店列表的单向映射，未能模拟决策的顺序性和交互性。

为了解决这些挑战，强化学习（RL）方法越来越多地被用于酒店推荐任务。RL框架通过与环境的持续互动学习最优策略，从而能够动态适应用户偏好的变化和上下文约束。例如Soft Actor-Critic（SAC）技术在连续动作空间中表现出色，通过熵正则化优化随机策略，鼓励探索同时减少过拟合（Jai Arul Jose & AlAjmi, 2024）。然而，基于SAC的方法在复杂的多智能体环境中常常遇到困难，因为多个智能体之间的互动共同影响推荐结果。在这种情况下，责任分配问题决定了每个智能体对共享奖励的贡献，这在智能体同时学习时成为一个主要限制。

Actor-Critic策略梯度算法也被用于通过联合学习动作选择的策略网络和估计长期奖励的价值网络来增强推荐系统的适应性和基于奖励的决策，从而减少策略更新的方差并提高学习稳定性。尽管有这些优势，大多数Actor-Critic方法主要是为单智能体环境设计的，并未明确处理非平稳性或智能体间的依赖性，这限制了它们在复杂多智能体场景中的有效性。因此，传统的Actor-Critic方法往往无法完全捕捉个性化酒店推荐环境的动态性，其中多个智能体、上下文因素和用户互动需要实时协调。

强化学习方法因通过试错学习最优策略而受到关注，有望改善酒店推荐。尽管在游戏和机器人技术等领域取得了有希望的结果，但基于RL的推荐系统面临收敛缓慢和高计算需求等挑战（Mubarak & Baizal, 2023）。此外，传统的RL方法可能无法有效处理受实时上下文因素影响的动态和相互依赖的用户偏好。现有酒店推荐模型——无论是传统的、基于ML的、基于DL的还是传统的RL——都存在无法有效模拟多智能体环境、解决用户间责任分配、结合因果推理以及动态适应实时条件（如可用性、流量或偏好漂移）的问题。这些缺点限制了个性化、协调性和在复杂推荐场景中的响应性。为了克服这些挑战，本研究提出了一种创新方法，将多智能体Actor-Critic策略梯度、因果感知强化学习（CARL）和多智能体深度确定性策略梯度（MADDPG）算法整合到酒店推荐系统中。通过利用反事实多智能体策略梯度（COMA）方法，该系统解决了责任分配问题，使智能体能够评估其对整体奖励的贡献，并根据协作反馈改进推荐。结合因果感知技术确保推荐反映了酒店属性对用户偏好的真实影响，减少了偏见并提高了相关性。最后，MADDPG通过深度强化学习实现了实时、自适应的推荐，有效平衡了智能体之间的个体和协作互动。本研究的主要贡献包括：

•

本研究利用反事实多智能体策略梯度（COMA）解决责任分配问题，使每个智能体（旅行者）能够评估其对系统奖励的影响，从而提高协调性和推荐准确性。

•

该框架整合了极小极大遗憾优化（MiRO）来处理用户偏好和酒店可用性的波动，最小化变化环境中的最坏情况遗憾。

•

因果感知强化学习（CARL）用于通过理解用户偏好和酒店属性之间的因果关系来解决混淆因素。这种方法使系统能够提供更加个性化和相关的推荐。

•

系统进行集中训练，智能体共享信息以实现有效学习，然后进行分散执行，使智能体能够根据本地观察结果进行实时推荐。

•

本研究提出了一种先进的多智能体深度确定性策略梯度（MADDPG）算法，通过考虑实时可用性、客户偏好和位置、流量等环境条件来优化推荐。

本文结构如下：第2节全面概述了该领域的研究背景。第3节介绍了与研究相关的关键预备知识。第4节介绍了方法论，详细介绍了COMA、CARL和MADDPG的整合，以提高推荐准确性和适应性。第5节分析了仿真结果，第6节总结了主要贡献和见解。

极小极大遗憾优化（MiRO）框架

在本节中，MiRO框架强调了旨在增强酒店推荐背景下多智能体协作和决策的组件和功能。

方法论

本节描述了扩展酒店推荐上下文的多种方法。

实验设置

在提出的方法中使用了Python程序，并在配备Windows 10操作系统和4GB RAM的Intel Core i3处理器的HP笔记本电脑上在Google Colab中执行。程序编写并执行。使用TensorFlow API来检测错误。评估不同迭代次数下的关键参数，如准确性、精确度、召回率和汉明损失，从而获得稳定的准确率。

结论

本文提出了一种新颖的多智能体深度确定性策略梯度（MADDPG）算法，用于酒店推荐系统。通过整合专家演示和因果学习机制，该方法解决了多智能体交互的复杂性，并提高了推荐的准确性。COMA的整合促进了智能体间的协调，而CARL则加深了对动作与结果之间依赖关系的理解。

伦理批准和参与同意

由于未收到资助，因此不适用资助信息，因此批准机构和批准编号ID不适用于本手稿。本研究不涉及任何涉及人类或动物的研究。

人类和动物伦理

本研究不涉及任何涉及动物或人类的研究，也没有在任何私人或受保护区域进行。相应地点不需要特别许可。

出版同意

我同意上述文章的出版。我声明在期刊编辑做出决定之前，我不会将论文提交给其他期刊或杂志发表。

CRediT作者贡献声明

马哈茂德·马斯坦：概念化、方法论、软件、撰写——原始草稿。G. 杰伊·阿鲁尔·乔斯：监督、验证、撰写——审阅和编辑。贝塔拉·拉凯什：数据整理、形式分析、撰写——审阅和编辑。赛义德·乌马尔：调查、资源、项目管理。

资助

由于未收到资助，因此不适用资助信息。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

我确认标题页上列出的所有作者都对工作做出了重大贡献，已阅读手稿，确认数据及其解释的有效性和合法性，并同意提交。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作