为了提供更精准的推荐：在数字平台中整合反事实学习与信任区域机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Decision Support Systems》：Towards better recommendations: Integrating counterfactual learning and trust regions in digital platforms

【字体：大中小】 时间：2026年02月23日 来源：Decision Support Systems 6.8

编辑推荐：

　　两阶段框架通过反事实学习和信任区域约束直接优化会话级点击率CTR，解决传统推荐系统与业务目标不匹配问题，在网易云音乐数据集上验证显著提升CTR并保持可靠性。

大卫·伯格曼|苏莱·努尔·库特卢|雷蒙德·A·帕特森|王凯良

康涅狄格大学商学院运营与信息管理系，美国康涅狄格州斯托尔斯市希尔赛德路2100号1041室，邮编06268

摘要

大多数推荐系统优化的是单个项目的偏好，而非会话级别的业务指标，这导致算法目标与平台目标不一致。我们提出了一个两阶段框架，该框架利用反事实学习和信任区域约束直接优化会话级别的点击率（CTR）。第一阶段训练模型，使用协同过滤特征来预测积极的会话结果。第二阶段通过对这些模型进行信任区域正则化优化，以找到能够最大化预期CTR的替代会话，同时确保预测的可靠性。通过使用网易云音乐的会话数据，我们基于LightGBM的框架在各种会话规模下都实现了显著的CTR提升，并且始终保持在验证过的范围内。该框架实现了直接的会话级别优化，整合了强大的反馈机制，并应用了信任区域，从而提供了实用且符合业务需求的推荐结果。

引言

在数字内容达到前所未有的规模的时代，推荐系统已成为在线平台自动识别相关内容、推动业务成功的基础基础设施。这些系统现在在电子商务、音乐流媒体、社交媒体和内容平台等多个行业中成为关键的收入驱动因素和用户留存机制[1]，同时帮助用户发现他们可能无法独立发现的相关内容。

传统上，研究主要集中在使用协同过滤（CF）算法[2]和矩阵分解技术[3]、[4]、[5]、[6]、[7]来预测单个用户的偏好。然而，这种以项目为中心的方法与实际操作情况不符，因为用户接收到的通常是经过精选的推荐列表或会话——产品包、音乐播放列表、视频流和内容流。传统方法忽略了会话上下文和项目之间的相互依赖性，导致某些会话虽然包含吸引人的单个项目，但缺乏连贯的结构或战略性的业务对齐。

尽管最近的研究将推荐会话视为分析的基本单位[8]，但现有的方法通常首先预测个人偏好，然后通过离散优化来构建会话[9]。这存在一个关键限制：算法优化的是下一个项目的准确性或点对点的准确性，而不是会话级别的点击率（CTR）——即用户至少点击一个推荐项目的会话百分比，而这正是平台希望最大化的业务指标。

随着平台面临展示可衡量财务绩效的压力，并且需要应对复杂用户行为的挑战，使推荐算法与业务目标保持一致的问题变得更加紧迫。用户期望获得真实感强的个性化体验，而运营者则必须在用户满意度、参与时间和用户收入之间找到平衡。

此外，可扩展的部署要求意味着系统在优化潜在未经测试的推荐组合时必须保持可靠性，因为生产失败会立即影响收入和用户信任。计算需求往往迫使算法进行激进的优化，可能会生成超出经验验证范围的推荐结果。

这些现实情况表明，仅凭技术复杂性是不够的；系统必须同时具备准确性、抗操纵性以及可靠的部署能力。存在三个相互影响的差距：

•
差距1：缺乏直接的会话级别CTR优化。大多数算法仍然优化单个项目的准确性，而不是与业务相关的会话级别指标（如CTR）。例如，一个音乐平台可能会推荐用户单独喜欢的歌曲，但生成的播放列表缺乏连贯性，导致用户尽管有较高的个人偏好分数也会跳过这些歌曲。
•
差距2：正面和负面隐性反馈的整合不足。隐性反馈指的是用户行为，这些行为间接表明了偏好，如停留时间（与内容的互动时长）[10]、浏览历史或点击行为。在隐性反馈下，通常只考虑点击行为（正面隐性反馈），而不同时考虑非点击行为（负面隐性反馈）。这些系统通常独立地对反馈类型进行建模，将它们视为不同的信息渠道。然而，通过联合建模，系统可以利用它们之间的互补优势。
•
差距3：安全优化的使用有限。在预训练的预测模型（OPPM）上进行优化——使用机器学习模型来评估潜在的推荐策略——缺乏针对验证范围之外推荐的防护措施。验证范围指的是模型经过实证训练并显示出可靠泛化能力的特征空间区域。模型可能会对实际表现不佳的未测试项目组合预测高成功率，从而损害业务结果。

本研究探讨了一个基本问题：推荐系统如何通过集成反馈建模和安全优化约束来直接优化会话级别的业务指标，同时保持可靠性？

本研究的主要目标是通过一个新颖的两阶段框架来解决这些相互关联的差距，该框架结合了机器学习预测和受限优化，以实现直接的会话级别业务优化。在第一阶段，我们开发了机器学习模型，整合了正面和负面隐性用户反馈来预测会话级别的CTR，扩展了基于历史数据的监督模型评估替代策略的概念，无需昂贵的在线实验[11]。在第二阶段，我们在训练好的模型上实施受限优化，通过信任区域约束生成最大化预期CTR的会话，这一方法建立在OPPM文献[12]、[13]、[14]、[15]的基础上，并为会话级别上下文设计了新的机制。

为了系统地解决上述每个差距，我们提出了三个相应的贡献，这些贡献共同构成了一个集成框架：

•
直接的会话级别CTR优化：一种新颖的方法，通过重用经过验证的历史会话直接优化会话级别的点击率，直接针对与业务相关的指标（如会话级别CTR）进行优化，而不是使用项目级别预测准确性等代理指标。
•
强大的集成反馈建模：一个全面的框架，将正面和负面隐性反馈（即点击行为与非点击行为）作为相互依赖的特征，用于强大的会话级别反事实预测，既满足了整体建模的理论需求，也满足了在嘈杂、可能被操纵的环境中确保可靠性的实际要求。
•
信任区域正则化优化：为会话级别推荐场景量身定制的新型信任区域正则化技术，确保优化过程保持稳健性和业务一致性，同时避免OPPM方法在实际应用中普遍存在的过度外推风险。信任区域正则化将优化限制在输入空间的区域内，这些区域是预测模型经过实证验证并显示出可靠泛化能力的区域，防止不可靠的外推。

我们的框架可以作为独立系统或现有算法的增强层来实施。仅使用常规收集的历史会话数据和高效的反事实评估技术，我们的方法在保持生产系统的可靠性和可解释性要求的同时，实现了会话级别CTR的显著提升。

文献综述

推荐系统（RS）研究已经从预测单个用户偏好转向影响更广泛层面的参与度和结果。随着该领域的成熟，新的技术进步带来了与鲁棒性、偏见和商业价值相关的风险。一个关键挑战仍然是：使算法目标与更现实的业务指标保持一致。我们的工作基于五个关键研究方向，开发了一个集成的、会话感知的、符合业务需求的优化框架。

问题定义和研究框架

本文的重点是开发一个预测和优化框架，通过从候选项目集合中选择一组项目来为个别用户构建推荐会话。目标是构建一个优化了积极会话结果（PSO）的会话，我们将其定义为用户点击其中一个推荐项目。我们使用历史数据训练一个机器学习模型

数据预处理和特征工程

在本节中，我们首先描述数据来源和预处理程序。然后介绍了机器学习算法的特征。提供了描述性统计信息和变量定义。

机器学习模型与建模框架评估

评估新的推荐算法对于提高效率至关重要。虽然随机实验很常见，但它们成本高昂且耗时[11]。另一种方法是在历史日志数据上训练监督模型，作为反事实估计器[43]、[44]。第5.1节详细介绍了我们的PSO预测模型，第5.2节讨论了优化替代会话推荐的方法，引入了一种利用模型信任区域的启发式方法。

讨论与结论

在这项研究中，我们提出了一种新颖的预测和优化框架，解决了当前推荐系统研究和实践中的几个持续存在的差距。我们的工作是基于这样的观察：大多数现有方法优化的是项目级别的准确性或序列指标，而平台的成功取决于会话级别的参与度，如点击率（CTR），后者更符合业务目标。我们的框架带来了三个主要贡献：

1.
直接的会话级别

CRediT作者署名声明

大卫·伯格曼：撰写——审稿与编辑，监督。苏莱·努尔·库特卢：撰写——审稿与编辑，撰写——初稿，可视化，验证，方法论，调查。雷蒙德·A·帕特森：撰写——审稿与编辑，监督。王凯良：撰写——审稿与编辑，撰写——初稿，可视化，验证，方法论，调查。

写作过程中使用生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT来提高手稿的质量。使用该工具/服务后，作者根据需要对内容进行了审查和编辑，并对出版物的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

大卫·伯格曼他是康涅狄格大学运营与信息管理的副教授。他的研究重点是开发大规模自动化决策的新解决方案方法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号