《Decision Support Systems》:Learning user preferences in livestreaming market: A graphical model considering temporal effect
编辑推荐:
直播推荐系统优化。本文提出融合泊松因子分解与分层结构的时序可解释图模型,有效捕捉用户偏好、主播流行度及时间动态变化,解决传统模型在稀疏非负计数数据建模上的不足。实验表明模型在观看量预测和用户-主播交互分析中优于基线方法,且低维表征可提升支付预测和精准分群能力。
林青源|李一军|郭梦卓
西南财经大学管理科学与工程学院,中国四川省成都市温江区柳台大道555号,611130
摘要 直播市场经历了快速增长,有效的推荐系统对于提升用户参与度和营销策略至关重要。传统模型往往难以同时捕捉用户偏好、主播人气以及直播平台所固有的时间动态。为了解决这些挑战,我们提出了一个可解释的图形模型,该模型将泊松分解与层次结构和显式时间效应相结合。我们的模型在考虑时间变化的同时,联合学习了用户偏好和主播人气。我们开发了一种变分贝叶斯推理算法来高效估计参数。使用来自领先直播平台的真实数据,我们证明了我们的模型在预测观看量和捕捉公共假期前后用户与主播的互动方面优于几种基线方法。此外,学习到的低维表示增强了预测任务(如支付行为预测),并实现了用户和主播的有效画像和细分。我们的发现为旨在优化动态直播市场中推荐系统和营销策略的决策者提供了见解。
引言 近年来,直播市场经历了前所未有的增长,2023年的全球市场规模达到了702亿美元。1 像Twitch、TikTok和Facebook这样的平台通过实现实时互动(如直播聊天和“danmaku”)彻底改变了内容消费方式[1],[2],丰富了用户体验并促进了活跃的在线社区。
在这个不断发展的数字生态系统中,理解用户对不同主播的观看行为对平台至关重要。观看量是指在特定时间段内用户与主播之间的访问次数,它捕捉了基本的观看行为,并有助于预测流量波动,这对于管理波动性非常宝贵[3]。与二元结果(即用户是否与主播匹配)[4],[5]不同,观看量捕捉了详细的参与模式,从而能够进一步分析用户偏好和主播的吸引力[3],[6],进而帮助平台管理者提高营销策略的有效性[7]。
尽管观看行为受到许多因素的影响,如社交互动[8]、性别吸引力[9]以及平台驱动的信号(如粉丝数量[6]),但从用户或主播的角度来看,它们可以被广泛分类。在主播方面,观察到偏好与行为参与之间存在强烈的相关性[8],[10],[11],例如重复访问[12]或虚拟礼物赠送[13]。在主播方面,人气可以显著影响平台的性能和观众分布[2],[14],[15]。因此,理解观看量的变化趋势需要深入理解用户偏好和主播人气。然而,直播市场的独特特性给这种理解带来了重大挑战。
一个关键挑战在于以反映直播数据结构特征的方式表示用户和主播之间的互动。基于分解的经典方法为用户和项目生成潜在表示[16],通常假设互动遵循高斯分布[17]。然而,直播平台中的互动计数数据(如观看量)总是稀疏的、离散的、非负的且过度分散的。高斯分布无法捕捉这些属性,因为它们允许负值并假设对称性。因此,传统模型往往无法捕捉用户和主播之间参与度的真实变化,限制了它们的有效性。
第二个关键挑战涉及捕捉用户行为和主播人气背后的时间动态,这可能受到公共假期、特殊事件或政策变化等因素的影响[18]。例如,用户在假期期间的平均观看量通常明显低于非假期期间。虽然提出了深度序列模型(如RNN和基于注意力的架构)来捕捉时间变化[19],[20],但这些方法通常作为“黑箱”运行,无法提供理解行为变化的原因的可解释机制。
为此,我们提出了一个可解释的时间层次泊松分解(THPF)模型,该模型能够同时捕捉特定事件之前、期间和之后 用户偏好和主播人气的演变特性。我们的模型将图形模型与潜在因子模型结合在一起,以统一框架表示用户与主播的互动。我们没有假设观察到的数据遵循高斯分布,而是用更合适的分布来建模数据生成过程——泊松分布,该分布天生适用于非负计数,并广泛用于基于频率的事件建模[21],[22]。为了解决计数数据中的常见问题,如数据稀疏性和变异性,我们使用层次结构来建模用户偏好和主播人气。这种方法控制了每个表示的平均幅度,并有效管理了数据中的波动。我们采用变分贝叶斯推理算法,在基于分解的方法基础上,高效估计模型参数并考虑统计依赖性。
我们使用来自领先直播平台的真实数据来验证我们的方法。通过分析历史观看量数据,我们预测了未来的用户与主播互动,并将我们的模型与传统的矩阵分解技术进行了基准测试。除了卓越的预测性能外,我们的模型还提供了用户偏好和主播人气的可解释潜在表示,这些表示可以使用t分布随机邻居嵌入(t-SNE)进行可视化,以实现有效的画像和细分。这些表示不仅增强了下游预测任务(如支付预测),还支持有针对性的营销和个人化推荐的实用决策制定。我们还展示了如何利用所提出的THPF模型生成准确的预测解释。
总之,本研究的贡献有三个方面:
• 我们提出了一个基于分解方法的图形模型,该模型同时捕捉用户偏好和主播人气,预测每对用户与主播的观看量。通过使用变分贝叶斯推理算法进行优化,并辅以适当的分布假设,该模型有效处理了稀疏和可变的计数数据。
• 该模型考虑了特定事件之前、期间和之后用户观看行为的时间效应。通过分析随时间演变的学习到的潜在因子模式,我们提供了关于时间因素如何影响用户偏好和主播人气的可解释见解。
• 使用来自中国领先直播平台的真实数据集进行了验证,我们的模型表现优于基线方法,这一点通过增强的预测和画像能力得到了证实。特别是,学习到的表示提高了用户与主播互动的预测准确性,并有助于用户和主播的画像和细分,支持有针对性的决策制定。
部分摘录 推荐系统中的基于分解的方法 矩阵分解长期以来一直是推荐系统中的基础技术,主要用于通过分析用户和项目之间的历史互动来预测用户偏好。标准MF将大型且通常稀疏的用户-项目互动矩阵分解为低维表示,这些表示捕捉了与用户和项目相关的潜在因素。这些潜在因素揭示了用户行为和项目特征中不立即显现的偏好
概述 直播平台为用户提供了覆盖多种内容领域的大量主播。为了模拟这种环境中的复杂用户-主播互动,我们将用户集合定义为V = { v u } , u ∈ { 1, …, , U } ,并将主播集合定义为D = { d } , l ∈ { 1, …, , L } 。用户观看行为是在一系列离散时间会话中观察到的S = s t ,其中t 。会话是使用固定时间间隔(例如,天、周)定义的,以捕捉相对稳定的参与模式[41],或者使用
数据描述 我们从中国最大的直播平台之一Huya收集了数据。2
实验设置 为了严格验证我们提出的模型,我们对整个数据集采用了5折交叉验证技术。具体来说,对于每个时间会话 ,观看量 被分成五个大小相等的部分。每次迭代中,四个部分(80%的数据)用于训练,剩余的部分用于测试。这个过程重复了五次,确保每个部分都曾作为测试集。
这种交叉验证方法提供了稳健的性能估计
在预测任务中低维表示的好处 传统的营销和运营管理技术经常难以处理复杂和大规模的数据[50],[51]。在我们的案例中,大量的主播导致用户表示成为高维向量,其中包含数万个条目,每个条目对应于特定主播的观看量。这些表示高度稀疏,因为大多数用户没有观看大多数可用的主播,导致许多条目为空或无关紧要。这种稀疏性带来了显著的理论和方法论意义 本研究通过在概率图形框架内开发时间层次泊松分解模型,推进了偏好建模的方法论基础。现有的推荐系统模型——特别是标准矩阵分解或经典泊松分解——通常将用户-项目互动视为静态的,或者完全忽略时间变化。虽然一些扩展通过循环架构或黑箱神经网络纳入了时间动态CRediT作者贡献声明 林青源: 撰写——审阅与编辑,撰写——原始草稿,验证,方法论,调查,形式分析,数据策划,概念化。李一军: 撰写——审阅与编辑,撰写——原始草稿,软件,方法论,调查,形式分析,数据策划。米沃什·卡丁斯基: 撰写——审阅与编辑,可视化,监督,资源,项目管理。郭梦卓: 撰写——审阅与编辑,撰写——原始草稿,监督,资源,
利益冲突声明 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。致谢 郭梦卓感谢国家自然科学基金 (#72401210)、中国博士后科学基金 资助项目(#2024M752282)、四川省自然科学基金 (#2025NSFSC1998)以及四川大学博士后跨学科创新基金 的支持。米沃什·卡丁斯基感谢波兰国家科学中心(Narodowe Centrum Nauki) 的支持,资助编号为#DEC-2019/34/E/HS4/00045。林青源博士 目前是西南财经大学管理科学与工程学院的助理教授。她在香港城市大学的信息系统系获得了博士学位。她的研究兴趣包括直播、数字平台、社交网络和机器学习。她的研究成果发表在《信息系统杂志》、《国际金融分析评论》、《ICIS》、《AMCIS》等期刊上。