KuaiSim: 一个综合的推荐系统用户模拟器

2023年12月23日11:25:16评论114 views字数 5026阅读16分45秒阅读模式

记得给 “应用机器学习” 添加星标，收取最新干货

作者：香港城市大学赵克森

今天跟大家分享一篇来自于香港城市大学赵翔宇老师团队和快手合作的论文，该文章针对用户模拟器用户长期反馈信号建模不足、与现实世界数据缺乏一致性和评估困难的问题，提出了一个综合的推荐系统用户模拟器 KuaiSim。具体的，KuaiSim 覆盖 list-wise level，whole-session level 和 cross-session level 三个层级的任务，建模了即时反馈和长期反馈，为三个任务提供了多种基线，将促进强化学习在推荐系统中的应用。

论文: https://arxiv.org/abs/2309.12645

代码: https://github.com/CharlieMat/KRLBenchmark

摘要

基于强化学习的推荐系统因其学习最优推荐策略和最大化长期用户奖励的能力而引起了相当大的关注。然而，直接在在线环境中部署强化学习模型并通过 A/B 测试生成真实数据可能会带来挑战并花费大量资源。模拟器提供了另一种方法，为推荐系统模型提供训练和评估环境，减少对现实世界数据的依赖。现有的模拟器已经表现出有竞争力的结果，但也存在局限性，例如单一的用户反馈、与现实世界数据缺乏一致性、模拟器评估的挑战以及跨RS迁移和扩展的困难。为了应对这些挑战，我们提出了 KuaiSim，这是一个全面的用户模拟环境，可以通过多行为和跨会话信号提供用户反馈。由此产生的模拟器可以支持三个级别的推荐问题：请求级别的列表推荐任务、整个会话级别的顺序推荐任务和跨会话级别的留存优化任务。对于每项任务，KuaiSim 还提供了评估方法和基线推荐算法，进一步作为未来研究的基准。我们还在 KuaiRand 数据集上复现现有的有竞争力的模拟器，并将它们与 KuaiSim 进行比较，以深入评估它们的性能和行为差异。此外，为了展示 KuaiSim 在适应不同数据集方面的灵活性，我们在 ML-1m 数据集上部署它以展示其多功能性和鲁棒性。

1 引言

直接在在线环境中部署强化学习模型在实际应用中会带来挑战并花费大量资源。模拟器提供了模拟用户响应的实用解决方案，可以训练和评估推荐系统模型，而仅使用离线数据很难评估这些模型。它使研究人员能够迭代改进推荐系统模型，而无需完全依赖实时用户交互。

已有的模拟器已经取得了不错的成就，但与真实环境还存在很大差距。第一，用户长期反馈信号建模不足。除了即时响应之外，用户还可以离开应用程序然后再回来，生成离开信号和留存信号，但现有的模拟器无法建模这些长期或延迟的行为。第二，与现实世界数据缺乏一致性。最近的模拟器根据日志数据对模拟器进行预训练，但在在线交互过程中，除了用户响应模型之外，他们还需要根据预训练的用户生成器对用户进行采样。这可能会放大模拟环境与现实世界数据分布之间的不一致。第三，评估困难，关于评估模拟器的研究十分有限。

本工作提出了一个综合的用户模拟器 KuaiSim，它提供了三个不同任务级别的用户响应环境：请求级别推荐任务解决多行为反馈和列表式评估，整个会话级别顺序推荐任务解决标准强化学习设置下的长期奖励优化，跨会话级别推荐任务解决了留存优化问题。生成的模拟器由一个为每个推荐生成反馈的用户即时反馈模型、一个指定会话结束的用户离开模型以及一个确定用户返回系统并开始新会话时间间隔的用户留存模型组成。为了确保与现实环境的一致性，KuaiSim 使用日志数据来预训练用户响应模型并在模拟过程中进行用户采样。只要满足所需的数据格式，KuaiSim也可以灵活适应其他数据集。本文的主要贡献可以总结如下：

我们提出了一个综合的用户模拟器 KuaiSim，涵盖三个级别的推荐任务。我们还为每个任务提供各种竞争算法的比较，作为推动未来研究工作的基准。
我们完善的模拟器构建和评估过程易于使用和拓展，并且我们在原始数据集 KuaiRand 和公共数据集 ML-1m 上展示了 KuaiSim 的数据迁移性能。
此外，我们还对 KuaiSim 与现有模拟器进行了比较分析。结果表明，我们的模拟器在模拟真实环境方面表现出色。

2 KuaiSim工作流程

图1右侧展示了一个通用的 MDP 设置，在一个会话的第个交互步骤中，推荐系统接收用户请求并生成推荐作为操作。这里我们假设每个用户请求由一组静态用户配置文件特征和随时间动态变化的最新交互历史记录组成。我们还假设一个候选项目集，所以一个典型的推荐动作有，它是一个大小为的列表。而用户会话通常是指用户从打开应用程序开始到退出应用程序的持续交互。图1左侧展示了KuaiSim的主要组成部分，分为用户即时反馈模型，用户离开模型和用户留存模型三个模块，用户收到推荐并提供三种类型的用户反馈：1）即时反馈直接揭示了用户对推荐项目的偏好，代表数量行为信号类型；2）离开信号指定用户是否停止当前会话并退出应用程序；3）如果用户离开当前会话，则会有一个额外的返回时间（即留存）信号指示用户将返回并开始新会话的时间。

用户模拟器可以看作是推荐操作的反馈生成函数，算法1中提供了该函数的详细工作流程。

2.1 用户即时反馈模块

用户即时反馈模块（UIRM）负责生成用户的即时反馈。它首先推断出真实的用户状态（从 RL 模型中隐式假设），然后输出每种即时反馈类型的行为可能性。具体来说，表示串联，表示点积。引入 item_correlation 函数来抑制与同一推荐列表中其他项目相关性较高的项目。这种行为模拟了用户对项目多样性的需求，因为较低的项目相关性会导致更高的积极互动机会。为了确保 UIRM 模型的有效性，我们需要对日志数据进行预训练，并且对于每种即时反馈类型，我们可以使用二元交叉熵来拟合标准的逐点学习。因此，任何提供用户推荐反馈序列日志的数据集都足以支持该模块。

2.2 用户离开模块

用户离开模块维护直接决定离开信号的用户脾气/耐心因素。我们假设每个用户会话的最大长度，并将用户耐心初始化为等于该最大长度。然后用户在交互过程中逐渐失去耐心，最后在耐心太低时离开会话。在每个步骤中，UIRM 推断的被用来计算代表用户对满意度的即时奖励。我们假设不太令人满意的推荐会让用户更快失去耐心。初始耐心值、耐心下降率、离开阈值都是可调整的超参数。

2.3 用户留存模块

用户留存模块是专门为跨会话任务设计的，它可以预测用户的返回时间。用户的返回时间通常遵循几何分布，因此我们仅预测第二天的返回概率来模拟这种行为。具体来说，结合了全局留存偏差、个人留存偏差和反馈留存偏差。个人留存偏差反映了用户活动水平的差异，例如，高度活跃的用户可能每天都使用系统，并且第二天返回的概率较高，但较低活动的用户可能会在几周后返回系统。反馈留存偏差假设更好的推荐也会增加用户的返回概率，因为用户对系统更满意。

3 基准结果和分析

3.1 实验设置

数据集：KuaiRand, ML-1M。

评估：对三个级别的任务提供了不同的评估指标。

List-wise recommendation with request level simulator：List-wise reward（L-reward）是逐项即时奖励的平均值。我们在小批量中使用用户请求的平均 L-reward 和最大 L -reward。Coverage 描述了小批量中暴露的不同项目的数量。Intra-list diversity（ILD）估计每个推荐列表中的项目之间基于嵌入的差异性。
Sequential recommendation with whole-session simulator：除了Coverage和 ILD 之外，我们还使用其他指标。Whole-session reward：总奖励是每个会话的即时奖励的平均总和。平均奖励是每个请求的总奖励的平均值。Depth 表示用户离开之前有多少次交互。
Retention optimization with cross-session simulator: Return time 是会话的最后一个请求和下一个会话的第一个请求之间的平均时间间隔。User retention是再次访问系统的平均比率。

3.2 基准结果

List-wise recommendation with request level simulator：如表3所示，在评估的模型中，ListCVAE 在最大奖励和多样性方面表现出最佳性能。它生成多样化和高回报推荐的能力使其成为列表推荐任务的有效选择。另一方面，PRM 在评估的模型中表现最差。这项任务的一个重大挑战在于有效搜索列表动作的广泛组合空间。未来研究的一个有希望的途径是通过同时提高推荐结果的多样性和降低组合空间的复杂性来应对这一挑战。

Sequential recommendation with whole-session simulator：如表4所示，HAC 框架在长期指标中始终表现出卓越的性能，展示了其有效性和学习方法的高效。值得注意的是，HAC 的性能优于其他框架，表明其在推荐任务中具有高水平的表达能力。另一方面，A2C 表现出最差的性能，并且似乎是评估方法中最不稳定的学习框架。虽然稍微落后于 HAC，但 DDPG 框架也取得了值得称赞的结果。目前这项任务的方法往往忽视了纳入长期反馈的重要性。因此，一个有前途的研究方向在于探索如何有效地建模复杂的会话间关系。

Retention optimization with cross-session simulator: 如表5所示，TD3 在这两个指标上都表现出比 CEM 更好的性能，展示了强化学习技术的有效性。然而，RLUR 显著超过了 TD3 和 CEM，表明其在评估任务中的优越性能。事实上，这项任务的探索仍处于早期阶段。虽然一些研究试图对日常的用户保留进行建模，但捕获更持久的用户反馈在探索方法方面具有相当大的潜力。

3.3 已有模拟器的比较

从定性和定量两方面比较了 KuaiSim 和一些已有的具有竞争力的模拟器。

定性分析：现有的模拟器都忽略了长期反馈的优化，例如用户保留，以及大多数仅支持单个推荐任务。在表1中，对数据集和适用的任务两个方面总结了现有的工作和 KuaiSim的特点。可以看到 KuaiSim 是唯一满足所有要求的模拟器。

定量分析：我们在 KuaiRand 数据集上重建了一些用于整个会话任务的模拟器，以说明KuaiSim 的有效性。为了定量评估模拟器，我们将其分为两个方面。一方面，模拟器对环境的仿真程度如何。由于有些模拟器只有点击反馈信号，我们比较了针对该信号预测的 AUC。另一方面，使用模拟器训练 agent 的效果如何。我们利用了整个会话评估协议中提出的三个指标：depth, average reward, and total reward。如表 6 所示，我们利用 DDPG 算法来训练具有不同模拟器的agent。在这些模拟器中，KuaiSim 在所有评估指标上都明显优于其他模拟器。这一结果表明 KuaiSim 能够准确地与环境保持一致，从而实现卓越的agent训练。与 RecSim 和 RecoGym 等基于规则的模拟器相比，KuaiSim可以以监督方式进行训练，以更好地适应真实环境。此外，与 VirtualTaobao 和 RL4RS 相比，KuaiSim直接从数据集中采样用户，无需拟合用户状态，避免了潜在的错误。这些区别凸显了我们的模拟器 KuaiSim 的优势，这有助于提高其模拟用户行为和偏好的准确性和可靠性。

3.4 数据迁移性分析

为了展示模拟器构建过程的数据迁移能力，我们在也 ML-1m 数据集上实现了 KuaiSim，并评估其在整个会话任务上的性能。如表 7 中所示的基准测试结果表明，除了覆盖率之外，HAC 在所有指标中都继续优于其他方法。值得注意的是，DDPG 在推荐结果中表现出最高的覆盖率并实现了最佳的多样性。另一方面，TD3 在评估的模型中表现出最差的性能。这些发现表明 KuaiSim 在 ML-1m 上也可以很好地工作，并强调了 KuaiSim 在适应不同数据集方面的有效性。

4 结论

总之，KuaiSim 是一个全面而复杂的模拟器，涵盖多个任务级别，在推荐系统领域建立基准并实现全面评估。通过其精细化的构建和评估流程以及模拟用户行为的有效性，KuaiSim 为推荐系统技术和方法的发展进步做出了贡献。

同时欢迎关注我们的知乎账号：应用机器学习
(https://www.zhihu.com/people/aml_cityu)

NeurIPS 2023 | KuaiSim: 一个综合的推荐系统用户模拟器

原文始发于微信公众号（快手技术团队）：NeurIPS 2023 | KuaiSim: 一个综合的推荐系统用户模拟器

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

KuaiSim: 一个综合的推荐系统用户模拟器

摘要

1 引言

2 KuaiSim工作流程

2.1 用户即时反馈模块

2.2 用户离开模块

2.3 用户留存模块

3 基准结果和分析

3.1 实验设置

3.2 基准结果

3.3 已有模拟器的比较

3.4 数据迁移性分析

4 结论

戴姆勒 | 车联网安全面经分享

夏威夷航空报告网络安全攻击

报告：非洲网络犯罪日益严峻，2024年约发现5万起勒索攻击事件

网络安全简史（四）：计算机病毒的商业化和武器化

25岁英国黑客 IntelBroker 落网！窃取超40家机构数据致2500万美元损失

美国冻结价值15亿美元涉黑客攻击的加密货币

跨域人脸伪造识别

折腾一周，还是放弃了

FBI紧急预警：散蛛黑客如何用一通电话，数小时瓦解一家公司？

特朗普暗示美国正在对东大进行黑客攻击

发表评论

在线咨询

微信