WWW 2023系列(七)| 基于强化学习的多任务推荐框架

admin 2023年6月5日22:41:40评论101 views字数 2924阅读9分44秒阅读模式
近年来,多任务学习(MTL)在推荐系统(RS)应用中取得了巨大的成功。然而,目前大部分基于 MTL 的推荐模型往往忽略了用户与推荐系统互动的 会话(session) 模式,因为它们主要是依据基于单个 item 的数据集而构建。平衡多个输出目标一直是该领域的一个挑战。为了解决这个问题,我们提出了一个基于强化学习(RL)的 MTL 框架,即 RMTL 。该框架使用动态权重来平衡不同的推荐任务的损失函数。具体来说,RMTL 结构可以通过以下方式解决上述两个问题:(1)从 session 尺度构建 MTL 环境;(2)训练多任务 actor-critic 网络结构,并能与现有的基于 MTL 的推荐模型兼容;(3)使用 critic 网络生成的权重来优化和微调 MTL 损失函数。在基于 KuaiRand 等多个公开数据集的实验证明了 RMTL 的有效性,其 AUC 显著高于 SOTA 基于 MTL 的推荐模型。我们还验证 RMTL 在各种 MTL 模型中的表现,证明其具有良好的兼容性和可转移性。该工作已被 WWW 2023 Research Track接收。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架


作者:刘子儒、田杰杰、蔡庆芃、赵翔宇、高璟桐、刘殊畅、陈大有、贺童浩、郑东、江鹏
论文地址:https://arxiv.org/pdf/2302.03328.pdf
问题建模

我们构建基于 session 的 MDP 用于 RL 训练,以此来提高 MTL 模型的性能。经典的 MTL 方法通常面临将序列性的用户行为引入建模的困难,其中用户行为的时间戳高度相关,而建立在 MDP 序列之上的强化学习可以解决这个问题。对于每个会话 session,状态转移记录是由原始数据集中存储的时间戳分隔的。这种构造可以生成按顺序组织的 session MDP 序列,具有整体损失权重更新的优点。马尔科夫过程由状态(state),动作(action),奖励函数(reward function),转移函数(transition function)组成。状态空间S是状态的集合,其中包含 user-item 组合特征。行动空间 A 是连续动作的集合,其中每个元素在 A 中表示 CTR 和 CTCVR 的预测值。为了与 BCE 损失的定义保持一致,我们使用负 BCE 值定义每个步骤的奖励函数。


算法

我们提出 RMTL 框架:我们使用状态表示网络将数据特征转换为状态信息。Actor 网络可以是任何基本的 MTL 模型,输出特定的动作向量。Critic 网络用来提高 Actor 网络的性能,并为特定任务生成自适应调整的损失权重。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架

其中状态表示网络是由嵌入层和多层感知机组成的,以提取 user-item 特征。分类特征首先被转换为二进制向量,然后输入到嵌入层中。此外,数值特征通过线性变换转换为相同的维度。以上过程转化得到的特征将被合并并进一步作为另一个 MLP 网络的输入。
在强化学习的框架下,Actor 网络可以被称为策略代理。以 ESMM 为例:共享底层被移除,我们使用两个平行的神经网络,由 𝜃1 和 𝜃2 进行参数化,分别表示两个任务的 Tower 层。每个 Tower 层的输出是确定性的动作值,代表特定任务的预测值。在 MDP 序列的训练过程完成后,本文基于加权 BCE loss 计算总体的损失函数,以解决收敛问题。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架

本文提出了一种 Multi-critic 结构,其中有两个并行的 MLP 网络共享一个底层网络。Critic 网络的第一部分是一个共享的底层网络,它同时转换 user-item 特征和 Action 信息。然后将用户 item 特征和 Action 信息组合为两个可微的行动价值网络的输入,这些网络由 𝜙𝑘 参数化并输出估计的 Q 值,并且本文计算平均 Temporal Difference(TD)误差𝛿以更新 critic 网络。目标损失函数的权重沿着 Q 值方向反向调整,以此来改善 actor 网络的优化过程。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架

整体算法过程如下:给定 user-item 组合特征,状态表示网络生成基于输入特征的状态。然后,我们从 Actor 网络中提取状态信息获取动作。动作值和 user-item 组合特征经过 MLP 层和嵌入层进一步处理,作为 Critic 网络的输入,计算每个任务 𝑘 的 Critic 网络 𝑄 值。最后,可以根据每个任务的 BCE 损失和适应权重估计多任务的整体损失函数 L。


实验

本文主要在两个基准数据集,RetailRocket 和 Kuairand 上进行实验。评估指标是 AUC 分数,logloss 和 s-logloss(定义为所有会话的平均 Logloss)。由于本文的 RMTL 结构修改了 MTL 目标损失函数,因此选择了具有其默认损失函数和一个基于 RL 的模型作为基线。本文总共进行了 3 个实验:整体效果、可转移性研究和消融实验,以说明该方法的有效性。
在整体性能和比较方面,本文比较了五个基准多任务学习模型和 RMTL 模型在两个不同数据集上 CTR/CTCVR 预测任务的性能。在大多数情况下,PLE 模型在所有多任务学习基准模型中表现最好,这证明 PLE 基准模型可以提高任务之间信息共享的效率,以实现更好的预测性能。本文提出的 RMTL 模型的每个版本都在两个数据集上表现出优于相应的非 RL 版本基准模型的结果。特别是在 RetialRocket 数据集上,RMTL 模型的 AUC 增益约为0.003-0.005,比相应的基准模型高。通过利用强化学习框架的序列特性,RMTL 能够处理基于会话的推荐数据,并通过自适应调整损失函数权重在 CTR/CTCVR 预测任务中取得显著改进。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架

在 RMTL 方法在 RetialRocket 数据集上的转移性研究中,本文试图弄清楚从不同的策略学习到的 critic 网络是否可以应用于同一 MTL 基准模型并提高预测性能。例如,“mmoe-ESMM” 表示应用从 MMoE 结构训练的critic网络的ESMM模型。可以看出:(i)三个 MTL 模型的预训练 critic 网络可以显著提高每个基准模型的 AUC。(ii)三个 MTL 模型的预训练 critic 网络可以显著降低每个基准模型的 Logloss。总的来说,预训练的 ciritc 网络能够提高大多数 MTL 模型的预测性能。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架

实验的最后一部分是对于 RetailRocket 数据集上 PLE 模型的剖析研究,本文改变了原有设定中的一些部分,并定义了以下三个变体: (i) CW: 表示对整体损失函数应用恒定权重,并且不对 actor 网络进行梯度策略更新,从而消除了 critic 网络的贡献。(ii) WL: 表示损失权重受到 session 行为标签的控制。(iii) NLC: 不对损失权重执行线性变换,而是直接将负 Q 值分配给损失权重。可以观察到:(i) CW 在两个预测任务的 AUC 和 logloss 指标上表现最差。(ii) WL 和 NLC 在本研究中的表现几乎相同,优于 CW 变体,AUC 提高了 0.002-0.003。(iii) 使用本文提出的总损失设置的 RMTL-PLE 在两个任务上均取得了最佳表现,说明了该线性组合权重设计的有效性。

WWW 2023系列(七)| 基于强化学习的多任务推荐框架


总结和未来方向

总的来说,本篇论文提出了 RMTL 框架,可以使用自适应调整权重进行会话级别的多任务预测。作者在两个真实的数据集上进行了多个实验,结果表明 RMTL 与大多数现有的基于多任务学习的推荐模型兼容,并且可以提高多任务预测性能,具有良好的可迁移性。


原文始发于微信公众号(快手技术团队):WWW 2023系列(七)| 基于强化学习的多任务推荐框架

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年6月5日22:41:40
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   WWW 2023系列(七)| 基于强化学习的多任务推荐框架http://cn-sec.com/archives/1709875.html

发表评论

匿名网友 填写信息