WWW 2023系列（七）| 基于强化学习的多任务推荐框架

2023年6月5日22:41:40评论162 views字数 2924阅读9分44秒阅读模式

近年来，多任务学习（MTL）在推荐系统（RS）应用中取得了巨大的成功。然而，目前大部分基于 MTL 的推荐模型往往忽略了用户与推荐系统互动的会话（session）模式，因为它们主要是依据基于单个 item 的数据集而构建。平衡多个输出目标一直是该领域的一个挑战。为了解决这个问题，我们提出了一个基于强化学习（RL）的 MTL 框架，即 RMTL 。该框架使用动态权重来平衡不同的推荐任务的损失函数。具体来说，RMTL 结构可以通过以下方式解决上述两个问题：（1）从 session 尺度构建 MTL 环境；（2）训练多任务 actor-critic 网络结构，并能与现有的基于 MTL 的推荐模型兼容；（3）使用 critic 网络生成的权重来优化和微调 MTL 损失函数。在基于 KuaiRand 等多个公开数据集的实验证明了 RMTL 的有效性，其 AUC 显著高于 SOTA 基于 MTL 的推荐模型。我们还验证 RMTL 在各种 MTL 模型中的表现，证明其具有良好的兼容性和可转移性。该工作已被 WWW 2023 Research Track接收。

作者：刘子儒、田杰杰、蔡庆芃、赵翔宇、高璟桐、刘殊畅、陈大有、贺童浩、郑东、江鹏

论文地址：https://arxiv.org/pdf/2302.03328.pdf

问题建模

我们构建基于 session 的 MDP 用于 RL 训练，以此来提高 MTL 模型的性能。经典的 MTL 方法通常面临将序列性的用户行为引入建模的困难，其中用户行为的时间戳高度相关，而建立在 MDP 序列之上的强化学习可以解决这个问题。对于每个会话 session，状态转移记录是由原始数据集中存储的时间戳分隔的。这种构造可以生成按顺序组织的 session MDP 序列，具有整体损失权重更新的优点。马尔科夫过程由状态（state），动作（action），奖励函数（reward function），转移函数（transition function）组成。状态空间S是状态的集合，其中包含 user-item 组合特征。行动空间 A 是连续动作的集合，其中每个元素在 A 中表示 CTR 和 CTCVR 的预测值。为了与 BCE 损失的定义保持一致，我们使用负 BCE 值定义每个步骤的奖励函数。

算法

我们提出 RMTL 框架：我们使用状态表示网络将数据特征转换为状态信息。Actor 网络可以是任何基本的 MTL 模型，输出特定的动作向量。Critic 网络用来提高 Actor 网络的性能，并为特定任务生成自适应调整的损失权重。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

其中状态表示网络是由嵌入层和多层感知机组成的，以提取 user-item 特征。分类特征首先被转换为二进制向量，然后输入到嵌入层中。此外，数值特征通过线性变换转换为相同的维度。以上过程转化得到的特征将被合并并进一步作为另一个 MLP 网络的输入。

在强化学习的框架下，Actor 网络可以被称为策略代理。以 ESMM 为例：共享底层被移除，我们使用两个平行的神经网络，由 𝜃1 和 𝜃2 进行参数化，分别表示两个任务的 Tower 层。每个 Tower 层的输出是确定性的动作值，代表特定任务的预测值。在 MDP 序列的训练过程完成后，本文基于加权 BCE loss 计算总体的损失函数，以解决收敛问题。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

本文提出了一种 Multi-critic 结构，其中有两个并行的 MLP 网络共享一个底层网络。Critic 网络的第一部分是一个共享的底层网络，它同时转换 user-item 特征和 Action 信息。然后将用户 item 特征和 Action 信息组合为两个可微的行动价值网络的输入，这些网络由 𝜙𝑘 参数化并输出估计的 Q 值，并且本文计算平均 Temporal Difference（TD）误差𝛿以更新 critic 网络。目标损失函数的权重沿着 Q 值方向反向调整，以此来改善 actor 网络的优化过程。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

整体算法过程如下：给定 user-item 组合特征，状态表示网络生成基于输入特征的状态。然后，我们从 Actor 网络中提取状态信息获取动作。动作值和 user-item 组合特征经过 MLP 层和嵌入层进一步处理，作为 Critic 网络的输入，计算每个任务 𝑘 的 Critic 网络 𝑄 值。最后，可以根据每个任务的 BCE 损失和适应权重估计多任务的整体损失函数 L。

实验

本文主要在两个基准数据集，RetailRocket 和 Kuairand 上进行实验。评估指标是 AUC 分数，logloss 和 s-logloss（定义为所有会话的平均 Logloss）。由于本文的 RMTL 结构修改了 MTL 目标损失函数，因此选择了具有其默认损失函数和一个基于 RL 的模型作为基线。本文总共进行了 3 个实验：整体效果、可转移性研究和消融实验，以说明该方法的有效性。

在整体性能和比较方面，本文比较了五个基准多任务学习模型和 RMTL 模型在两个不同数据集上 CTR/CTCVR 预测任务的性能。在大多数情况下，PLE 模型在所有多任务学习基准模型中表现最好，这证明 PLE 基准模型可以提高任务之间信息共享的效率，以实现更好的预测性能。本文提出的 RMTL 模型的每个版本都在两个数据集上表现出优于相应的非 RL 版本基准模型的结果。特别是在 RetialRocket 数据集上，RMTL 模型的 AUC 增益约为0.003-0.005，比相应的基准模型高。通过利用强化学习框架的序列特性，RMTL 能够处理基于会话的推荐数据，并通过自适应调整损失函数权重在 CTR/CTCVR 预测任务中取得显著改进。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

在 RMTL 方法在 RetialRocket 数据集上的转移性研究中，本文试图弄清楚从不同的策略学习到的 critic 网络是否可以应用于同一 MTL 基准模型并提高预测性能。例如，“mmoe-ESMM” 表示应用从 MMoE 结构训练的critic网络的ESMM模型。可以看出：（i）三个 MTL 模型的预训练 critic 网络可以显著提高每个基准模型的 AUC。（ii）三个 MTL 模型的预训练 critic 网络可以显著降低每个基准模型的 Logloss。总的来说，预训练的 ciritc 网络能够提高大多数 MTL 模型的预测性能。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

实验的最后一部分是对于 RetailRocket 数据集上 PLE 模型的剖析研究，本文改变了原有设定中的一些部分，并定义了以下三个变体: (i) CW: 表示对整体损失函数应用恒定权重，并且不对 actor 网络进行梯度策略更新，从而消除了 critic 网络的贡献。(ii) WL: 表示损失权重受到 session 行为标签的控制。(iii) NLC: 不对损失权重执行线性变换，而是直接将负 Q 值分配给损失权重。可以观察到：(i) CW 在两个预测任务的 AUC 和 logloss 指标上表现最差。(ii) WL 和 NLC 在本研究中的表现几乎相同，优于 CW 变体，AUC 提高了 0.002-0.003。(iii) 使用本文提出的总损失设置的 RMTL-PLE 在两个任务上均取得了最佳表现，说明了该线性组合权重设计的有效性。

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

总结和未来方向

总的来说，本篇论文提出了 RMTL 框架，可以使用自适应调整权重进行会话级别的多任务预测。作者在两个真实的数据集上进行了多个实验，结果表明 RMTL 与大多数现有的基于多任务学习的推荐模型兼容，并且可以提高多任务预测性能，具有良好的可迁移性。

原文始发于微信公众号（快手技术团队）：WWW 2023系列（七）| 基于强化学习的多任务推荐框架

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

WWW 2023系列（七）| 基于强化学习的多任务推荐框架

专题研讨｜赵宪伟：海量电子数据审查的实现路径（三）

网络安全厂商如何转型穿越寒冬

NSFOCUS旧友记金超前《狂风暴雨幸同船》

甲方利用开源工具进行钓鱼演练

【海量电子数据审查的实现路径】

【加密备份中的数字证据】

Nginx 配置 HTTPS

译文 | 《基础设施即代码》的研究和趋势分析

译文 | 使用 Defender 和 Microsoft Sentinel 检测恶意软件杀伤链

服务器取证基础—LINUX系统基本操作

发表评论

在线咨询

微信