CIKM 2022 | 快手技术团队精选论文解读

2022年8月31日15:12:40评论1,193 views字数 2694阅读8分58秒阅读模式

CIKM 是中国计算机学会 CCF 推荐的 B 类会议，在相关领域享有较高学术声誉。第 31 届国际计算机学会信息与知识管理会议（31st ACM International Conference on Information and Knowledge Management, CIKM 2022）计划于 2022 年 10 月 17 日 - 10 月 21 日召开。

论文01：Real-time Short Video Recommendation on Mobile Devices

| 下载地址：https://arxiv.org/abs/2208.09577

| 论文作者：龚旭东（快手）、冯钦林（快手）、张元（快手）、秦江灵（快手）、丁炜杰（快手）、李彪（快手）、江鹏（快手）

| 论文简介：在短视频应用中，用户通常在短时间内就会观看很多不同主题的内容，同时会给出丰富的显式或者隐式反馈，因此推荐系统需要实时感知用户的兴趣偏好，才能给用户推荐更合适的内容。传统的云端推荐系统每次会返回一个有序的视频列表到客户端，在客户端发起下一次请求之前无法调整视频顺序；同时由于链路上的数据传输、处理延迟，也无法及时利用到用户的反馈信号。但在用户观看视频并给出反馈的过程中，上下文在不停发生变化，之前推荐系统的排序会变得不够准确。

本文设计了一个部署在客户端的短视频推荐系统，通过一个轻量级的端上重排模型来实现用户反馈信号和客户端独有特征的实时利用，从而得到当前上下文下更准确的预估值。在此基础上，通过自适应确定搜索步数的 beam search 来生成整体效果更好的排序，从而提升用户体验，并带来显著的线上效果提升。

CIKM 2022 | 快手技术团队精选论文解读

端上短视频推荐系统架构

论文02：KuaiRec: A Fully-observed Dataset and Insights for Evaluating Recommender Systems

| 下载地址：https://arxiv.org/abs/2202.10842

| 数据集官网：https://kuairec.com

| 论文作者：高崇铭（中国科学技术大学），李师军（中国科学技术大学），雷文强（四川大学），陈佳伟（浙江大学），李彪（快手），江鹏（快手），何向南（中国科学技术大学），毛佳昕（中国人民大学），Tat-Seng Chua（新加坡国立大学）

| 论文简介：推荐算法的开发和评估都极其依赖历史收集的user-item交互数据。然而，大多数的离线推荐数据集都是高度稀疏的并且包含各种偏差，这给推荐系统的研发和评估带来了极大的阻力。为了从根本上解决这个问题，只能从提高数据质量入手。现有的努力旨在通过收集用户对随机选择的项目的偏好来提高数据质量（例如Yahoo! 和 Coat 数据集）。然而，这些数据集仍然遭受由稀疏数据导致的高方差问题。本文中，我们首次提出了 KuaiRec数据集，这是一个从快手APP中收集的全观测数据集。其中1,411 位用户对所有 3,327 个视频的反馈都已经观测到。据我们所知，这是第一个由真实数据组成的完全曝光推荐数据集，并且具有百万量级的数据交互量。

CIKM 2022 | 快手技术团队精选论文解读

为了展示 KuaiRec 的优势，我们对传统推荐数据中的数据密度和曝光偏差这两个因素进行了探究。我们利用该数据集来探索评估多轮会话推荐系统的关键问题，具体来说我们对全曝光数据进行采样，模拟出具有流行性偏差和正样本偏差的有偏数据。在多轮对话推荐的评估中，我们发现这种有偏数据将大大影响被评测方法的排名，并且不能被补齐等方法完全补救。这证明了曝光数据集的必要性。我们的探索对无偏推荐、交互式/对话推荐系统的开发和评估都将产生长远影响。

论文03：KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos (Resource Track)

| 下载地址：https://arxiv.org/abs/2208.08696

| 数据集官网：https://kuairand.com

| 论文作者：高崇铭（中国科学技术大学），李师军（中国科学技术大学），张元（快手），陈佳伟（浙江大学），李彪（快手），雷文强（四川大学），江鹏（快手），何向南（中国科学技术大学）

| 论文简介：商业推荐系统中都存在着曝光偏差，这导致了其收集的数据也包含偏差，对研究人员造成困扰。解决这个棘手问题的根本手段是为用户随机曝光商品，即利用完全随机的推荐系统进行推荐。仅有的现有工作收集了一部分用户对随机推荐的项目进行评分，但是，这些数据集要么太小，要么缺少关键信息，例如用户 ID 或商品特征。在本工作中，我们收集了KuaiRand数据集，这是一个含有无偏曝光的序列推荐数据集。我们对快手APP的正常的推荐流进行干预，在随机时间插入了数百万的随机视频。与现有数据集不同的是，KuaiRand 记录了12 种用户反馈信号（例如，点击、点赞和观看时间），且为了便于模型学习，我们进一步收集用户和物品的丰富特征以及用户的行为历史。

CIKM 2022 | 快手技术团队精选论文解读

凭借其鲜明特点，KuaiRand 可以支持交互式推荐、基于强化学习的推荐、长序列行为建模和多任务学习等各种研究方向。

论文04：Billion-user Customer Lifetime Value Prediction: An Industrial-scale Solution from Kuaishou

| 下载地址：http://arxiv.org/abs/2208.13358

| 论文作者：李鲲鹏（快手），邵广翠（快手），杨乃君（快手），方晓（快手），宋洋（快手）

| 论文简介：客户生命周期价值 (LTV) 是单个用户可以为企业带来的预期总收入。它被广泛用于各种业务场景中，以在获取新客户时做出运营决策。建模 LTV 是一个具有挑战性的问题，因为它的数据分布复杂且可变。现有方法要么直接从后验特征分布中学习，要么利用对先验分布做出强有力假设的统计模型，这两种方法都无法捕捉到那些可变分布。在本文中，我们提出了一套完整的工业级 LTV 建模解决方案。具体来说，我们引入了一个顺序依赖单调网络（ODMN），它对不同时间跨度的 LTV 之间的有序依赖关系进行建模，这极大地提高了模型性能。我们进一步引入了基于分治思想的多分布多专家（MDME）模块，将严重不平衡的分布建模问题转化为一系列相对平衡的子分布建模问题，从而大大降低了建模复杂度。此外，引入了一种新的评估度量 Mutual Gini，以更好地衡量基于洛伦兹曲线的估计值与真实标签之间的分布差异。ODMN框架已经成功部署在快手的实际业务场景中，并取得了不错的成绩。

CIKM 2022 | 快手技术团队精选论文解读

原文始发于微信公众号（快手技术团队）：CIKM 2022 | 快手技术团队精选论文解读

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

CIKM 2022 | 快手技术团队精选论文解读

关于路由器Web登录失败故障处理的那些事

美航天供应链委员会（S2C2）首批成员调研报告

网警VS黑客谁的技术更厉害

网络安全行业，如何诠释干就完了

《校园风波起：叛逆学生不服管教，竟远控木马入侵辅导员主机，这是什么操作？》

安全是底线：30字概括低空经济六大关键要素

美国NSA的Tutelage系统：构建APT防御中间层的威胁建模与引导监控体系

信任的裂痕——当我们的工具成为攻击者的武器

AI代码审计：传统SAST还能走多远？

PowerShell 实战指南

发表评论