ICCV 2023 | 基于跨视角语义对齐的直播商品识别

admin 2023年9月26日00:18:44评论41 views字数 7458阅读24分51秒阅读模式

论文地址:https://arxiv.org/abs/2308.04912

Github:https://github.com/adxcreative/RICE

作者:杨文杰(快手)、陈翼翼(快手)、李岩(快手)、程衍华(快手)、刘旭东(快手)、陈权(快手)、李晗(快手)


背景

为什么做直播商品识别

快手平台的直播带货,提出了信任电商的概念,认为在平台交易取决于主播和粉丝之间的极度信任,因此快手电商直播推广会以主播为主导。但是在实际场景中,用户行为会随着主播展示不同的商品而变化,也就是说,在信任电商基于主播推广的前提下,还需要建立用户于商品之间的兴趣关系,以建立一个更加个性化的投放系统。
无论流量端的投放策略还是客户端的投放产品,如果把电商直播做成商品化投放,都需要把直播间实时和商品一一对应。因此,我们构建了直播商品识别工作,实时识别电商直播间对应的商品内容。直播商品识别是一个特殊的模式识别场景,其难点在于:(1) 意图商品不明确,直播间往往存在着多个商品,主播根据实际情况进行选择性讲解;(2) 对识别结果稳定性要求高、实时性强,为了能让直播商品信号真正能在业务中应用,需要实时并稳定产出商品信息。

其他数据集的问题

针对直播商品识别领域,业界过往已经出现了各种数据集来研究这个任务,包括AsymNet、WAB 和MovingFashion。然而,AsymNet和MovingFashion缺乏关键的文本模态,而文本模态对于识别目标商品提供了重要的辅助信息。此外,WAB的数据规模相对较小,只有70K对数据,并且只提供时尚服装数据,与真实场景的情况相比gap较大。
为了减小现有数据集与真实场景的gap,同时推动这个具有挑战性的任务的相关研究,我们提出了LPR4M,一个大规模的多模态直播电商数据集,涵盖了34个类别,包括图像、视频和文本三种模态,并且比目前最大公开数据集大50倍。LPR4M包含了多种数据模态,包括直播片段、商品图和文本,以及异构和跨域的〈直播片段,商品图〉对,同时呈现出长尾分布,类似于真实世界中的问题。

业界的方法在真实业务场景中的难点

针对直播商品识别,业界过往提出的方法主要分为两阶段和一阶段两种。两阶段框架的一些工作致力于在图像和视频特征之间提供配对匹配解决方案,如DPRNet (Zhao等,2021年) 和SEAM (Godi等,2022年),这些方法采用检测加检索,在执行全局相似性匹配之前在视频中定位意图商品。AsymNet (Cheng等,2017年) 使用单阶段网络,移除目标检测以降低模型复杂性。然而,这些方法在实际世界场景中的性能有限。两阶段的方法一方面复杂度太高,很难满足直播的实时性要求,另一方面,由于直播场景的动态变化导致视觉退化现象严重,目标检测很有可能在很多时候失效。一阶段的方法去除了目标检测,又没有额外的机制来定位意图商品,在识别的精度上很难满足真实业务场景的需求。
针对这些难点痛点,我们提出了一个一阶段框架的跨视角语义对齐模型 (cRoss-vIew semantiC alignmEnt, RICE) ,用于从商品的图像和视频视角中学习具有判别性的特征。这是通过instance-level的对比学习和跨视角的patch-level的特征传播实现的。我们提出了一种新颖的patch-level重建损失,用于惩罚跨视角patch-level之间的语义不对齐。

现状

直播商品识别 (Livestreaming Product Recognition, LPR) 的目标是通过基于内容的视频到图像检索,识别主播在直播电商视频中展示的商品。实时而准确地识别直播商品可以促进在线商品推荐,从而提高消费者的购买效率。

直播商品识别任务如下图1所示,涉及两个基本过程:基于多模态的意图商品识别和店铺商品检索。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图1 直播商品识别的流程
这项任务在真实世界的场景中面临着巨大挑战,包括:
(1) 需要区分直播帧中混杂的背景产品和意图产品,意图商品是指主播正在介绍的商品,如图1(b)所示,同时视觉画面中还包含很多背景商品;
(2) 要求模型捕捉足够细粒度的特征,以准确匹配店铺中真实的商品图片,而在店铺中有许多带有细微视觉差别的图片;
(3) 视频到图像的异构、直播到店铺的跨域问题;
(4) 由于变形、遮挡、各种背景混杂和明显的光照变化导致直播域商品外观的变化,使得将直播片段与店铺中的真实商品图片匹配成为一个高度复杂的任务。过往已经出现了各种数据集来研究这个任务,包括AsymNet、WAB 和MovingFashion。然而,AsymNet和MovingFashion缺乏关键的文本模态,而文本模态对于识别目标商品提供了重要的辅助信息。此外,WAB的数据规模相对较小,只有70K对数据,并且只提供时尚服装数据,与真实世界的情况不符。
我们的贡献

为了减小现有数据集与真实世界场景的gap,同时推动这个具有挑战性的任务的相关研究,我们提出了LPR4M,一个大规模的多模态直播电商数据集,包含广泛的类别、多种数据模态,包括直播片段、商品图和文本,以及异构和跨域的〈直播片段,商品图〉对。这个数据集具有几个显著的优势:

(1) 规模大:LPR4M是迄今为止最大的直播商品识别数据集。它包含了400万完全匹配的〈直播片段,商品图〉对,涵盖了400万个直播片段和33.2万张商品图,远远超过现有开源数据集。平均每张商品图对应了14.5个不同的直播片段,这些直播片段包含例如视角、尺寸和遮挡等不同的变化。图4 (d) 展示了商品图和对应直播片段的示例,图4 (b) 给出了每张商品图关联的直播片段数。统计分析可得,多达80%的商品图都对应至少10个匹配的直播片段,而每张商品图对应的直播片段数量在10到150之间变化。
(2) 丰富:首先,与其他只包含时尚服装数据的LPR数据集不同,我们的数据更丰富,来自34个类别,涵盖了大部分日常必需品。这使得它更接近真实场景。其次,LPR4M还提供了直播片段的ASR文本和商品图标题等模态作为辅助信息,以便于更准确地识别目标商品。如图2所示,我们从模态、内容和规模等方面将LPR4M与其他数据集进行了比较。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图2 LPR4M与其他数据集的比较
(3) 多样性:首先,我们根据真实直播片段的时长分布收集片段,并获得不同时长的片段,如图4 (a) 所示。其次,通过控制商品尺寸、意图商品可见时长和直播片段中干扰商品数量的变化,进一步对片段进行采样,使LPR4M成为一个具有挑战性的基准数据集。如图3所示,我们展示了商品尺寸分别为大中小、意图商品可见时长分别为长中短、画面中干扰商品数量为多中少的不同直播片段,对应了不同的识别难度。当商品尺寸小、意图商品可见时长短、画面中干扰商品数量多时,识别难度最大。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图3 LPR4M的<直播片段,商品图>对示例

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图4 LPR4M的统计分析
关于数据集的进一步统计分析如下:
数据集的基本单位是一个〈直播片段,商品图〉对,所有直播片段均来自快手平台上爬取的数小时连续直播数据。每场直播都对应一个唯一的在线店铺,其中展示了将在该直播中推介的所有商品。首先,我们通过将图像传入ResNet并比较其全局平均池化层的特征来移除店铺中近似和完全重复的图像。其次,人工标注员对包含目标商品且可见时间较短、尺寸较小、背景杂乱的片段进行了清理。最后,对于一个直播片段,匹配的商品图是由人工标注员从店铺中选择的。数据集共保留了4,033,696个〈直播片段,商品图〉对,包含4,033,696个直播片段和398,796张商品图。
数据集按照不同维度的统计如图4 (c) 所示。
  • 尺寸。根据商品检测框面积与整帧画面面积的比例 将片段分为三个子集。在LPR4M中,小商品的数量比大商品多。具体而言,大约54.5%是小商品 ,30.5%是中尺寸商品 ,15%是大商品 

  • 可见时长。由于遮挡和摄像机视角的变化,目标商品在片段中并不总是可见的。在这里,我们根据可见时长与整个片段时长的比例 对每个片段进行分类,包括48.5%的长时可见 ,29.6%的中等可见时长 和21.9%的短时可见 。例如,图3第四行中的第三个片段中的手表在片段的开始和结束时被遮挡,这显著增加了识别的难度

  • 干扰商品。在美妆、手袋、珠宝等直播中,视频中会显示大量的商品。例如,图3的最后一行的第一个片段包含二十多种香水。然而,一个片段中只有一个意图商品,从复杂的背景商品中区分出意图产品是具有挑战性的。因此,我们要求标注员评估片段中干扰商品的数量 ,并相应地将片段分类为三个子集,包括13.6%的丰富类 ,45.8%的中等类 和40.6%的少数类 

此外,我们还提出了一个跨视角语义对齐模型 (cRoss-vIew semantiC alignmEnt, RICE) ,将instance-level的对比学习和patch-level的pairwise匹配集成到一个框架中,同时提出了一种新颖的patch-level重建损失,用于惩罚跨视角patch-level之间的语义不对齐。大量实验证明了LPR4M和RICE的有效性。
问题建模
我们的工作主要基于LPR4M数据集解决真实场景的问题:如何使用大规模的多模态成对数据完成细粒度的直播商品识别。给定商品图和直播片段,我们首先利用instance-level对比学习 (Instance-level Constrastive Learning, ICL) 来对齐全局特征。然而,由于这两个视图的特征是从视觉编码器中独立提取的,对于具有微小视觉差异的商品而言,没有交叉视图的交互可能很难区分它们。因此,我们提出了一种基于patch-level的语义对齐方法,以实现跨视角patch信息的传递。我们通过基于交叉注意力的成对匹配解码器 (Pairwise Matching Decoder, PMD) 解码器来评估相似性,该解码器将商品图patch视为query,将视频片段的patch同时视为key和value。此外,我们提出了一种新颖的patch特征重建 (Patch Feature Reconstruction, PFR) 损失,为成对匹配提供patch级的监督,以便从其配对的视频patch中重建每个商品图patch的特征。
方法

跨视角语义对齐模型 (cRoss-vIew semantiC alignmEnt, RICE) 模型结构如图5所示。首先执行instance-level的对比学习,以学习商品的判别特征。然后,我们引入PMD,通过进行基于patch-level的特征传递以便得到细粒度的相似度表征。PMD进一步通过新颖的PFR损失来引导patch-level的语义对齐。最后,我们通过将输入patch替换为由意图产品检测器生成的检测框box来研究准确地检测意图商品带来的性能提升。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图5 RICE模型的架构

Instance-level对比学习 (ICL)

为直播片段的集合, 为商品图的集合。RICE的目标是学习一个函数来衡量直播片段 和商品图 之间的相似性。形式上,将 作为输入。图像编码器首先将图像 分割成不重叠的patch,然后通过线性投影将其投影成1D token。然后,使用Transformer层来提取patch特征,表示为 。同样,视频编码器独立地处理每个视频帧 ,并输出一系列视频patch特征 ,其中 是视频帧的索引。视频帧数定义为 ,且有 。对于分辨率为224×224且patch大小为32×32的图像,我们有 。图像和视频编码器共享参数。遵循 ViT 和 CLIP 的做法,我们从[CLS] token中提取全局特征表示。为了在特征空间中将相同商品的直播片段和图像聚集在一起,同时将不同商品的直播片段和图像拉远,我们在全局表示上执行 InfoNCE 损失,定义为:

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

其中, 由一个正样本 个负样本组成。 是将图像和直播片段的[CLS]嵌入 (即 ) 映射到归一化的低维特征的转换。是温度参数,我们使用 。图像和直播片段之间的最终对比损失是 的对称版本如下:

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

其中 是batch-size。

Patch-level语义对齐

Pairwise匹配解码器 (PMD)

利用公式 (1) 中的 , 作为相似性的度量是直观的。然而,直播片段和商品图的特征是从视觉编码器中独立提取的,缺乏 之间的信息传递。为此,我们通过Transformer解码层执行patch-level的特征注意力,称为pairwise匹配解码器,在本文中由自注意力层和交叉注意力层组成。如图5 (b) 所示,自注意力层将图像patch特征用作Query、Key和Value,而交叉注意力层将图像patch特征用作Query,视频patch特征用作Key和Value。相似度计算的匹配损失定义如下:

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

其中,ICCV 2023 | 基于跨视角语义对齐的直播商品识别ICCV 2023 | 基于跨视角语义对齐的直播商品识别是解码器层的[CLS]嵌入, 是一个参数向量。对于每个 , 对,我们只采样了 个负实例,即 由一个正样本 个负样本组成。

Patch特征重建 (PFR)

进一步地,我们通过在直播片段中搜索相似的patch来实现跨视角语义对齐,以在特征空间中重构相对应的图像。在这里,我们介绍如何在给定一个正样本的两个视图 (直播片段 和图像 ) 的情况下实现patch特征重构。

如图5(b)所示, 为视频片段的patch特征,其中 。类似地,图像的patch特征表示为 。图像特征 可以由  的线性组合表示。这背后的思想是,如果直播片段包含图像中的商品,则可以从直播片段中重构出图像。因此,我们解出相对于 的系数 来表示 。最后,重构损失定义为:

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

由于交叉注意力层中的注意权重 表示两个视图的patch之间的对应关系,因此从 中学习重构系数W是直观的。具体而言,将 输入两个连续的卷积和ReLU层即可输出系数

因此,RICE模型的最终目标函数是 的加权求和,即:

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

其中 是权重调节参数,我们在后续实验中使用 .1。

意图商品检测 (IPD)

为了强调直播片段中的意图商品并抑制背景干扰商品,我们使用检测到的意图商品框来替换视频的patch输入。具体来说,我们使用基于TransVOD的单帧检测器和多帧检测器。如图6所示,单帧检测器逐帧检测意图商品框,基于DETR,将目标检测表述为一种集合预测问题,并在解码器中采用动态锚框作为查询。然而,直播片段的时变性使得仅使用单帧来检测具有明显外观变化的商品是具有挑战性的,例如图6中的鞋子就是如此。因此,多帧利用时序transformer来捕捉商品在时间上下文中的交互作用。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图6 检测器架构


实验结果
评价指标
我们的实验基于LPR4M测试集进行,该测试集包含20,079个直播视频片段作为query集,以及66,358个商品图作为gallery集。如果query片段未能识别出目标商品,则其视为未命中。我们采用rank-k准确率作为评价指标,即在排名为k的结果中成功检索到真实商品图像时计为成功检索。

实现细节

图像和视频编码器共享参数,并使用来自CLIP的ViT-B/32进行初始化,其中层数为12,patch大小为32。同样,我们使用类似的参数从CLIP初始化PMD。
我们从每个视频片段中等间隔抽10帧作为视频输入,图像和视频帧被resize为224×224的大小。
我们使用Pytorch实现RICE模型。使用Adam优化器,批大小为256。学习率采用余弦衰减策略。图像编码器和视频编码器的初始学习率为1e-7,新引入模块的初始学习率为1e-4。所有实验在8个NVIDIA Tesla V100 GPU上运行,需要约90小时来完成3个epochs。

方法对比

我们将我们提出的RICE分别在LPR4M数据集和MovingFashion数据集上与其他SOTA方法进行比较 (不包含AsymNet和WAB,因为AsymNet不可公开获取,WAB是一个只提供中文介绍的竞赛数据集)。结果如表1所示。
  • 在LPR4M上,FashionNet、AsymNet和SEAM是LPR方法,其他方法是视频理解方法。我们可以看到,我们的RICE不仅超越了LPR方法,还超越了强大的视频理解方法。
  • 在MovingFashion数据集上,NVAN和MGH是视频理解方法。我们的方法取得了最佳准确率。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

表1 LPR4M和MovingFashion评估结果
消融实验
在本节中,我们通过进行消融实验来研究我们方法中每个部分的影响。结果如表2所示。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

表2 关键模块的消融实验结果
  • 如 (c) 所示,与基线ICL相比,PMD在R1上的性能提升为2.3% (从27.1到29.4),这表明局部 (patch-level) 相似性度量优于全局 (instance-level) 相似性度量。
  • 如 (d) 所示,PFR提供的patch-level监督促进了语义对齐,并在R1上实现了0.9%的显著改进。
  • 如 (e) 所示,我们的IPD用检测到的目标框替换patch输入,在R1上比ICL高出1.0%,因为它使模型能够集中注意力在信息丰富的区域,同时抑制干扰。
  • (b) 和 (f) 中,添加文本模态分别将R1从27.1%提高到28.5%、从31.3%提高到33.0%,这是因为文本有助于抑制干扰的背景产品。这里,我们使用ChineseCLIP提取视频ASR和图像标题的embedding。文本相似性通过归一化特征的点积来计算。然后我们将文本和视觉相似性组合起来获得最终的〈直播片段,商品图〉的相似度。

注意力区域可视化

为了深入探究PMD的工作原理,我们进行了进一步的可视化。在图7中,我们展示了RICE 在商品图和视频patch之间的注意力映射,其中商品图被视为query,显示了所有空间patch上的注意力权重。我们使用PMD的交叉注意力层中的注意力权重进行可视化。我们得出以下观察结果。

ICCV 2023 | 基于跨视角语义对齐的直播商品识别

图7 注意力权重可视化

(1) 对于像 (a) 中这样复杂的场景,我们的方法可以区分目标的中国白酒与附近的背景酒品。(2) 有趣的是,如 (b) 所示,即使目标产品在视频中不总是可见,我们的方法仍然准确地聚焦在相应的区域,同时对遮挡的区域聚焦较少的注意力。

总结

本文提出了一个名为LPR4M的大规模数据集,该数据集涵盖了更广泛的类别和更充足的数据模态。此外,我们提出了RICE模型,将instance-level的对比学习和patch-level的跨视角语义对齐机制整合到一个框架中。大量的实验明确证明了这些模块的有效性,并表明通过增加意图商品检测和文本模态可以实现额外的性能提升。本研究展示了从大规模多模态训练的角度来增强直播商品识别模型是有潜力的方法。我们希望提出的LPR4M数据集和RICE baseline能够激发学术界和工业界对直播商品识别任务的进一步研究。

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年9月26日00:18:44
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   ICCV 2023 | 基于跨视角语义对齐的直播商品识别https://cn-sec.com/archives/2066175.html

发表评论

匿名网友 填写信息