WWW 2024|基于联邦异质图神经网络的隐私保护推荐

admin 2024年3月7日20:30:38评论9 views字数 4546阅读15分9秒阅读模式

WWW 2024|基于联邦异质图神经网络的隐私保护推荐


题目: Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation

作者Bo Yan, Yang Cao, Haoyu Wang, Wenchuan Yang, Junping Du, Chuan Shi

论文链接: http://www.shichuan.org/doc/173.pdf

论文代码: https://github.com/BUPT-GAMMA/FedHGNN

一. 摘要:

异质信息网络(HIN)包含了由元路径描述的丰富语义,已成为缓解推荐系统中数据稀疏性的有力工具。现有的基于HIN的推荐假设数据集中存储,并进行集中式的模型训练。然而,出于隐私考虑,真实世界的数据往往是分布式的,导致无法运行基于HIN的集中式推荐。在本文中,我们将HIN划分为存储在客户端的私有HIN和服务器上的共享HIN。基于这一设置,我们提出了一个基于联邦异质图神经网络(FedHGNN)的框架,该框架可以在不泄露用户隐私的情况下,在分布式HIN上协同训练推荐模型。具体来说,我们首先根据差分隐私给出了基于HIN的联邦推荐的形式化定义,旨在保护私有HIN的用户-项目交互以及用户的来自共享HIN的高阶模式。为了恢复分布式数据存储导致的基于元路径的语义破坏并满足所提出的隐私,我们设计了一种保留语义的用户交互发布方法,该方法局部干扰用户的高阶模式和相关的用户-项目交互进行发布。之后,我们提出了一个用于推荐的HGNN模型,该模型进行节点级和语义级聚合以捕获恢复的语义。在四个数据集上的大量实验表明,在合理的隐私预算下,我们的模型在很大程度上优于现有方法(在HR@10有34%和NDCG@10有42%的提升)。

二. 简介:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

现有的基于HIN的推荐系统通常基于数据集中存储的基本假设。如图1(a)和1(c)所示,在这个假设下,整个HIN是可见的,并且可以直接用于捕捉基于元路径的推荐语义。然而,这个假设并不总是成立的。用户-物品交互数据具有很高的隐私敏感性,集中存储可能会泄露用户的隐私信息。作为一种更现实的学习范式,联邦学习(FL)允许所有用户在不泄露隐私的情况下共同训练一个全局模型。联邦推荐(FedRec)是联邦学习在推荐场景中的一个重要应用,近年来,许多研究致力于联邦推荐,其中大部分关注传统的基于矩阵分解的联邦推荐。他们在本地更新用户因子,并将物品因子的梯度上传到服务器进行聚合。最近,一些研究开始探索基于图神经网络 (GNN)的联邦推荐。他们在用户-物品二分图上训练本地GNN模型,并将嵌入和模型参数的梯度上传到服务器。尽管取得了一定的成功,但它们仍然面临数据稀疏性问题。一个自然的方案是使用HIN来丰富稀疏的交互数据。然而,基于HIN的联邦推荐并不容易,它面临两个挑战。首先,缺乏对基于HIN的联邦推荐的形式隐私定义。与仅利用私有信息(即用户-物品交互)的传统联邦推荐相比,基于HIN的联邦推荐还可以利用一些可在用户之间共享的共享知识(例如图1(a)中的电影类型和导演关系)。这些共享知识可能会暴露用户的高阶模式(例如用户喜欢的电影类型)。因此,首先需要明确基于HIN的联邦推荐中的隐私定义。其次,基于HIN的联邦推荐中,元路径的语义被破坏。如图1(b)所示,HIN以分布式方式存储,用户只能访问其一跳邻居。因此,整体的元路径被破坏,无法进行基于元路径的邻居聚合,而这是基于HIN的推荐的关键组成部分。如图1(c)和(d)所示,由于UMU和UMDMU的语义被破坏,基于元路径的邻居聚合失败。

为了应对这些挑战,在本文中,我们研究了基于HIN的联邦推荐,主要贡献总结如下:

(1)据我们所知,这是第一篇研究基于HIN的FedRec的工作,这是现实场景中一个重要且实际的任务。(2)我们设计了一个基于HIN的联邦推荐框架FedHGNN。我们给出了一个形式化的隐私定义,并提出了一种新颖的保持语义的扰动方法,用于发布用户交互以进行推荐。我们还对发布过程给出了严格的隐私保证。(3)我们在四个真实世界的数据集上进行了大量实验,结果显示FedHGNN在HR@10指标上比现有的FedRec方法提高了高达34%,在NDCG@10指标上提高了42%,同时保持了合理的隐私预算。此外,与集中式方法相比,FedHGNN取得了相当甚至更好的结果。

三. 方法

3.1 隐私定义

  1. -语义隐私。给定一个与用户相关的共享HIN列表,扰动机制满足-语义隐私当且仅当对于任何,使得仅有一位不同,有

    WWW 2024|基于联邦异质图神经网络的隐私保护推荐

  1. -语义引导的交互隐私。给定一个语义引导的邻接列表,扰动机制满足 -语义引导的交互隐私当且仅当对于任何,使得仅有一位不同,有

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

3.2 语义保留的用户交互发布

1. 用户相关共享HIN扰动。

直观上,应该以很高的概率选择真正的用户相关共享HIN。因此,根据EM理论,对于具有相关共享HIN集的用户,我们设计选择共享HIN的效用如下:
    WWW 2024|基于联邦异质图神经网络的隐私保护推荐

上式表示如果一个共享HIN 与用户相关的共享HIN集更相似,则应该以高概率选择它。对此,相似度函数有多种选择,我们选择中余弦相似度最高的作为相似度函数,主要为了实现更小的敏感度。因此,敏感度设为:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

根据EM,选择一个共享HIN 的概率为:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

通过这种机制,由于我们以高概率选择相似的共享知识,因此用户的高阶模式得到了最大程度的保留。

2. 用户项目交互扰动

获得扰动的后,我们可以提取语义引导项集。用户-项目交互扰动是在项目集中而不是整个项目集中进行的。由于我们的-语义引导交互隐私是在中定义的,因此忽略之外的项目对隐私保证没有影响。此外,也避免了引入更多不相关的项目,降低了沟通成本。用户项目扰动机制对每个语义引导项目集执行度保持的随机相应(DPRR)。具体来说,DPRR首先应用RR来扰动用户对应共享HIN 的邻接列表,以概率保持某位不变,因此,每位被扰动位1的概率为:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

根据度保持特性,应设置为:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

由于共享 HIN 上的扰动,的子集可能不包含用户-项目交互,为了不损失语义,在这种情况下,我们随机选择其中的一些项目,使总度数等于真实度数。通过这种方式,根据我们共享的 HIN 选择机制,保留了用户-项目交互的语义。

3.3 用于推荐的异质图神经网络    

给定恢复的元路径,我们的 HGNN 首先利用节点级注意力来学习元路径下不同邻居的权重。然后,加权聚合嵌入被输入到语义级注 意力中,以在不同元路径下聚合嵌入。按照这个过程,我们给出了获取用户嵌入的示例。

1. 节点级聚合

基于恢复的元路径邻居,首先执行节点级聚合以获得基于元路径的用户嵌入:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

由于邻居都在元路径中,因此语义被融合到用户的嵌入中。给定元路径集合, 可以获得用户个嵌入

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

2. 语义级聚合

具有特定元路径的用户嵌入仅包含单个语义(例如,UMU)。在我们从不同的元路径获得用户嵌入后,进行基于注意力的语义 级聚合以融合不同的语义。根据学习到的注意力权重执行语义级聚合以获得最终的用户嵌入:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

3. 排序损失

通过上述过程,我们得到了最终的用户嵌入和项目嵌入,应用经典的贝叶斯个性化排序(BPR)损失函数来优化参数:

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

四. 实验

我们在4个数据集ACM,DBLP,Yelp和Douban Book上进行了实验。实验结果如下所示:

  • 总体表现

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

从表中可以看出(1)FedHGNN 大幅优于所有联邦推荐模型(HR@10 提升高达 34%,NDCG@10 高达 42%),这证明了我们模型的有效性。令人惊讶的是,FedHGNN 还优于几种集中式模型(特别是非基于 HIN 的方法,例如 NGCF),这归因于利用了更多异构信息。(2) 在集中式模型中,基于 HIN 的方法表现更好,特别是在稀疏数据集(例如 DBLP)上,因为引入了额外的语义信息来缓解冷启动问题。(3) 在联邦模型中,FedMF 表现不佳,因为它忽略了对冷启动推荐很重要的高阶交互。PFedRec由于引入了个性化的项目嵌入取得不错的效果。其他联邦模型通过隐私保护图扩展来改进这一点(FedSog 假设社会关系是公开的)。相比之下,我们的 FedHGNN 进一步考虑语义信息,并在理论上保证隐私。

  • 消融实验

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

我们也在三个数据集上进行了消融实验。可以看出:

(1)在对邻接表进行两阶段扰动之后,FedHGNN的性能甚至优于没有扰动的模型。我们发现经过扰动后有些不活跃用户的交互数略有增加,考虑到数据集相对稀疏,我们认为扰动可以被视为缓解冷启动推荐问题的有效数据增强方法。(2) 单纯RR和DPRR表现不佳,因为它们随机扰乱用户-项目交互而不考虑语义保留。纯RR 的表现甚至更差,因为它使图更密集并导致扰动放大效应。DPRR保留了度,但未能保留用户-项目交互模式。因此我们可以得出这样的结论:语义保留需要度保留和特征保留。(3)添加一阶段扰动(EM)会损害性能,但这是必要的,否则我们无法保护用户高阶模式。由于我们设计了基于相似性的 EM,性能并未显著下降。同时发现,FedHGNN 也优于,这表明我们应该在 EM 之后保持用户-项目交互的多样性,即交互的项目应该存在于每个选定的共享 HIN 中。

  • 参数分析

我们研究了 FedHGNN 中一些重要参数的影响,包括共享 HIN 的数量以及隐私预算。实验结果如下图所示

WWW 2024|基于联邦异质图神经网络的隐私保护推荐

为了分析不同下的效果,我们将其他超参数固定不变并进行变化以比较性能。考虑两种极端条件:当时,两阶段扰动退化为仅第二阶段扰动,即用 DPRR 对整个项目集的扰动,这无法保持用户-项目交互模式;当,根据DPRR,相当于第一阶段扰动后在每个1的位上进行RR,直观上会比表现好。根据这个理论,越大性能就会提高。然而,可以看出,所有数据集的性能在增加的初始阶段都有急剧的增量趋势,然后曲线变得平滑,甚至出现下降趋势。我们将这种现象归因于具有扰动的用户-项目交互的模型可能比真实交互的模型表现得更好,如表 3 所示,并且较大的会减少这种影响。综上所述,控制效用和隐私之间的权衡,较大的值可能会带来相对较高的效用,但隐私保护较弱,因为攻击者可以在较小的范围内完成用户-项目交互的推断。

为了分析不同的影响,我们将一个参数固定为 1,并将另一个参数从 0.5 更改为 16。控制用户高阶模式(相关共享HIN)的保护强度。我们可以看到,指标随着逐渐增加而上升,表明用户高阶模式对于推荐很重要,而当太小时(例如,0.5),这些模式就会被破坏。固定变化时,性能曲线会先上升,然后略有下降。我们推断由于第一阶段对用户行为模式的扰动,第二阶段的扰动是针对污染的交互进行的。因此,当较大时,性能仍可能下降。它还表明进行适度的扰动将提高性能(例如,)。

五. 结论

在本文中,我们首次探讨了基于 HIN 的联邦推荐这一具有挑战性问题。我们在联邦 HIN 中形式化了隐私的定义,并提出了一种具有严格隐私保证的语义保持用户-项目发布方法。将这种发布方法融入先进的异质图神经网络中,我们提出了一个用于推荐的 FedHGNN 框架。实验表明,该模型在可接受的隐私预算下达到了令人满意的效果。






本期责任编辑:杨成
本期编辑:岳大帅

北邮 GAMMA Lab 公众号
主编:石川
责任编辑:杨成
编辑:岳大帅

长按下图并点击“识别图中二维码

即可关注北邮 GAMMA Lab 公众号

WWW 2024|基于联邦异质图神经网络的隐私保护推荐



原文始发于微信公众号(北邮 GAMMA Lab):WWW 2024|基于联邦异质图神经网络的隐私保护推荐

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年3月7日20:30:38
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   WWW 2024|基于联邦异质图神经网络的隐私保护推荐https://cn-sec.com/archives/2557076.html

发表评论

匿名网友 填写信息