G.O.S.S.I.P 学术论文推荐 2021-07-22

admin 2022年4月23日09:01:40评论56 views字数 1965阅读6分33秒阅读模式

大家好,今天的论文推荐是来自CISPA张阳老师研究组和杜克大学Neil Gong老师研究组合作投稿的一篇关于图神经网络模型中的隐私泄漏的工作"Stealing Links from Graph Neural Networks",目前该工作已被Usenix Security 2021录用。

G.O.S.S.I.P 学术论文推荐 2021-07-22

图结构数据在日常生活当中被广泛应用,比如社交网络,分子式,知识图谱等等。收集图结构数据往往需要耗费大量的人力物力,图结构数据本身往往也隐含着一些敏感信息。

近年来,为了更好地处理图结构数据,研究人员提出了一种新型的神经网络————图神经网络 Graph Neural Networks(GNNs)。GNN在很多图相关任务上取得了优异的表现并且被广泛应用于各个领域,如社交网络,推荐系统,生物医疗等等。然而,使用GNN模型所造成的安全隐私风险还有待研究。

在本文中,作者提出了第一个针对GNN的link stealing attack。具体说来,给定任意两个被用来训练GNN的节点,攻击者的目标是预测这两个节点是否相连。该攻击揭示了在训练GNN时,训练数据的知识产权和隐私可能会遭到破坏。例如,该攻击侵犯了数据所有者的知识产权,因为图数据需要花费大量资源收集;同时,当图数据包含用户之间敏感的社会关系时,该攻击侵犯了用户隐私。

作者针对transductive GNN上的node classification任务进行了研究,具体说来,在训练阶段,所有节点的特征向量以及完整的图结构都会被用来训练GNN model,只有部分节点的label是缺失的,在训练完成后,GNN可以返回所有节点的label。因此,我们仅需要知道节点的id就能找到对应的预测后验概率(prediction posteriors)。

对于给定节点,GNN会聚合该节点本身的信息以及其邻居的信息,因此,如果两个节点相连,他们从GNN中得到的后验概率也更为相近,这也为成功的攻击奠定了基础。作者比较了不同数据集中相连节点对(positive node pairs)的prediction posteriors的correlation distance,并且发现其比不相连节点对(negative node pairs)要小,如下图所示。

G.O.S.S.I.P 学术论文推荐 2021-07-22


本文从attacker的角度出发,考虑了三个方面的背景信息:

  1. 节点的特征向量 (node features);

  2. 目标数据集的部分图结构信息 (partial graph);

  3. 影子数据集 (shadow dataset);

最终,作者针对不同的组合,提出了8个attacks,其中, attack-0和attack-2是unsupervised attacks, 其余为supervised attacks。

G.O.S.S.I.P 学术论文推荐 2021-07-22

同时,作者针对不同supervised attacks所需要用到的特征进行了总结:

G.O.S.S.I.P 学术论文推荐 2021-07-22

在实验阶段,作者考虑了8个公开数据集, 针对所有attacks的实验结果如下。

G.O.S.S.I.P 学术论文推荐 2021-07-22

作者发现,总体而言, attacker知道的信息越多, 攻击的效果越好。同时,在三类背景信息中,partial graph最为有效,其次是node feature,最后是shadow dataset。

同时,作者也观察到,在attacker使用shadow dataset进行攻击时,如果shadow dataset 和target dataset来自相似的domain,攻击的效果会更好。对于chamical dataset (AIDS、COX2、DHFR、ENZYMES、PROTEINS_full),攻击效果最好的shadow dataset 往往也是chamical dataset,同时对于citation dataset(Citeseer、Cora、Pubmed),攻击效果最好的shadow dataset 往往也是citation dataset。如下图所示。

G.O.S.S.I.P 学术论文推荐 2021-07-22

为了进一步探究其原因,作者提取了攻击模型隐藏层的输出(embeddings)并使用t-SNE将其降至2维进行可视化,如下图所示。

G.O.S.S.I.P 学术论文推荐 2021-07-22

作者发现,如果shadow dataset 和target dataset来自相似的domain,他们的embeddings分布会十分相似(Figure 3(a)),但是如果shadow dataset 和target dataset来自不同的domain,他们的embeddings分布会差异较大(Figure 3(b))。

最后,作者讨论了针对此攻击的防御方式:

  1. 限制prediction posteriors的位数,只返回top-k位;

  2. 采用差分隐私(DP)的方法对数据加噪声;

  3. 对抗训练(adversarial training);

论文链接:https://arxiv.org/pdf/2005.02131.pdf


原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 学术论文推荐 2021-07-22

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年4月23日09:01:40
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 学术论文推荐 2021-07-22http://cn-sec.com/archives/924200.html

发表评论

匿名网友 填写信息