2025年6月30日00:17:35评论10 views字数 2367阅读7分53秒阅读模式

1、Graph Attention Networks的诞生

随着GCN的大红大紫，图神经网络的研究可谓变得风生水起，人工智能又出现了新的网红。GCN在一系列任务取得了突破性进展的同时，一系列的缺点也逐渐被放大。

深度学习三巨头”之一的Yoshua Bengio组提出了Graph Attention Networks（下述简称为GAT）去解决GCN存在的问题并且在不少的任务上都取得了state of art的效果，是graph neural network领域值得关注的工作。

2、基础

2.1 Graph数据结构的两种“特征”

当我们说起graph或者network的数据结构，通常是包含着顶点和边的关系。研究目标聚焦在顶点之上，边用于描述着顶点之间的关系。

对于任意一个顶点，它在图上邻居 i ,构成第一种特征Ni, 即图的结构关系。

图神经网络系列六：GCN优化之GAT与lightGCN

图1 graph示意图

当然，除了图的结构之外，每个顶点还有自己的特征 hi（通常是一个高维向量）。它可以是社交网络中每个用户的个体属性；可以是生物网络中，每个蛋白质的性质；还可以是交通路网中，每个交叉口的车流量。

graph上的deep learning方法无外乎就是希望学习上面的两种特征。

2.2 GCN的局限性

GCN是处理直推式学习(transductive)任务的一把利器（transductive任务是指：训练阶段与测试阶段都基于同样的图结构），然而GCN有两大局限性是经常被诟病的：

无法完成归纳式学习(inductive)任务，即处理动态图问题。归纳式学习任务是指：训练阶段与测试阶段需要处理的graph不同。通常是训练阶段只是在子图（subgraph）上进行，测试阶段需要处理未知的顶点。（unseen node）
处理有向图的瓶颈，不容易实现分配不同的学习权重给不同的neighbor。这一点在前面的文章中已经讲过了，不再赘述，如有需要可以参考下面的链接。

2.3 Mask graph attention or global graph attention

还有一件事情需要提前说清楚：GAT本质上可以有两种运算方式的，这也是原文中作者提到的

Global graph attention

顾名思义，就是每一个顶点 i都对于图上任意顶点都进行attention运算。可以理解为图1的蓝色顶点对于其余全部顶点进行一遍运算。

优点：完全不依赖于图的结构，对于inductive任务无压力

缺点：

（1）丢掉了图结构的这个特征，无异于自废武功，效果可能会很差

（2）运算面临着高昂的成本

Mask graph attention

注意力机制的运算只在邻居顶点上进行，也就是说图1的蓝色顶点只计算和橙色顶点的注意力系数。

作者在原文中GAT ARCHITECTURE这一节中写道"We inject the graph structure into the mechanism by performing masked attention—we only compute eij for nodes j ∈Ni, whereNi is some neighborhood of node i in the graph. "

显然作者在文中采用的是masked attention，DGL里实现的也是如此，以下的解读均基于这种方式。

图神经网络系列六：GCN优化之GAT与lightGCN

3、 GAT并不难懂

和所有的注意力机制一样，GAT的计算也分为两个步骤：

3.1 计算注意力系数（attention coefficient）

图神经网络系列六：GCN优化之GAT与lightGCN

上面的步骤可以参考图2进行理解

图神经网络系列六：GCN优化之GAT与lightGCN

图2 第一步运算示意图

3.2 加权求和（aggregate）

图神经网络系列六：GCN优化之GAT与lightGCN

上面的步骤可以参考图3进行理解

图神经网络系列六：GCN优化之GAT与lightGCN

3.3 与GCN的联系与区别

我们可以发现本质上而言：GCN与GAT都是将邻居顶点的特征聚合到中心顶点上（一种aggregate运算），利用graph上的关系学习新的顶点特征表达。不同的是GCN利用了拉普拉斯矩阵，GAT利用attention系数。一定程度上而言，GAT会更强，因为顶点特征之间的相关性被更好地融入到模型中。

3.1 为什么GAT适用于有向图？

我认为最根本的原因是GAT的运算方式是逐顶点的运算（node-wise），这一点可从公式（1）—公式（3）中很明显地看出。每一次运算都需要循环遍历图上的所有顶点来完成。逐顶点运算意味着，摆脱了拉普利矩阵的束缚，使得有向图问题迎刃而解。

3.2 为什么GAT适用于inductive任务？

GAT中重要的学习参数是W与 a(·)因为上述的逐顶点运算方式，这两个参数仅与1.1节阐述的顶点特征相关，与图的结构毫无关系。所以测试任务中改变图的结构，对于GAT影响并不大，只需要改变 Ni，重新计算即可。

与此相反的是，GCN是一种全图的计算方式，一次计算就更新全图的节点特征。学习的参数很大程度与图结构相关，这使得GCN在inductive任务上遇到困境。

SIGIR20 | LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

什么是lightGCN?

lightGCN 是相对于一个更加经典的图神经网络：Neural Graph Collaborative Filtering (NGCF)而言，省去了相邻节点间的内积部分，因而加快了运行速度，同时也保证了预测的精准度。lightGCN可以看作NGCF的简化版。

图神经网络系列六：GCN优化之GAT与lightGCN

LightGCN化简了哪里

图神经网络系列六：GCN优化之GAT与lightGCN

lightGCN 是怎样实现的?

图神经网络系列六：GCN优化之GAT与lightGCN

lightGCN的网络结构如上图，分别用刚才提到的aggregation方法计算出1-hop到3-hop的subgraph embedding，再把他们一起通过下面的公式加权求和，得到最终的user和item embedding。

图神经网络系列六：GCN优化之GAT与lightGCN

lightGCN 的performance有怎样的提升

图神经网络系列六：GCN优化之GAT与lightGCN

原文始发于微信公众号（风物长宜 AI）：图神经网络系列六：GCN优化之GAT与lightGCN

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

图神经网络系列六：GCN优化之GAT与lightGCN

1、Graph Attention Networks的诞生

2、基础

2.1 Graph数据结构的两种“特征”

2.2 GCN的局限性

2.3 Mask graph attention or global graph attention

3、 GAT并不难懂

3.1 计算注意力系数（attention coefficient）

3.2 加权求和（aggregate）

3.3 与GCN的联系与区别

3.1 为什么GAT适用于有向图？

3.2 为什么GAT适用于inductive任务？

SIGIR20 | LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

什么是lightGCN?

LightGCN化简了哪里

lightGCN 是怎样实现的?

lightGCN 的performance有怎样的提升

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解

让主流大模型集体破防的回音室攻击

发表评论

在线咨询

微信

1、Graph Attention Networks的诞生

2、 基础

2.1 Graph数据结构的两种“特征”

2.2 GCN的局限性

2.3 Mask graph attention or global graph attention

3、 GAT并不难懂

3.1 计算注意力系数（attention coefficient）

3.2 加权求和（aggregate）

3.3 与GCN的联系与区别

3.1 为什么GAT适用于有向图？

3.2 为什么GAT适用于inductive任务？

SIGIR20 | LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

什么是lightGCN?

LightGCN化简了哪里

lightGCN 是怎样实现的?

lightGCN 的performance有怎样的提升

发表评论

在线咨询

微信

2、基础