图神经网络架构搜索Benchmark

admin

145721
文章

119
评论

2022年12月21日10:58:38评论62 views字数 3303阅读11分0秒阅读模式

本文旨在简要介绍近期发表在NIPS2022 Datasets and Benchmarks Track上的一个图神经网络架构搜索（GNAS）的节点分类Benchmark，同时也是GNAS的第一个Benckmark。

原文：

https://openreview.net/pdf?id=bBff294gqLp

1 背景

神经网络架构搜索（NAS）作为自动机器学习（AutoML）的一个重要组成部分，旨在自动的搜索神经网络结构。NAS的研究最早可以追溯到上世纪八十年代，随着算力的提升和神经网络的发展，自动搜索神经网络逐渐成为深度学习的的热门方向之一。NAS的研究主要分为三个方面：搜索空间，搜索算法，以及评估策略。

1.1 搜索空间

搜索空间与探究的问题息息相关，在计算机视觉中，NAS的搜索空间常常是一些CNN相关，如3x3卷积或5x5卷积。在图神经网络中，从宏观来说，我们可以搜索GNN的层数等，从微观来说，我们可以搜索GNN的message passing和aggregation function等。下图是一些代表的GNN搜索空间 (同质图，图分类，图推荐，以及异质图)。

如何针对不同实际问题，设计好的搜索空间是GNAS领域最重要的问题之一。

1.2 搜索算法

在搜索算法上，NAS本质上要解决的是针对搜索空间的组合优化问题，比较典型的有强化学习（RL）,进化算法（EA）贝叶斯优化（BO）以及将搜索空间连续化的可微搜索（Differentiable Search）等等。

1.3 评估策略

早期NAS方法直接以验证集上实际指标的来评估搜索出来模型的好坏，但是从头训练一个模型得到验证集上的性能比较昂贵，于是研究者开始使用代理指标（Proxy Metric）去替代真实的验证集性能，这些代理指标通常不需要太多计算开销。如何找到高效且接近真实验证集性能的代理指标也是NAS值得研究的问题。

1.4 NAS Benchmark

NAS Benchmark（如NAS-Bench-101，NAS-Bench-201等）主要思想是在搜索空间中穷尽搜索子网络，将子网的结构以及对应的验证集精度记录下来，形成一个表，研究人员使用的时候只需要通过查表就可以得到对应的验证集精度，这样就不需要重新训练和测试，降低了对计算资源的依赖，同时也为NAS的研究者提供公平比较。但是在Graph领域还没有类似的工作，本文是Graph NAS Benchmark的第一个工作。

2 方法介绍

2.1 搜索空间

本文在搜索的宏观架构上使用了以下九种结构：

每个节点有九种可选组合：GCN, GAT, GraphSAGE , GIN, ChebNet, ARMA, k-GNN, Identity (残差连接) 以及FC (Fully Connected Layer，不使用图结构)，作者移除了同构的架构图产生了一个包含26,206种GNN的搜索空间。

2.2 数据集

本文在如下九个常见的节点分类数据集进行了实验：

2.3 分析

2.3.1 性能分布

本文可视化了所有数据集与推理延迟的关系，如下图，其中红色的部分代表着模型性能和模型推理延迟（一般来说模型越大延迟越高）的帕累托前沿（Pareto Front）：

作者发现尽管高性能的架构最终效果都差不多，但是越大的模型总是能获得更高的性能，并且作者计算了模型性能与模型大小的相关系数，发现是正相关的，因此我们在设计GNN时需要做出模型大小和效果的权衡。

2.3.2 架构分布

作者选择了表现top 5%的一个结构对宏观操作和GNN类型做了频率统计绘制了如下图

从图（a）中我们可以看出Cora、Citeeer和PubMed倾向于选择两层GNN，即E、F、G和H（见2.1）;PudMed和CS也更喜欢选择在其他数据集中很难选择的1层的GNN如I; Physics, Photo和 Computers数据集在选择上更均匀。ogbn-arXiv和ogbn-proteins 更喜欢选择更深的GNN。

从图（b）中我们可以看出GCN和GAT几乎在所有数据集中选择频率最高；GIN和k-GNN在理论上更接近WL-test，但他们只在相对较小的数据集（Cora、Citeeer和PubMed）中容易被选中，作者给出的解释是这些GNN在聚合的过程中使用了大量sum聚合，不适用于大规模图中的节点级任务。

2.3.3 跨任务

作者选取不同数据集中top 5%的架构做了任务之间的相关性比较（其中重复率代表着top 5%的结构在两个不同间重叠的部分），并可视化如下图：

从图中可以看出Cora、Citeeer和PubMed通显示出很强的相关性。Physics, Photo, Computers,和 ogbn-arXiv的相关性也很高。即使Pearson和Kendall很大，但前5%的重叠率也不高。也就是说我们在不同数据集之间直接迁移最有架构可能在另外一个数据集并不是最优。

2.3.4 搜索实验

本文做了以下搜索实验，有以下发现：

所有搜索算法都优于前5%架构，表明从搜索的角度来说这些搜索算法都是有效的。

没有一种搜索算法能在所有数据集上获胜。与其他搜索相比，随机搜索仍然是一个强大的baseline，甚至在两个数据集上表现最好，结果表明，我们需要对GraphNAS的进一步研究。

2.3.5 使用

本文所提供的Benchmark易于使用，下面是一个python代码的使用例子：

代码地址：THUMNLab/NAS-Bench-Graph (github.com)

3 总结

这个工作作为第一个GNAS的Benchmark，本文对GNAS领域的社区发展做出了贡献。同时本文从搜索出的结构出发，在不同的角度给出了设计节点级别的GNN的指导，对设计节点级别GNN做出了一定的贡献。但是本文也有其局限性，对于图级别的任务和异质图的任务，本文没有进行探索，我们期待在将来看到更多的相关工作。

参考资料

[1] Zhenyi Wang, Huan Zhao, and Chuan Shi. 2022. Profiling the Design Space for Graph Neural Networks Based Collaborative Filtering. In WSDM. 1109–1119.

[2] Jiaxuan You, Zhitao Ying, and Jure Leskovec. 2020. Design space for graph neural networks. NeurIPS 33 (2020).

[3] Chris Ying, Aaron Klein, Eric Christiansen, Esteban Real, Kevin Murphy, and Frank Hutter. Nas-bench-101: Towards reproducible neural architecture search. In ICML, pages 7105–7114. PMLR, 2019.

[4] Xuanyi Dong and Yi Yang. Nas-bench-201: Extending the scope of reproducible neural architecture search. In ICLR, 2019.

[5] T. Elsken, J. H. Metzen, F. Hutter, Neural architecture search: A survey, arXiv preprint arXiv:1808.05377

[6] Tianyu Zhao, Cheng Yang, Yibo Li, Quan Gan, Zhenyi Wang, Fengqi Liang, Huan Zhao, Yingxia Shao, Xiao Wang, and Chuan Shi† . 2022. Space4HGNN: A Novel, Modularized and Reproducible Platform to Evaluate Heterogeneous Graph Neural Network. In SIGIR 2022,

本期责任编辑：杨成

本期编辑：刘佳玮

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：王啸、杨成

编辑：刘佳玮

长按下图并点击“识别图中二维码”

即可关注北邮 GAMMA Lab 公众号

图神经网络架构搜索Benchmark

原文始发于微信公众号（北邮 GAMMA Lab）：图神经网络架构搜索Benchmark

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

图神经网络架构搜索Benchmark

1 背景

1.1 搜索空间

1.2 搜索算法

1.3 评估策略

1.4 NAS Benchmark

2 方法介绍

2.1 搜索空间

2.2 数据集

2.3 分析

2.3.1 性能分布

2.3.2 架构分布

2.3.3 跨任务

2.3.4 搜索实验

2.3.5 使用

3 总结

参考资料

专题研讨｜赵宪伟：海量电子数据审查的实现路径（三）

网络安全厂商如何转型穿越寒冬

NSFOCUS旧友记金超前《狂风暴雨幸同船》

甲方利用开源工具进行钓鱼演练

【海量电子数据审查的实现路径】

【加密备份中的数字证据】

Nginx 配置 HTTPS

译文 | 《基础设施即代码》的研究和趋势分析

译文 | 使用 Defender 和 Microsoft Sentinel 检测恶意软件杀伤链

服务器取证基础—LINUX系统基本操作

发表评论

在线咨询

微信