图模型的缩放定律
一、简介
随着大语言模型的不断发展,关于LLM的缩放定律的研究也不断深入。2020年,OpenAI率先提出了LLM的缩放定律,指出数据和算力是scaling law的关键要素。而在2022年,Deepmind团队提出了另一种视角的缩放定律,并表示应当平衡算力和数据的关系,从而充分利用数据,一定程度上降低模型的规模。2024年,斯坦福大学和Deepmind给出了关于推理的缩放定律,指出在获得正确答案概率不为零的情况下,任意模型可以通过重复采样不断逼近正确答案,并得到了更具性价比的推理解决方案。
图基础模型是目前图社区最为关注的研究课题之一。而图模型是否存在与大语言模型相似的缩放定律,也是能否实现图基础模型必须回答的关键问题之一。在探索图模型缩放定律的道路上,密西根州立大学汤继良团队和人大高瓴魏哲巍团队走在了前面,两个团队独立参考大语言模型缩放定律的形式,针对图模型的问题,对图模型的缩放定律做了一定的探索,本文将简要介绍这些研究成果。
二、关于图上的神经缩放定律
2024年2月,汤继良团队率先给出了关于图上的神经缩放定律的一份研究成果。他们对来自不同任务的许多图数据集进行了基准测试,并尝试从模型和数据的角度建立关于图的神经缩放定律。其研究的模型大小高达 1 亿个参数,研究的数据集大小高达 5000 万个样本,并首先验证了这种定律在图上的有效性,建立了适当的公式来描述缩放行为。
其发现,尽管参数数量很重要,模型深度在影响模型缩放行为方面也起着重要作用,这与其他领域(如计算机视觉和自然语言处理)的观察结果不同。对于数据缩放,其认为图的数量不能有效地衡量缩放定律中的图数据量,因为不同图的大小高度不规则。相反,以节点或边的数量作为指标来改革数据缩放定律,以解决不规则的图大小。汤继良团队进一步证明了改革后的定律为各种基本图任务(包括节点分类、链接预测和图分类)的数据缩放行为提供了统一的视角。
2.1 公式
为了确保观察的一致性,其给出了以下公式:
其中 是对应于特定指标的测试分数, 。 公式 1 将在后续章节中使用,以拟合分类任务的缩放定律。
2.2 图上基本缩放定律的有效性
其首先评估模型在各种大小和训练集大小上的性能。模型选择GIN,数据集选择PCQM4MV2 和 OGBG-PPA。
GIN在PCQM4MV2和OGBG-PPA数据集上的综合缩放行为。对于PCQM4MV2,颜色对应均方误差的值;对于OGBG-PPA,颜色对应准确率。如高R2值所示,神经缩放定律预测的曲面与两个数据集上的经验值非常吻合。基于上述观察,其认为,图领域中的模型和数据缩放行为可以用神经缩放定律来描述。
2.3 模型深度对图缩放定律的影响
图领域中一个独特的问题是模型深度是否会影响模型缩放定律,或者更具体地说,是否会影响公式 1 中的缩放定律系数。
上图表明,具有不同模型深度的 GNN 和图 Transformer 的模型缩放行为。颜色对应于模型层。所有模型都表现出不同的、随模型深度变化的缩放行为。由此其得到另一个发现:不同深度的深度图模型将具有不同的模型缩放行为。
2.4 图缩放律的适当数据度量
在本节中,其研究图上的数据缩放定律。具体来说,我们重新审视先前研究中的数据指标,并揭示了将图的数量作为数据缩放定律中数据指标的缺点。
在两个不同大小的训练子集上,GIN的模型缩放曲线。(a) 两个子集具有相同的图的总数,但边的总数不同。(b) 两个子集具有相同的边的总数,但图的总数不同。阴影对应于重复实验的性能差异。与图 8(a) 相比,图 8(b) 中的曲线差异小得多,这表明边的总数可能比图的数量更好。因此其得到另一个结论:与图的数量相比,边的数量是数据缩放定律更好的数据指标。
小结
汤继良团队的这份工作启发意义很大,是第一份成体系探索图模型是否存在缩放定律的工作。
三、探索大规模图上节点分类的神经缩放定律和数据剪枝方法(WWW 2024)
人大高瓴魏哲巍团队深入研究节点分类任务。在网络级图上的普遍存在的节点分类任务,其特性,例如非独立同分布(non-IID)和转导式设置,很可能导致不同的缩放规律,并激发新的技术来打破这种规律。
因此,其首先探索了在三个大规模图上的节点分类任务的神经缩放规律。然后,其对这些任务上几种最先进的数据修剪方法进行了基准测试,不仅验证了改进原始不令人满意的缩放定律的可能性,还深入了解了选择有效训练节点子集的难点和代表性原则。
3.1 幂律的观察
其对 OGB的三个节点分类数据集进行研究,分别是 ogbn-products、ogbn-papers100M 和 MAG240M。为了观察的普遍性,其将 GraphSage应用于 ogbn-products,将 SGC应用于 ogbn-papers100M,将 GAT应用于 MAG240M,其中采用 OGB 的官方实现。
为了观察学习模型的性能如何随着不同数量的训练节点而变化,其随机选择一部分训练节点,其中所考虑的比例范围从 20% 到 100%,增量为 10%。同时,所有提供的测试节点都用于性能评估。
在图 1 中展示了实验结果,并绘制了在考虑的剪枝率下随机剪枝的性能和一个拟合的幂函数(用 “Fitted” 表示)。可以看出,这两条曲线表现出显著的相似性,表明性能随着训练节点的数量以幂律缩放,并可以用解析方式表达为 ,其中 表示测试节点的错误率, 表示训练节点的数量, 表征变化的速度。
由于本文聚焦于图模型的缩放定律,因此魏老师这份工作的其他内容不再赘述。
四、跨域图数据缩放:使用扩散模型的展示
由于图之间的异质性,当前的图预训练方法难以扩大数据规模。为了实现有效的数据缩放,图社区的目标是开发一个能够捕获图的各种数据模式的通用模型,并可以自适应地帮助下游任务。为此,汤继良团队提出了 UniAug,一个基于扩散模型的通用图结构增强器。其首先在跨领域的数千个图上预训练一个离散扩散模型,以学习图的结构模式。在下游阶段,其通过借助预训练的扩散模型通过引导生成来执行图结构增强,从而提供自适应增强。通过利用预训练的扩散模型进行结构增强,其在各种下游任务中以即插即用的方式持续取得性能提升。
4.1 UniAug的工作流程
汤继良团队预训练一个跨域扩散模型,并在下游图上执行结构增强。增强后的图由生成的结构和原始的节点特征组成,然后由下游的 GNN 处理。
这一结构非常巧妙地间接解决了跨域问题。使用扩散模型,而不是图模型,可以有效增强数据,从而大幅提高下游GNN模型的数据处理能力。
4.2 UniAug的缩放行为
基于神经缩放法则,汤继良团队预计 UniAug 将受益于数据覆盖的增加和更多的计算预算。在本小节中,其将研究 UniAug 在数据规模和预训练计算量方面的缩放行为。
4.2.1 数据覆盖范围
在数据收集过程中,其准备了三个版本的训练数据,这些数据在图分布上的规模逐渐增大,覆盖范围也逐渐扩大。其首先从Network Repository中每个类别抽取10个图,构建一个SMALL集合。接下来,其从Network Repository中收集所有图,并过滤掉大规模图和异常值,形成一个FULL集合。此外,其从TUDataset中添加了GitHub Star数据集的1000个图的子集,以扩大不同模式的覆盖范围,并形成一个EXTRA集合。其分别在这三个集合上预训练了三个版本的UniAug,并在图分类和链接预测上对其进行评估。如下图所示,其观察到,随着预训练数据覆盖范围的扩大,性能呈现明显的提升趋势。这为将UniAug扩展到更多具有不断扩展的图分布的预训练图奠定了基础。
4.2.2 计算量
汤继良团队试图了解随着持续训练,其扩散模型学习数据模式的效果如何。为此,在EXTRA集合上训练时,其每2,000个周期(5×10−3 PF-days)对UniAug进行一次检查点保存,并将其应用于图分类和链接预测任务。结果如下图所示。下游性能通常随着训练时间的延长而提升,但在达到8,000个周期时,某些数据集的提升趋势有所放缓。鉴于观察到的扩展行为,其预计UniAug在获得更多资源后将变得更加有效。
五、总结
本文简要介绍了关于图模型的缩放定律的相关研究成果,这一研究领域与图基础模型密切相关,可以为图模型预训练、图模型的数据需求、图模型的跨域等问题提供可能的解决方案。
参考文献
Liu, Jingzhe, et al. "Neural scaling laws on graphs." arXiv preprint arXiv:2402.02054 (2024).
Wang, Zhen, et al. "Exploring Neural Scaling Law and Data Pruning Methods For Node Classification on Large-scale Graphs." Proceedings of the ACM on Web Conference 2024. 2024.
Tang, Wenzhuo, et al. "Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models." arXiv preprint arXiv:2406.01899 (2024).
原文始发于微信公众号(北邮 GAMMA Lab):专题解读 | 图模型的缩放定律
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论