专题解读 | 图模型的缩放定律

admin 2025年3月12日12:58:53评论16 views字数 3784阅读12分36秒阅读模式

图模型的缩放定律

一、简介

随着大语言模型的不断发展,关于LLM的缩放定律的研究也不断深入。2020年,OpenAI率先提出了LLM的缩放定律,指出数据和算力是scaling law的关键要素。而在2022年,Deepmind团队提出了另一种视角的缩放定律,并表示应当平衡算力和数据的关系,从而充分利用数据,一定程度上降低模型的规模。2024年,斯坦福大学和Deepmind给出了关于推理的缩放定律,指出在获得正确答案概率不为零的情况下,任意模型可以通过重复采样不断逼近正确答案,并得到了更具性价比的推理解决方案。

图基础模型是目前图社区最为关注的研究课题之一。而图模型是否存在与大语言模型相似的缩放定律,也是能否实现图基础模型必须回答的关键问题之一。在探索图模型缩放定律的道路上,密西根州立大学汤继良团队和人大高瓴魏哲巍团队走在了前面,两个团队独立参考大语言模型缩放定律的形式,针对图模型的问题,对图模型的缩放定律做了一定的探索,本文将简要介绍这些研究成果。

二、关于图上的神经缩放定律

2024年2月,汤继良团队率先给出了关于图上的神经缩放定律的一份研究成果。他们对来自不同任务的许多图数据集进行了基准测试,并尝试从模型和数据的角度建立关于图的神经缩放定律。其研究的模型大小高达 1 亿个参数,研究的数据集大小高达 5000 万个样本,并首先验证了这种定律在图上的有效性,建立了适当的公式来描述缩放行为。

其发现,尽管参数数量很重要,模型深度在影响模型缩放行为方面也起着重要作用,这与其他领域(如计算机视觉和自然语言处理)的观察结果不同。对于数据缩放,其认为图的数量不能有效地衡量缩放定律中的图数据量,因为不同图的大小高度不规则。相反,以节点或边的数量作为指标来改革数据缩放定律,以解决不规则的图大小。汤继良团队进一步证明了改革后的定律为各种基本图任务(包括节点分类、链接预测和图分类)的数据缩放行为提供了统一的视角。

2.1 公式

为了确保观察的一致性,其给出了以下公式:

其中  是对应于特定指标的测试分数, 。 公式 1 将在后续章节中使用,以拟合分类任务的缩放定律。

2.2 图上基本缩放定律的有效性

其首先评估模型在各种大小和训练集大小上的性能。模型选择GIN,数据集选择PCQM4MV2 和 OGBG-PPA。

专题解读 | 图模型的缩放定律

GIN在PCQM4MV2和OGBG-PPA数据集上的综合缩放行为。对于PCQM4MV2,颜色对应均方误差的值;对于OGBG-PPA,颜色对应准确率。如高R2值所示,神经缩放定律预测的曲面与两个数据集上的经验值非常吻合。基于上述观察,其认为,图领域中的模型和数据缩放行为可以用神经缩放定律来描述。

2.3 模型深度对图缩放定律的影响

图领域中一个独特的问题是模型深度是否会影响模型缩放定律,或者更具体地说,是否会影响公式 1 中的缩放定律系数。

专题解读 | 图模型的缩放定律

上图表明,具有不同模型深度的 GNN 和图 Transformer 的模型缩放行为。颜色对应于模型层。所有模型都表现出不同的、随模型深度变化的缩放行为。由此其得到另一个发现:不同深度的深度图模型将具有不同的模型缩放行为。

2.4 图缩放律的适当数据度量

在本节中,其研究图上的数据缩放定律。具体来说,我们重新审视先前研究中的数据指标,并揭示了将图的数量作为数据缩放定律中数据指标的缺点。

专题解读 | 图模型的缩放定律

在两个不同大小的训练子集上,GIN的模型缩放曲线。(a) 两个子集具有相同的图的总数,但边的总数不同。(b) 两个子集具有相同的边的总数,但图的总数不同。阴影对应于重复实验的性能差异。与图 8(a) 相比,图 8(b) 中的曲线差异小得多,这表明边的总数可能比图的数量更好。因此其得到另一个结论:与图的数量相比,边的数量是数据缩放定律更好的数据指标。

小结

汤继良团队的这份工作启发意义很大,是第一份成体系探索图模型是否存在缩放定律的工作。

三、探索大规模图上节点分类的神经缩放定律和数据剪枝方法(WWW 2024)

人大高瓴魏哲巍团队深入研究节点分类任务。在网络级图上的普遍存在的节点分类任务,其特性,例如非独立同分布(non-IID)和转导式设置,很可能导致不同的缩放规律,并激发新的技术来打破这种规律。

因此,其首先探索了在三个大规模图上的节点分类任务的神经缩放规律。然后,其对这些任务上几种最先进的数据修剪方法进行了基准测试,不仅验证了改进原始不令人满意的缩放定律的可能性,还深入了解了选择有效训练节点子集的难点和代表性原则。

3.1 幂律的观察

其对 OGB的三个节点分类数据集进行研究,分别是 ogbn-products、ogbn-papers100M 和 MAG240M。为了观察的普遍性,其将 GraphSage应用于 ogbn-products,将 SGC应用于 ogbn-papers100M,将 GAT应用于 MAG240M,其中采用 OGB 的官方实现。

专题解读 | 图模型的缩放定律

为了观察学习模型的性能如何随着不同数量的训练节点而变化,其随机选择一部分训练节点,其中所考虑的比例范围从 20% 到 100%,增量为 10%。同时,所有提供的测试节点都用于性能评估。

在图 1 中展示了实验结果,并绘制了在考虑的剪枝率下随机剪枝的性能和一个拟合的幂函数(用 “Fitted” 表示)。可以看出,这两条曲线表现出显著的相似性,表明性能随着训练节点的数量以幂律缩放,并可以用解析方式表达为 ,其中  表示测试节点的错误率, 表示训练节点的数量, 表征变化的速度。

由于本文聚焦于图模型的缩放定律,因此魏老师这份工作的其他内容不再赘述。

四、跨域图数据缩放:使用扩散模型的展示

由于图之间的异质性,当前的图预训练方法难以扩大数据规模。为了实现有效的数据缩放,图社区的目标是开发一个能够捕获图的各种数据模式的通用模型,并可以自适应地帮助下游任务。为此,汤继良团队提出了 UniAug,一个基于扩散模型的通用图结构增强器。其首先在跨领域的数千个图上预训练一个离散扩散模型,以学习图的结构模式。在下游阶段,其通过借助预训练的扩散模型通过引导生成来执行图结构增强,从而提供自适应增强。通过利用预训练的扩散模型进行结构增强,其在各种下游任务中以即插即用的方式持续取得性能提升。

4.1 UniAug的工作流程

专题解读 | 图模型的缩放定律

汤继良团队预训练一个跨域扩散模型,并在下游图上执行结构增强。增强后的图由生成的结构和原始的节点特征组成,然后由下游的 GNN 处理。

这一结构非常巧妙地间接解决了跨域问题。使用扩散模型,而不是图模型,可以有效增强数据,从而大幅提高下游GNN模型的数据处理能力。

4.2 UniAug的缩放行为

基于神经缩放法则,汤继良团队预计 UniAug 将受益于数据覆盖的增加和更多的计算预算。在本小节中,其将研究 UniAug 在数据规模和预训练计算量方面的缩放行为。

4.2.1 数据覆盖范围

在数据收集过程中,其准备了三个版本的训练数据,这些数据在图分布上的规模逐渐增大,覆盖范围也逐渐扩大。其首先从Network Repository中每个类别抽取10个图,构建一个SMALL集合。接下来,其从Network Repository中收集所有图,并过滤掉大规模图和异常值,形成一个FULL集合。此外,其从TUDataset中添加了GitHub Star数据集的1000个图的子集,以扩大不同模式的覆盖范围,并形成一个EXTRA集合。其分别在这三个集合上预训练了三个版本的UniAug,并在图分类和链接预测上对其进行评估。如下图所示,其观察到,随着预训练数据覆盖范围的扩大,性能呈现明显的提升趋势。这为将UniAug扩展到更多具有不断扩展的图分布的预训练图奠定了基础。

专题解读 | 图模型的缩放定律

4.2.2 计算量

汤继良团队试图了解随着持续训练,其扩散模型学习数据模式的效果如何。为此,在EXTRA集合上训练时,其每2,000个周期(5×10−3 PF-days)对UniAug进行一次检查点保存,并将其应用于图分类和链接预测任务。结果如下图所示。下游性能通常随着训练时间的延长而提升,但在达到8,000个周期时,某些数据集的提升趋势有所放缓。鉴于观察到的扩展行为,其预计UniAug在获得更多资源后将变得更加有效。

专题解读 | 图模型的缩放定律

五、总结

本文简要介绍了关于图模型的缩放定律的相关研究成果,这一研究领域与图基础模型密切相关,可以为图模型预训练、图模型的数据需求、图模型的跨域等问题提供可能的解决方案。

参考文献

Liu, Jingzhe, et al. "Neural scaling laws on graphs." arXiv preprint arXiv:2402.02054 (2024).

Wang, Zhen, et al. "Exploring Neural Scaling Law and Data Pruning Methods For Node Classification on Large-scale Graphs." Proceedings of the ACM on Web Conference 2024. 2024.

Tang, Wenzhuo, et al. "Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models." arXiv preprint arXiv:2406.01899 (2024).

本期责任编辑:杨成
本期编辑:郭枫
北邮 GAMMA Lab 公众号
主编:石川
责任编辑:杨成
编辑:郭枫

原文始发于微信公众号(北邮 GAMMA Lab):专题解读 | 图模型的缩放定律

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年3月12日12:58:53
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   专题解读 | 图模型的缩放定律https://cn-sec.com/archives/3832746.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息