2025年3月12日12:58:53评论16 views字数 3784阅读12分36秒阅读模式

图模型的缩放定律

一、简介

随着大语言模型的不断发展，关于LLM的缩放定律的研究也不断深入。2020年，OpenAI率先提出了LLM的缩放定律，指出数据和算力是scaling law的关键要素。而在2022年，Deepmind团队提出了另一种视角的缩放定律，并表示应当平衡算力和数据的关系，从而充分利用数据，一定程度上降低模型的规模。2024年，斯坦福大学和Deepmind给出了关于推理的缩放定律，指出在获得正确答案概率不为零的情况下，任意模型可以通过重复采样不断逼近正确答案，并得到了更具性价比的推理解决方案。

图基础模型是目前图社区最为关注的研究课题之一。而图模型是否存在与大语言模型相似的缩放定律，也是能否实现图基础模型必须回答的关键问题之一。在探索图模型缩放定律的道路上，密西根州立大学汤继良团队和人大高瓴魏哲巍团队走在了前面，两个团队独立参考大语言模型缩放定律的形式，针对图模型的问题，对图模型的缩放定律做了一定的探索，本文将简要介绍这些研究成果。

二、关于图上的神经缩放定律

2024年2月，汤继良团队率先给出了关于图上的神经缩放定律的一份研究成果。他们对来自不同任务的许多图数据集进行了基准测试，并尝试从模型和数据的角度建立关于图的神经缩放定律。其研究的模型大小高达 1 亿个参数，研究的数据集大小高达 5000 万个样本，并首先验证了这种定律在图上的有效性，建立了适当的公式来描述缩放行为。

其发现，尽管参数数量很重要，模型深度在影响模型缩放行为方面也起着重要作用，这与其他领域（如计算机视觉和自然语言处理）的观察结果不同。对于数据缩放，其认为图的数量不能有效地衡量缩放定律中的图数据量，因为不同图的大小高度不规则。相反，以节点或边的数量作为指标来改革数据缩放定律，以解决不规则的图大小。汤继良团队进一步证明了改革后的定律为各种基本图任务（包括节点分类、链接预测和图分类）的数据缩放行为提供了统一的视角。

2.1 公式

为了确保观察的一致性，其给出了以下公式：

其中是对应于特定指标的测试分数，。公式 1 将在后续章节中使用，以拟合分类任务的缩放定律。

2.2 图上基本缩放定律的有效性

其首先评估模型在各种大小和训练集大小上的性能。模型选择GIN，数据集选择PCQM4MV2 和 OGBG-PPA。

GIN在PCQM4MV2和OGBG-PPA数据集上的综合缩放行为。对于PCQM4MV2，颜色对应均方误差的值；对于OGBG-PPA，颜色对应准确率。如高R2值所示，神经缩放定律预测的曲面与两个数据集上的经验值非常吻合。基于上述观察，其认为，图领域中的模型和数据缩放行为可以用神经缩放定律来描述。

2.3 模型深度对图缩放定律的影响

图领域中一个独特的问题是模型深度是否会影响模型缩放定律，或者更具体地说，是否会影响公式 1 中的缩放定律系数。

上图表明，具有不同模型深度的 GNN 和图 Transformer 的模型缩放行为。颜色对应于模型层。所有模型都表现出不同的、随模型深度变化的缩放行为。由此其得到另一个发现：不同深度的深度图模型将具有不同的模型缩放行为。

2.4 图缩放律的适当数据度量

在本节中，其研究图上的数据缩放定律。具体来说，我们重新审视先前研究中的数据指标，并揭示了将图的数量作为数据缩放定律中数据指标的缺点。

在两个不同大小的训练子集上，GIN的模型缩放曲线。(a) 两个子集具有相同的图的总数，但边的总数不同。(b) 两个子集具有相同的边的总数，但图的总数不同。阴影对应于重复实验的性能差异。与图 8(a) 相比，图 8(b) 中的曲线差异小得多，这表明边的总数可能比图的数量更好。因此其得到另一个结论：与图的数量相比，边的数量是数据缩放定律更好的数据指标。

小结

汤继良团队的这份工作启发意义很大，是第一份成体系探索图模型是否存在缩放定律的工作。

三、探索大规模图上节点分类的神经缩放定律和数据剪枝方法（WWW 2024）

人大高瓴魏哲巍团队深入研究节点分类任务。在网络级图上的普遍存在的节点分类任务，其特性，例如非独立同分布（non-IID）和转导式设置，很可能导致不同的缩放规律，并激发新的技术来打破这种规律。

因此，其首先探索了在三个大规模图上的节点分类任务的神经缩放规律。然后，其对这些任务上几种最先进的数据修剪方法进行了基准测试，不仅验证了改进原始不令人满意的缩放定律的可能性，还深入了解了选择有效训练节点子集的难点和代表性原则。

3.1 幂律的观察

其对 OGB的三个节点分类数据集进行研究，分别是 ogbn-products、ogbn-papers100M 和 MAG240M。为了观察的普遍性，其将 GraphSage应用于 ogbn-products，将 SGC应用于 ogbn-papers100M，将 GAT应用于 MAG240M，其中采用 OGB 的官方实现。

为了观察学习模型的性能如何随着不同数量的训练节点而变化，其随机选择一部分训练节点，其中所考虑的比例范围从 20% 到 100%，增量为 10%。同时，所有提供的测试节点都用于性能评估。

在图 1 中展示了实验结果，并绘制了在考虑的剪枝率下随机剪枝的性能和一个拟合的幂函数（用 “Fitted” 表示）。可以看出，这两条曲线表现出显著的相似性，表明性能随着训练节点的数量以幂律缩放，并可以用解析方式表达为，其中表示测试节点的错误率，表示训练节点的数量，表征变化的速度。

由于本文聚焦于图模型的缩放定律，因此魏老师这份工作的其他内容不再赘述。

四、跨域图数据缩放：使用扩散模型的展示

由于图之间的异质性，当前的图预训练方法难以扩大数据规模。为了实现有效的数据缩放，图社区的目标是开发一个能够捕获图的各种数据模式的通用模型，并可以自适应地帮助下游任务。为此，汤继良团队提出了 UniAug，一个基于扩散模型的通用图结构增强器。其首先在跨领域的数千个图上预训练一个离散扩散模型，以学习图的结构模式。在下游阶段，其通过借助预训练的扩散模型通过引导生成来执行图结构增强，从而提供自适应增强。通过利用预训练的扩散模型进行结构增强，其在各种下游任务中以即插即用的方式持续取得性能提升。

4.1 UniAug的工作流程

汤继良团队预训练一个跨域扩散模型，并在下游图上执行结构增强。增强后的图由生成的结构和原始的节点特征组成，然后由下游的 GNN 处理。

这一结构非常巧妙地间接解决了跨域问题。使用扩散模型，而不是图模型，可以有效增强数据，从而大幅提高下游GNN模型的数据处理能力。

4.2 UniAug的缩放行为

基于神经缩放法则，汤继良团队预计 UniAug 将受益于数据覆盖的增加和更多的计算预算。在本小节中，其将研究 UniAug 在数据规模和预训练计算量方面的缩放行为。

4.2.1 数据覆盖范围

在数据收集过程中，其准备了三个版本的训练数据，这些数据在图分布上的规模逐渐增大，覆盖范围也逐渐扩大。其首先从Network Repository中每个类别抽取10个图，构建一个SMALL集合。接下来，其从Network Repository中收集所有图，并过滤掉大规模图和异常值，形成一个FULL集合。此外，其从TUDataset中添加了GitHub Star数据集的1000个图的子集，以扩大不同模式的覆盖范围，并形成一个EXTRA集合。其分别在这三个集合上预训练了三个版本的UniAug，并在图分类和链接预测上对其进行评估。如下图所示，其观察到，随着预训练数据覆盖范围的扩大，性能呈现明显的提升趋势。这为将UniAug扩展到更多具有不断扩展的图分布的预训练图奠定了基础。

4.2.2 计算量

汤继良团队试图了解随着持续训练，其扩散模型学习数据模式的效果如何。为此，在EXTRA集合上训练时，其每2,000个周期（5×10−3 PF-days）对UniAug进行一次检查点保存，并将其应用于图分类和链接预测任务。结果如下图所示。下游性能通常随着训练时间的延长而提升，但在达到8,000个周期时，某些数据集的提升趋势有所放缓。鉴于观察到的扩展行为，其预计UniAug在获得更多资源后将变得更加有效。

五、总结

本文简要介绍了关于图模型的缩放定律的相关研究成果，这一研究领域与图基础模型密切相关，可以为图模型预训练、图模型的数据需求、图模型的跨域等问题提供可能的解决方案。

参考文献

Liu, Jingzhe, et al. "Neural scaling laws on graphs." arXiv preprint arXiv:2402.02054 (2024).

Wang, Zhen, et al. "Exploring Neural Scaling Law and Data Pruning Methods For Node Classification on Large-scale Graphs." Proceedings of the ACM on Web Conference 2024. 2024.

Tang, Wenzhuo, et al. "Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models." arXiv preprint arXiv:2406.01899 (2024).

本期责任编辑：杨成

本期编辑：郭枫

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成

编辑：郭枫

原文始发于微信公众号（北邮 GAMMA Lab）：专题解读 | 图模型的缩放定律

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

专题解读 | 图模型的缩放定律

图模型的缩放定律

一、简介

二、关于图上的神经缩放定律

2.1 公式

2.2 图上基本缩放定律的有效性

2.3 模型深度对图缩放定律的影响

2.4 图缩放律的适当数据度量

小结

三、探索大规模图上节点分类的神经缩放定律和数据剪枝方法（WWW 2024）

3.1 幂律的观察

四、跨域图数据缩放：使用扩散模型的展示

4.1 UniAug的工作流程

4.2 UniAug的缩放行为

4.2.1 数据覆盖范围

4.2.2 计算量

五、总结

参考文献

开源情报技巧：解构环境犯罪背后的金融网络

美国议员批评英国对苹果的后门命令，并警告网络犯罪风险

TransparentTribe针对阿富汗监狱管理局的鱼叉式钓鱼邮件攻击

关于MCP最值得看的一篇：MCP创造者聊MCP的起源、架构优势和未来

G.O.S.S.I.P 阅读推荐 2025-05-08 IPvSeeYou

以色列NSO集团因攻击WhatsApp用户被判赔偿逾1.67亿美元

打穿系统是风险，那打垮人呢？——年年演练零误报，年年有人没能等到尾款和复盘

美国警告：黑客瞄准油气行业工业控制系统与监控数据采集系统

【戏说我在甲方做安全】聊蜜罐合作，结果甲方被乙方骂了

Panabit VLAN这样玩才高效：从透明网桥到网关模式的实战踩坑指南

发表评论

在线咨询

微信