KDD2025|Benchmarking Graph Foundation Models

admin 2025年7月9日23:08:41评论2 views字数 5733阅读19分6秒阅读模式

KDD2025|Benchmarking Graph Foundation Models

KDD2025|Benchmarking Graph Foundation Models
  • 题目:Benchmarking Graph Foundation Models

  • 会议:ACM KDD 2025 | Toronto, ON, Canada Sunday, August 3, 2025 – Thursday, August 7, 2025

  • 论文链接:http://shichuan.org/doc/199.pdf

一、摘要

在实际场景中,图数据广泛存在,图神经网络作为一种有效的图表示学习方法也受到持续关注。为进一步提升模型在跨域、跨任务场景中的泛化能力,图基础模型(Graph Foundation Models, GFMs)应运而生。尽管现有GFM方法已取得一定进展,但由于缺乏统一的评估流程,仍难以实现有效的对比分析。此外,也缺少应用平台验证图基础模型在真实应用场景中的可用性。为此,我们提出GFMBench,一个开源的评估流程框架,旨在标准化GFM在训练、评估与真实图应用中的部署流程。GFMBench集成了多种先进的图基础模型与数据集,采用模块化设计,支持从数据预处理、模型训练到评估的全流程任务。该框架提供系统全面的评估方案,涵盖监督学习、跨域零样本学习、跨域少样本学习和上下文学习多种评估设置,全面衡量模型的泛化能力。同时,为验证GFM在实际场景中的可用性,我们基于开放学术图谱(Open Academic Graph, OAG)实现了如学术主题检索与相似作者推荐等具体应用。GFMBench为图基础模型的系统评估与实际应用提供了统一的基准平台,有助于深入理解GFM在不同图任务与领域间的泛化能力。我们已开源GFMBench及相关文档。

二、简介

近年来,随着大语言模型(LLMs)的巨大成功,图基础模型(GFMs)被提出以实现在图数据中的跨领域、跨任务学习。图基础模型可以在广泛的图数据上预训练,并适用于不同的下游任务。近年来,随着研究人员的不断努力,已经有许多GFMs被相继提出。然而,不同GFMs在数据处理和实验评估设置上的复杂性和差异性阻碍了我们对它们能力的全面理解。为了实现跨领域和跨任务的泛化能力,一些GFM框架集成了大语言模型(LLMs),并为其训练设计了定制的输入输出。例如, HiGPT为预训练阶段设计了异质指令,从而使模型具备对异质关系的感知能力。此外,不同GFMs通常采用不一致的实验设置和评估指标。例如,尽管LLaGA和OFA都在PubMed数据集上进行链路预测任务的评估,OFA使用ROC AUC作为评估指标,而LLaGA则采用准确率(accuracy),这种评估标准的不统一使得定量对比变得困难。因此,我们亟需标准化图基础模型的训练与评估流程。

为了解决上述挑战,我们设计并构建了一个名为Graph Foundation Model Benchmark(GFMBench)的开源评估流程,用于在真实图应用中构建与评估GFMs。GFMBench对训练和评估流程进行了标准化,集成了来自多个领域的10个最新的图基础模型和来自真实场景中的10个数据集,并采用模块化设计。该流程在各个阶段都提供了全面的支持,包括数据预处理、模型训练和评估。例如,GFMBench的数据模块提供了用于指令生成和语料构建的接口,这对于训练大语言模型(LLMs)至关重要。模块化设计与详细文档也使得用户可以方便地定制子模块,并将新的组件集成到图基础模型中。为评估GFMs的泛化能力,我们在不同的实验设置下对GFMs统一评估,包括有监督学习(跨任务学习)、跨领域的零样本(zero-shot)和少样本(few-shot)学习,以及上下文学习(in-context learning)。在这些环境设置下,我们分别对节点分类和链路预测任务进行评估,从而实现对GFMs性能的更全面理解,帮助研究者评估模型在不同领域和任务中的泛化能力。

为了验证GFM在真实场景中的可用性,我们基于Open Academic Graph(OAG)构建了科技文献分析系统。OAG包含丰富的节点和边类型,是测试GFM性能的理想数据集。我们实现了多种关系型应用,包括主题搜索、相似作者推荐和研究兴趣预测。借助图基础模型,我们能够充分利用图中的结构和属性信息,使一个模型同时支持多种下游任务。我们的主要贡献如下:(1)我们构建了一个统一的开源评估平台GFMBench,用于标准化GFM的训练与评估流程,集成了多个最新的模型和真实场景中的数据集。(2)我们在GFMBench中设计了一个全面的评估框架,用于测试GFMs的泛化能力,涵盖有监督学习(跨任务学习)、跨领域零样本学习、小样本学习等。(3)我们将GFMs部署在Open Academic Graph(OAG)数据集上,支持如主题搜索和相似作者推荐等应用,验证GFMs在真实场景中的可用性。

三、方法

GFMBench整体框架如图1所示。整体框架主要由数据、算法、任务和应用模块构成。

KDD2025|Benchmarking Graph Foundation Models

图1 GFMBench整体框架

在数据模块中,我们收集了来自真实场景中的多种图数据集,以支持GFMs的预训练与微调。数据集的概况如表1所示。这些数据集在规模与领域上差异显著,涵盖从同质图到异质图的不同类型,其中部分数据集(如MAG和AMiner)包含超过十亿个节点。这种多样性保证了GFM能够学习到适用于不同真实场景的通用模式。为了确保高质量且标准化的预处理流程,我们引入了多种数据处理技术。对于大规模图数据,我们提供了HGSampling方法,这是一种高效的图采样算法,适用于超大规模图的处理。此外,对于涉及LLMs的模型,我们提出了模块化的指令设计和语料库构建方式,以确保对文本信息的处理方式保持一致性。为了实现公平和标准化的评估,我们为每个数据集随机划分了训练集、验证集和测试集,同时指定了节点和边的类型。这种设置确保了不同GFM在相同评估条件下的可比性。此外,用户也可以根据自身需求自定义数据集,我们在设计文档中提供了相关示例。

KDD2025|Benchmarking Graph Foundation Models

表1 数据集介绍

GFMs在一组可能来自不同领域的图数据上预训练,学习可泛化的图表示,以便在不同图之间迁移使用。完成预训练后,GFMs可以被应用于一个目标图,实现多种下游任务(如节点分类或链路预测),该目标图可能与预训练图来自不同领域。模型可以直接用于下游任务,也可以通过微调进一步适应目标图的特定需求。如图1所示,当前的图基础模型可根据其骨干结构分为三类:(1)基于GNN的模型,如:PT-HGNN和GPT-GNN(2)基于LLM的模型,如:WalkLM和LLaGA(3)混合模型,如OFA、GraphGPT、HiGPT、GraphTranslator和LMCH。我们在算法模块统一实现了这些模型的训练和评估流程。

GFMBench采用了两种广泛使用的任务用于评估GFMs:节点分类和链路预测。考虑到应用层实现的科技文献分析系统,我们优先关注节点分类和链路预测任务,这两类任务对于作者画像构建和科研合作关系挖掘至关重要。尽管如此,在GFMBench的未来版本中,我们计划将基准测试拓展到更广泛的任务范畴以实现更全面的评估。

在应用层,为了验证图基础模型在真实世界场景中的可用性,我们基于OAG数据集构建了科技文献分析系统,主要包含基础应用和关系型应用。所有关系型应用均由同一个预训练的GFM支持,实现一个模型支撑多种应用。

四、实验

为了全面评估GFMs的泛化能力,我们定义了多个具有不同难度级别的评估设置。这些设置用于考察模型在不同场景下的表现,并衡量其对新图和新任务的适应能力。具体而言,我们考虑了四种评估设置:有监督学习(跨任务学习)、跨领域零样本学习、跨域少样本学习和上下文学习。其中,有监督学习是为了评估模型在不同图任务中的泛化能力,跨域零样本学习是为了评估模型在无需额外微调的情况下,将知识迁移到不同图上的能力,跨域少样本学习是为了考察模型在仅有少量标注数据的情况下对新图的适应能力,上下文学习是为了测试模型在推理阶段利用上下文信息进行任务处理的能力。

有监督学习(跨任务学习)

在该实验设置中,我们对多种GFMs分别在三个基准数据集(OAG-CS、IMDB和DBLP)上进行预训练,之后同时在节点分类和链路预测任务中评估模型性能,旨在评估这些模型在不同图任务中的泛化能力。实验结果如表2所示。

KDD2025|Benchmarking Graph Foundation Models

我们可以观察到:(1)GFMs在不同任务中表现出较强的稳定性:如表中所示,大多数模型在三个数据集上的多种任务中均展现出稳健的性能。诸如GPT-GNN和PT-HGNN等模型在不同任务中表现出较强的一致性。这表明GFMs具备较好的跨任务泛化能力。(2)不同模型类别(基于GNN、基于LLM、混合模型)之间并无绝对优势:结果显示,基于GNN、基于LLM和混合模型在不同数据集和任务上的表现存在较大差异。例如,PT-HGNN在OAG-CS和IMDB上表现优异,但在DBLP上效果不佳;而HiGPT在IMDB上表现突出,但在OAG-CS和DBLP上的表现相对逊色。这说明目前尚无某一类模型在所有任务和数据集上始终优于其他类型,模型的选择在很大程度上依赖于具体数据集的特性和任务需求。(3)GFM研究仍处于早期阶段,提升空间巨大:尽管部分模型已展现出较强的性能,但整体结果仍表明图基础模型研究尚处于起步阶段,存在显著的优化空间。目前尚无模型在所有任务中持续领先,这表明该领域仍需进一步探索。

跨域零样本学习

本实验旨在评估模型在跨领域场景下的零样本推理能力。为此,我们首先在OAG-CS数据集上进行大规模预训练,随后将模型直接应用于不同领域的图上进行推理,具体分别测试其在IMDB和DBLP数据集上的表现。该设置可用于验证模型在无需额外领域特定微调的情况下,能否实现对未知领域和图结构的有效泛化。实验结果如表3所示。

KDD2025|Benchmarking Graph Foundation Models

我们得到以下几点观察:(1)尽管在跨领域零样本学习设置下,部分模型在IMDB和DBLP上仍展现出较为合理的性能,表明GFMs在零样本场景下具有一定的适用性。(2) 实验结果与有监督学习结果相比仍存在明显的性能差距。这说明尽管GFMs具备一定的跨领域泛化,但在面对具体目标图时,其性能仍会有所下降。因此,为了在特定图上获得最优结果,微调仍是必要的。

跨域少样本学习

为评估GFMs在有限监督条件下对新图数据集的适应能力,我们首先在OAG-CS数据集上对模型预训练,然后分别在IMDB和DBLP数据集上进行少量标注样本的微调。具体地,我们在 1-shot、3-shot和5-shot设置下分别对节点分类和链路预测任务进行微调,以评估模型在极少标注数据条件下的泛化能力。实验结果如图2所示。

KDD2025|Benchmarking Graph Foundation Models

图2 跨域少样本学习实验结果

在少样本微调设置中,模型通常随着微调样本数量的增加而表现得更好。因此,5-shot微调通常取得最优结果。例如,在IMDB的节点分类任务中,HiGPT从1-shot到5-shot的表现提升显著,表明GFM模型在下游任务中能够从更多标注数据中受益。然而,即使仅使用5个标注样本,模型也展现出了较强的适应能力。例如,在DBLP的节点分类任务中,PT-HGNN即便仅在5-shot条件下也能取得良好性能,说明GFM模型在少样本场景中具有良好的泛化能力。我们还观察到模型适应能力的差异性。例如,在DBLP数据集的节点分类任务中,LLaGA在3-shot 到5-shot之间的性能提升非常明显;但GPT-GNN在1-shot到5-shot之间几乎无明显变化。这表明模型架构在适应性表现上可能起着关键作用。

上下文学习

在本实验中,我们聚焦于具备上下文学习能力的模型,目前该能力仅由基于LLM和部分混合模型支持。具体而言,我们选择了GraphGPT、HiGPT和GraphTranslator三个具备上下文学习能力的模型进行实验。这些模型首先在OAG-CS图上完成预训练,随后评估其在IMDB和DBLP数据集上的节点分类任务表现。为了评估模型对上下文信息的利用能力,我们在推理阶段为每个目标图提供不同数量的上下文示例(从1个到5个),以观察模型性能随上下文示例数量变化的趋势,从而测试其无需微调即可泛化到新图的能力。

实验结果如图3所示,GraphGPT、HiGPT和GraphTranslator均展示出一定的上下文学习能力。GraphGPT和HiGPT在不同上下文数量下表现较为稳定,随着上下文样本从1增加到5,它们在DBLP和IMDB数据集上的Micro-F1分数都有所提升,说明这些模型可以利用更多上下文信息来提升节点分类任务的表现。然而,尽管上下文数量的增加带来了性能提升,但整体增益幅度并不显著。例如,在两个数据集中,从1个到5个上下文样本的提升是可观的,但变化幅度有限。这表明当前GFM模型的上下文学习能力仍有待进一步提升。尽管加入了上下文样本,模型性能提升仍较有限,可能是由于所选上下文未能提供与推理任务高度相关或有效的信息。这提示我们:仅增加上下文数量可能不足以带来显著性能提升。未来研究的一个关键方向,是探索更有效的上下文选择策略,确保提供的上下文信息对图推理任务最为相关且有用。

KDD2025|Benchmarking Graph Foundation Models

图3 上下文学习实验结果

五、结论

本文提出了GFMBench,一个面向GFMs的全面基准评估框架,旨在解决现有GFMs评估标准不统一和缺乏实际应用验证等关键挑战。GFMBench集成了多种最新模型和多样化数据集,构建了一个统一框架,分别在多种学习场景下(包括有监督学习、零样本学习、少样本学习和上下文学习)评估模型性能。在应用层,我们基于OAG数据集实现了若干实际应用,如主题检索和作者推荐,验证了图基础模型在实际场景中的可用性。凭借其模块化设计和详尽的文档支持,GFMBench为社区提供了一个重要工具资源,推动了图基础模型的持续发展和实际部署。

开源代码:https://github.com/BUPT-GAMMA/ggfm

设计文档:https://ggfm.readthedocs.io/en/latest/

原文始发于微信公众号(北邮 GAMMA Lab):KDD2025|Benchmarking Graph Foundation Models

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年7月9日23:08:41
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   KDD2025|Benchmarking Graph Foundation Modelshttps://cn-sec.com/archives/4236559.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息