AAAI 2025|利用语言模型实现跨异质性知识转移
-
题目:Harnessing Language Model for Cross-Heterogeneity Graph Knowledge Transfer
-
会议:The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)
-
论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/33421/35576
一、摘要
异质图含有丰富的节点和边类型,在现实世界中广泛存在。考虑到异质图中往往存在标签稀疏问题,一些研究人员提出了“预训练,微调”的范式,即在源异质图中预训练提取通用知识,之后在目标异质图中微调实现知识转移。然而,现有方法总是假设源异质图和目标异质图具有相同的异质性,意味着它们含有完全相同的节点和边类型,而这与实际场景不符。尽管近期有研究对跨异质性学习进行了初步尝试,但其对通用知识的定义过于依赖人类知识,缺乏灵活性,并进一步导致了次优的迁移效果。为了解决这一问题,我们提出了一种全新的基于语言模型增强的跨异质性学习模型LMCH。首先,我们设计了一种基于元路径的语料库构建方法,将异质图统一表示为语言形式。然后,源异质图的语料库被用来微调语言模型(LM),使得语言模型能够自主地从不同的异质图中提取通用知识。最后,为了充分利用目标异质图中大量未标注的节点,我们借助额外的图神经网络(GNN)预测器提出了一种迭代训练流程,并在每次迭代结束时通过LM-GNN对比对齐进行增强。针对四个真实世界数据集的广泛实验结果表明,LMCH在性能上优于现有的最先进方法。
二、简介
传统端到端训练的异质图神经网络在少样本学习场景表现不佳。为了解决异质图中广泛存在的标签稀疏问题,研究人员提出“预训练,微调”范式:在源异质图中提取通用知识后,在目标异质图中实现知识转移。然而,这些方法却总是假设源异质图和目标异质图具有相同的异质性,意味着它们含有完全相同的节点和边类型,与实际场景不符。
为了实现跨异质性知识转移,一项近期的研究[1]将异质图中的关系分为两类:从属关系(Affliation Relations, ARs)和交互关系(Interaction Relations, IRs)。其中,ARs和IRs被视为不同异质图中的通用知识,模型利用其实现跨异质性知识转移。然而,通用知识的选择和定义严重依赖于人类知识,缺少灵活性并损失了通用型。而且,ARs和IRs是基于节点度的相互依赖程度定义的,仅考虑了节点的局部结构信息,忽略了在异质图中广泛存在的长距离语义信息,进一步导致了次优的结果。
为了解决这些问题,我们提出了一种全新的语言模型增强的跨异质性学习模型LMCH。主要贡献如下:(1)我们首次提出基于元路径构建语料库,统一了不同异质图的表达形式,并进一步利用语言模型实现跨异质图通用知识的自动提取。(2)我们提出了LMCH,在适配过程中,通过迭代训练语言模型(LM)和图神经网络(GNN),使LM能够将源异质图的通用知识转移到由GNN生成的目标异质图的丰富软标签中。此外,我们还利用LM-GNN对比对齐方法,进一步增强迭代学习过程。(3)我们在四个真实数据集上进行了广泛的实验。结果表明,LMCH的准确率平均优于表现最佳的基线方法5.16%,Macro-F1分数平均优于表现最佳的基线方法6.22%。
三、方法
模型整体框架如图1所示。首先,为了统一异质图的表示并尽可能多的保留异质图中的信息,我们在图1(a)中设计了一种基于元路径的语料库构建方法,通过节点/边文本化和元路径文本化,将不同的异质图转换为语料库。然后,源异质图的语料库用于在图1(b)中微调语言模型,使LM能够从各种源异质图中获取通用知识。其次,为了利用标签稀疏的目标异质图中丰富的无标签节点信息,我们提出了图1(c)中的迭代训练流程,在该训练过程中,GNN为无标签节点生成软标签供LM微调使用,而LM编码的节点嵌入则作为GNN的输入。最后,为了在表示层面上对齐GNN和LM,在图1(d)中,我们在每个迭代过程结束时,采用LM-GNN对比对齐方法缩小它们的性能差距。
图1 LMCH模型整体框架
四、实验
我们在四个来自不同领域的基准数据集中进行实验:IMDB、DBLP、PubMed和YELP。这些数据集具备完全不同的异质性并且被广泛用于异质图的节点分类任务。用于语料库构建的元路径以及其他统计信息如表1所示。
表1 数据集统计信息
主实验
为了全面评估LMCH的性能,我们与11个具有代表性的方法进行对比,实验结果如表2所示。
表2 跨域少样本学习场景中的实验结果
我们可以观察到:(1)LMCH在四个数据集的32个组别中超越了所有最先进的基线模型,平均准确率提高了5.16%,Macro-F1分数提高了6.22%。(2)传统端到端的同质和异质图神经网络因单一异质性和数据集标签稀疏而结果不佳。(3)少样本学习和LM-GNN方法在IMDB和YELP数据集上取得了次优的表现,展示了其在少样本场景中的强大能力。然而,由于缺乏对跨异质性场景的考虑最终导致了次优结果。(4)尽管CGFL达到了接近最优的结果,但其依赖于基于人类专业知识的预定义通用知识,限制了灵活性并阻碍了进一步的性能提升。这些结论充分证明了我们的方法有效实现了跨异质性少样本学习。
消融实验
为了验证每个组件对模型性能的影响,我们在不同的LMCH变体上进行了实验。其中,LMCH-V1表示我们的模型不使用基于元路径的语料库,而是使用节点自身的属性输入LM微调。LMCH-V2表示LM未预先进行微调,并直接用于GNN监督的LM微调。LMCH-V3表示LM在跨异质性微调后,在没有GNN监督的情况下进行微调。LMCH-V4表示模型在每次迭代结束时不执行LM-GNN对比对齐。结果见表3。这些变体的表现始终不如LMCH,突显了每个模型组件的重要性。在DBLP数据集中,LMCH-V1表现最差,而在IMDB上,LMCH-V3的表现较差。这可能是由于DBLP依赖于较长元路径中的长距离语义信息,而IMDB则更多地依赖于局部结构。
表3 LMCH变体在IMDB和DBLP数据集中的实验结果(3-way 3-shot)
源异质图数量对模型性能的影响
我们分析了源异质图数量变化对LMCH性能的影响。实验中使用的源异质图是随机选择的,以确保比较的公平性。如图2所示,随着源异质图数量的增加,语言模型能够获取更丰富的信息并提取更广泛的一般知识,模型性能有所提升。
图2 源异质图数量对模型性能的影响
不同语料库构建方式对模型性能的影响
事实上,有多种方法可以用于语料库构建。我们分别评估了不同方法的影响,包括仅依赖节点属性的方法(NA-based);基于一阶邻居的方法(FN-based);基于随机游走的方法(RW-based);以及基于元路径的方法(MP-based),实验结果如表4所示。结果表明,基于元路径的方法优于其他方法。这证明了基于元路径的方法的确能够从图中提取尽可能多的信息,从而在目标图中实现更好的知识迁移。
表4 不同语料库构建方式对模型性能的影响
五、结论
在本文中,我们提出了一种全新的基于语言模型增强的跨异质性学习模型LMCH。LMCH的核心思想是将不同异质图的表示统一为基于元路径的语言,进而使得LM自动从源异质图中提取通用知识,并将其转移至目标异质图中。这为跨异质性建立了一个新的范式,并为未来的研究开辟了新的道路。大量实验已经证明了LMCH的优越性能。未来,我们将探索使用更大规模的语言模型的可能性。
[1] Pengfei Ding et al. Cross-heterogeneity Graph Few-shot Learning (CIKM23)
原文始发于微信公众号(北邮 GAMMA Lab):AAAI 2025|利用语言模型实现跨异质性知识转移
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论