专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

2023年10月16日18:57:35评论59 views字数 4334阅读14分26秒阅读模式

1. 简介

在现代机器学习和人工智能的发展中，图神经网络（GNNs）和分布外泛化已成为研究的热点。图神经网络因其在处理图结构数据方面的优势而备受关注。然而，当面临分布偏移时，即训练和测试数据来自不同的分布，图神经网络的性能往往会受到影响。本文将探讨不变风险最小理论在图神经网络分布外泛化中的应用和效果。

2. 图上的分布外泛化

2.1 分布外

分布外（Out of Distribution, OOD）是指那些在训练数据集的概率分布之外的数据点。简单来说，当一个模型被训练来识别或处理特定分布的数据时，任何不属于该分布的数据都可以被认为是分布外的。这些数据点可能有着与训练数据不同的特征和属性，因此模型可能无法准确地处理或分类这些数据。

2.2 分布外泛化

分布外泛化是指机器学习模型对未见过的、不属于训练数据分布的数据的处理能力。在实际应用中，模型经常需要处理与训练数据略有不同的数据，分布外泛化能力强的模型能够更好地处理这些数据，给出合理的输出和预测。

2.3 图上的分布外泛化

在图上的分布外泛化通常涉及到图神经网络（GNNs）或其他图相关的机器学习模型。这些模型被训练来处理特定类型的图数据，但在实际应用中可能需要处理具有不同结构和属性的图。图上的分布外泛化是指这些模型对不属于训练数据图分布的图的处理能力。

例如，一个图神经网络可能被训练来识别社交网络中的特定模式和结构，但在实际应用中可能需要处理具有不同连接和属性的社交网络。图上的分布外泛化能力决定了模型能否有效地处理和分析这些不同的图。

2.4 不变风险最小理论

2.4.1 Invariant Learning

概念

不变学习（Invariant Learning）是一种机器学习范式，其核心目标是在多个环境或数据分布中学习稳定、一致的模型。这意味着，不管输入数据的分布如何变化，模型的预测都保持一致。这一特性使得不变学习在面临分布偏移时具有显著的优势，能够保持稳定的性能。

环境的定义

在不变学习的背景下，“环境”通常指的是具有特定特征分布的数据集。例如，可以将不同地理位置、不同时间、不同人群等收集的数据视为不同的“环境”。每个环境都有其独特的数据分布，但所有环境共享相同的因果关系或生成机制。

2.4.2 IRM (不变风险最小化)

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

动机

IRM 的核心动机在于解决由于训练数据中的偏差和噪声导致的泛化问题。传统的机器学习方法往往在训练数据上表现出色，但在新的、未见过的数据上性能下降，特别是当测试数据与训练数据分布不一致时。

挑战

IRM 面临的挑战是识别和学习在不同环境和数据分布中保持一致的因果关系，而不是仅仅拟合训练数据中的相关性。

模型细节

IRM 采用了一种双层优化策略。具体来说，IRM 的目标是找到一个表示（或特征转换函数）ϕ，使得对于所有环境 e，存在一个分类器 w，使得经过 ϕ 转换的数据在 w 下的风险最小。

公式表示为：

其中，是损失函数，是输入数据，是标签。

IRMv1 是 IRM 的一个实用版本。它通过引入一个正则化项来平衡预测能力和预测器的不变性。IRMv1 的目标函数为：

其中，是一个超参数，用于控制正则化的强度。这个正则化项鼓励模型在不同环境中学到相似的参数，从而实现在不同环境中的不变性。

2.4.3 VRex

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

动机

VRex 主要解决的问题是传统机器学习模型对于极端的、未见过的数据分布的敏感性。它的目标是使模型在未知和极端的数据分布上也能保持良好的性能。

挑战

VRex 的挑战在于如何量化和处理不同训练环境之间的风险差异，以及如何在没有先验知识的情况下预测和适应未见过的数据分布。

模型细节

VRex 的核心是通过减少训练环境之间的风险差异来提高模型的鲁棒性。具体来说，VRex 的目标是找到一个模型，使得在所有训练环境下的风险都接近。

公式表示为：

其中，是损失函数，是模型，是输入数据，是标签，是一个超参数，用于平衡风险的平均值和方差。

通过这种方式，VRex 能够使模型在不同的训练环境下都表现良好，从而提高其在未见过的、极端的数据分布上的性能。

2.5 图上的不变学习

图上的不变学习致力于在图结构数据中识别和利用不变的、跨不同数据分布和环境稳定的模式和表示。其主要任务是在复杂的图数据中发现这些稳定的模式，以便构建对不同环境和数据分布具有鲁棒性的模型。图不变学习的目标是确保模型在面临不同的、甚至是未见过的数据分布时，都能保持一致和准确的预测性能，从而解决图神经网络中的分布外泛化问题。

2.5.1 DIR

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

动机

图神经网络（GNNs）在许多应用中都表现出色，但其内在的解释性问题仍然是一个挑战。当前的rationale模型通常依赖于数据偏差和快捷特征，这在面对分布外数据时会导致其解释性和预测性能大幅下降。为了解决这个问题，研究者提出了一种新策略，目标是发现不变的rationale（DIR），以构建内在可解释的GNNs。

挑战

现有的rationale方法通常依赖于数据偏差，这些特征在不同的数据分布中可能不稳定，从而影响模型的解释性和预测性能。因此，如何在不同的数据生成环境中识别和利用稳定的因果模式，而非依赖不稳定的模式，成为了一个重要的挑战。

贡献

研究者提出了DIR策略，这是一种新的学习策略，它通过在训练分布上进行干预来创建多个干预分布。这种策略能够接近不同分布下稳定的因果rationale，同时过滤掉不稳定的模式。通过在合成和真实世界数据集上的实验，验证了DIR在图分类上的解释性和泛化能力的优越性。

方法细节

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

文章从因果视角出发，将输入图分为因果部分和非因果部分。通过引入因果理论，他们形式化了不变rationale的任务，鼓励rationale在不同分布下寻找稳定的模式。DIR原理是通过最小化所有干预风险和不同干预风险的方差来实现的。DIR方法通过引入一个独立性条件来形式化不变rationale的任务。这个条件鼓励rationale C寻找在不同分布下稳定的模式，同时丢弃不稳定的模式。

具体来说，任务是最小化风险，同时满足Y与S在给定C的条件下是独立的，其中Y是标签，S是非因果部分，C是因果部分。DIR原则是通过最小化所有s-干预风险和这些风险的方差来发现不变的rationale。学习策略是最小化DIR风险，其中包括在不同s-干预分布下的风险和这些风险的方差。这里，s-干预分布是通过在非因果部分S上进行干预来创建的。λ是一个超参数，用于控制不变学习的强度。

DIR方法在GNNs上的实现包括四个组件：rationale生成器、分布干预器、编码器和两个分类器。

rationale生成器：它的目的是将输入图实例g分割成两个子图：因果部分c和非因果部分s。rationale生成器首先使用GNN生成A上的掩码矩阵M，然后选择具有最高掩码的边来构造rationalec，并收集c的补集作为s。
分布干预器：它对非因果部分进行干预，创建干预分布。
编码器：它将因果和非因果部分编码成表示。
两个分类器：它们分别基于因果和非因果部分生成联合预测。

在推理时，只使用因果预测作为预测。

2.5.2 GIL

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用动机

图表示学习在测试和训练图数据来自相同分布时表现出效果，但在分布偏移下大多数现有方法失败。
不变学习可以在理论上实现分布偏移下的泛化，并在实践中取得成功，但图的不变学习仍未被探索。

挑战

图数据通常来自没有准确环境标签的混合潜在环境。
图的形成过程受到不变的特征和环境的复杂交互影响，识别潜在环境中的不变模式更具挑战性。
即使获得了环境标签，如何设计一个理论上有根据的学习方案来生成能够在分布偏移下泛化的图表示也仍然是一个未探索的问题。

贡献

提出了图不变学习（GIL）方法，能够在分布偏移下捕获不变的图模式。
GIL可以自动推断来自混合潜在环境的图的环境标签，无需监督。
提出了最大不变子图生成器准则来学习能够在分布偏移下泛化的图表示。

方法细节和公式

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

不变子图识别和环境推断

GIL通过生成一个软掩码矩阵M来识别不变子图和环境子图。

生成软掩码矩阵M：

其中，是软掩码矩阵M的元素，和是节点的表示，是用于生成软掩码的图神经网络。

从软掩码矩阵M获取不变和环境子图：其中，和分别是不变子图和环境子图的邻接矩阵，表示元素乘法，是一个函数，用于选择具有最大值的元素的前t百分比。

不变学习

本文提出了一个目标函数，用于优化子图生成器。具体的公式如下：

最大不变子图生成器满足：其中，是标签和生成子图之间的互信息。

使用不变学习的正则化项，整体的损失函数如下：其中，，是推断的环境标签，表示所有可学习的参数。

GNN的实例化：

其中，是不变子图的节点表示，是不变子图的表示。

3. 总结

本文深入探讨了不变风险最小理论在图神经网络分布外泛化中的应用。在面对分布偏移问题时，图神经网络的性能可能会受到影响。不变风险最小理论通过在多个环境或数据分布中学习稳定、一致的模型来解决这一问题。

参考文献

[1] Arjovsky, M.; Bottou, L.; Gulrajani, I.; and Lopez-Paz, D. 2019. Invariant risk minimization. arXiv preprint arXiv:1907.02893.

[2] Krueger, D.; Caballero, E.; Jacobsen, J.-H.; Zhang, A.; Binas, J.; Zhang, D.; Le Priol, R.; and Courville, A. 2021. Out-ofdistribution generalization via risk extrapolation (rex). In International Conference on Machine Learning, 5815–5826. PMLR.

[3] Wu, Y.-X.; Wang, X.; Zhang, A.; He, X.; and Chua, T.-S. 2022. Discovering invariant rationales for graph neural networks. arXiv preprint arXiv:2201.12872.

[4] Li, H.; Zhang, Z.; Wang, X.; and Zhu, W. 2022b. Learning invariant graph representations for out-of-distribution generalization. Advances in Neural Information Processing Systems, 35: 11828–11841.

本期责任编辑：杨成

本期编辑：刘佳玮

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成、王啸

编辑：刘佳玮

长按下图并点击“识别图中二维码”

即可关注北邮 GAMMA Lab 公众号

专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

原文始发于微信公众号（北邮 GAMMA Lab）：专题解读 | 不变风险最小理论在图神经网络分布外泛化中的应用

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

2. 图上的分布外泛化

2.1 分布外

2.2 分布外泛化

2.3 图上的分布外泛化

2.4 不变风险最小理论

2.4.1 Invariant Learning

概念

环境的定义

2.4.2 IRM (不变风险最小化)

动机

挑战

模型细节

2.4.3 VRex

动机

模型细节

2.5 图上的不变学习

2.5.1 DIR

动机

挑战

贡献

方法细节

2.5.2 GIL

挑战

贡献

方法细节和公式

不变子图识别和环境推断

不变学习

3. 总结

参考文献

发表评论

在线咨询

微信