专题解读 | ICLR2024图与大语言模型结合论文介绍

admin

145318
文章

119
评论

2024年1月6日15:05:20评论191 views字数 5720阅读19分4秒阅读模式

这次分享两篇近期在ICLR2024投稿的图与大语言模型结合的论文。

一、Thought Propagation

第一篇论文名为《Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models》。ICLR分数为6,6,8.

1.1 引言

大语言模型 (LLM) 目前在逻辑、算术和常识、推理等方面的问题中取得了巨大成功，本文聚焦于LLM的复杂推理问题。早期的工作使用few-shot输入和输出样本来提示LLM执行简单的推理，而最近尝试将复杂的推理过程分解为中间推理步骤，利用LLM的多步推理能力来解决这个复杂的推理问题。尽管通过上面的这两种方法都取得了一定的效果，但是仍存在两个问题。（1）现有的提示方法要求LLMs从零开始进行推理。这种方法限制了模型在解决类似问题时重用先前获得的经验。当人类遇到一个新问题时，他们经常将其与具有相似特征的熟悉问题进行比较，这个过程被称为类比推理，根据类似问题的解答方法去举一反三。（2）当LLMs进行多步推理时，从零开始的方法容易导致错误的累积，尤其是在连续的推理步骤中。这些问题影响了LLMs在复杂推理任务中的性能和准确性。为了解决这些问题，论文提出了思维传播（Thought Propagation, TP）框架，该框架通过探索类似问题并利用它们的解决方案来增强LLMs的复杂推理能力。TP框架的目的是克服从零开始推理的局限性，并减少在多步推理过程中的错误累积。

1.2 方法

为了解决上面的两个挑战，本文提出了Thought Propagation (TP)，这是一个用于LLM推理的多功能类比框架。他的目标是探索一些类似的问题，以促进解决原始问题。TP 在推理过程中主动生成与输入问题相关的类似问题，所有这些都不依赖于外部知识库。然后，它结合了这些提出的类似问题的解决方案，通过创建更新的解决方案或制定高级计划来促进解决输入问题。

下面详细解释这个过程，左边的图的中心节点表示初始问题，给定一个输入问题，利用LLM propose生成一组类似的问题，例如，这三个问题跟原始问题是类似问题，因此对于的解答思路有利于解决。为了让生成的问题更有利于原始问题的，LLM propose从这个两个角度生成类似问题：（1）类似问题的解决方案传递到输入问题产生新的解决方案。（2）解决类似问题可以为输入原始问题生成解决计划和步骤过程。
给出问题后，利用LLM Solve去给出类似问题的答案以及原始问题的初始答案，如中间图所示，和是LLM Sovle给出的解决方法。
最后，利用LLM Aggregate聚合类似问题的答案以及原始问题的初始答案，利用和增强新的解答方案。此外，对于来说，仍然可以通过生成他们的类似问题来增强解答方案，这类似于图神经网络中的消息聚合，这样可以叠加层的类似问题。

1.3 复杂度

本方法是一个即插即用的方法，他可以直接用于现有的prompt方法中，利用现有的TP来增强问题的解答。对于该方法的复杂度主要存在两个方面，一个是的的选择，层数越多导致复杂度指数级增长，因此本文的最大取到2；其次是类似问题的数量也会影响复杂度。

1.4 实验

本文在最短路径推理（Shortest-Path Reasoning）、创意写作（Creative Writing）和 LLM-Agent 规划（LLMAgent Planning）三个任务上进行了实验。baseline选择了（1）标准的(IO) prompting、（2）Chain-ofThought (CoT) （3）Build-a-Graph (BaG) （4）Tree-of-Thought (ToT)。本文在PaLM 2 (Bison) 、GPT-3.5 和GPT-4三个LLM中进行了实验。

1.4.1 最短路径推理

对于最短路径来说，他的目标是任务是在加权无向图中找到从源节点到目标节点的最短路径。这项任务适用于评估 LLM 的复杂推理能力。评估指标由三个，（1）Optimal Rate (OR)：计算100个最短路问题中能够达到最优的比例。（2）Feasible Rate (FR)：计算100个最短路问题中能够给出有效路径的比例。（3）Over-Length Rate (OLR)：所有有效的路径路径长度与最短长度的差与最短长度的比。结果如Table 1所示：

首先，在不同 LLM 上进行测试时，TP 生成了最优和有效的最短路径，与baseline相比取得了显著的性能提升。此外，从OLR中可以看出，与基线相比，TP 生成的有效路径最接近最优路径。在 PaLM-2 LLM中，ToT 无法找到从源节点到目标节点的有效路径。对于 GPT-3.5 和 GPT-4 ，ToT 的性能低于 IO 提示。我们发现，由于错误累积，ToT 有时会向后搜索，甚至找不到有效路径。CoT 仅在 PaLM-2 上的表现优于 IO，而在 IO 上的表现则很差。而其他两个 LLM 上，CoT 没有明显优于 IO。

1.4.2 创意写作

创意写作的目标是随机给出 4 个句子，分别生成以这些句子结尾的 4 个段落，以构建一个连贯的信息。这项任务通过高度的创造性思维和规划来挑战 LLM 的推理能力。该任务包括 100 个测试实例。本文使用一致性评分（由 GPT-4 生成的 1-10 标量评分）和人为打分来评估生成信息的一致性。

表 2 展示了 TP 和baseline在 GPT-3.5 和 GPT-4 上的性能。在 GPT-3.5 和 GPT-4 后端上，TP都以最高的一致性得分超越了基线。此外，在用户研究中，TP 获得了最高的人类偏好度。此外，由于模型能力的提高，所有方法在 GPT-4 上都取得了更好的性能。

1.4.3 LLM-Agent 规划

LLM-Agents 以 LLM 为核心部件与环境互动，并自主制定计划和决策。这里以类比的方式研究了 TP 为 LLM-Agents 制定高层次知识密集型计划的能力，以提高任务完成率。结果如下图表3所示：

这里有几个变体模型变体模型。1. Self-Evaluation （SE）：LLM 通过zero-shot对两个计划进行评估，并输出较好的计划；2.Simulation (SM)：LLM 代理在任务环境中使用两个计划执行新的计划试验，并输出较好的计划。此外，我们还添加了Self-Reflection（SR）模块，以便 LLM-Agent 像对自身的错误进行反思。这些实现方法产生了四种不同的思维传播模型：1). TP-SR-SE：带有自我反思和自我评价的TP；2）. TP-SE：带有自我评价的TP；3）. TP-SR-SM：带有自我反思和模拟的TP；4). TP-SM：带有模拟的TP。

表 3中可以看到，与可学习参数化方法和其他 LLM-Agent 基线相比，TP的性能表现良好。即使没有存储模块来存储之前的失败（TP-SE/TP-SM），TP也取得了巨大的性能提升。这表明，在完成类似任务时，对成功规划的反思具有优越性。此外，Tp在存储先前失败的情况下（TPSR-SE/TP-SR-SM）也能很好地工作。

二、One for All

下面再分享一篇Graph与LLM结合的工作《One for All: Towards Training One Graph Model for All Classification Tasks》，ICLR分数为10,6,6,6.

在人工智能和机器学习迅猛发展现代，图学习已经成为一个关键领域，它涉及到从复杂的图数据中提取有用信息。图数据普遍存在于多个领域，如社交网络分析、生物信息学和推荐系统。然而，这面临着一个显著的挑战：如何设计一个能够适应多种任务的统一模型。传统上，针对不同的图任务，如节点分类、链接预测或整体图分类，研究人员往往需要开发专门的模型。这种方法不仅耗时且效率低下，而且限制了模型的通用性和灵活性。在这篇文章中，作者提出了一个创新的框架 "One for All" (OFA)，旨在解决这一挑战。OFA 的核心理念是开发一个单一的图模型，该模型能够处理各种分类任务，无论是节点分类、链接预测还是图分类。这一思路源于大语言模型在处理多种语言任务方面取得的巨大成功。作者通过引入带文本属性的图、节点的概念，以及一种新颖的图提示范式，成功地将这一理念应用于图学习领域。

2.1 方法

上图说明了 OFA 的pipeline，它包括三个部分。首先，将来自不同领域的图集成为具有相同格式的文本属性图（TAGs），允许LLM将所有TAG编码到同一个空间中。第二部分通过引入兴趣节点(NOI)子图和NOI提示节点，将图域中的不同任务类型统一起来，其中图模型可以自动关注与任务相关的信息。最后，OFA提出了图提示范式(GPP)，它将任务信息有机地注入到图数据中，从而实现上下文学习。下面对这几个部分逐一介绍：

2.1.1 用TAGs统一不同域的图数据

尽管不同数据集具有不同的属性，但几乎所有的属性都可以用人类可解释的语言来描述。例如，在节点表示原子的分子图中，我们可以用纯文本来描述具有原子特征的节点，包括元素名称、特性等。通过使用文本来描述节点和边，可以应用LLM将不同的图属性编码到同一个空间中。因此，OFA引入了 TAG 的概念来系统地整合来自不同领域的图数据。如下图所示，给定一个文本属性图（TAG），文本特征始终以文本特征节点开头。这是为了表明这个节点是一个输入节点，具有来自原始图的特征。接下来，文本描述了特征的类型和特征的内容。如果一个节点有多个特征，它们通过分号连接起来。边的文本特征的构建类似，不同之处在于文本的开头是 Feature edge。

如图所示，OFA随后应用LLM编码器将所有文本特征编码成固定长度的向量，作为所有节点/边的最终输入特征。也就是说，对于节点和边，它们的向量表示定义为和。因为LLM编码的输入特征包含领域信息，后续流程可以捕获并利用这些信息。

2.1.2 用兴趣节点（NOI）统一不同的图任务

在 OFA 中提出了 "兴趣节点"（NOI）子图和 NOI 提示节点，将不同的图任务统一为一个任务。NOI 指的是任务中的目标节点集，如下图中的蓝色节点所示，表示为。NOI 不限于列出的任务级别，其大小取决于预测目标。NOI 子图被定义为围绕 NOI 的子图。记为围绕的 -hop子图，包括的 -hop邻居节点和所有相互连接的边。NOI 子图结合了 NOI 中所有节点的自我中心子图如下公式：

接着定义NOI提示节点，统一不同任务类型的处理和读出过程。NOI提示节点与任务提示文本相关联。如上图中的双同心圆所示，NOI 提示节点连接所有NOI节点。通过消息传递，NOI 提示节点总结了 NOI 和任务描述中的信息。然后，我们可以为下游任务将类节点附加到 NOI 提示节点上，NOI 提示节点可被视为一种标签技巧，它提高了原始图模型的表达能力，从而更好地学习 NOI 周围的结构信息。

2.1.3 上下文学习的图提示范式

这里引入第三类节点叫做类节点（class node），每个类节点保存与特定类相关的文本信息。它的形式如下所示：

用表示类别 i 的类别节点。在 NOI 提示节点和每个类别节点之间添加边，如中的灰线所示，表示为：，其中是类别的数量。和指定了从 NOI 提示节点到类别节点以及反向的边缘关系类型。总的来说，提示图由下式给出：

接着，将输入图和提示图的组合输入到图模型中，表示为。我们使用图模型来处理提示图，并使用类别节点的嵌入向量来进行二分类。具体来说，设是图学习模型中类别节点的向量表示。我们通过以下方式预测 NOI 属于类别 i 的可能性：

最后利用argmax得到预测到类别：

2.2 实验

本文在节点分类，链路预测和图分类上都进行了实验，下面是有监督学习的实验结果，可以看到：(1) 与baseline方法相比，独立训练和联合训练在所有数据集上都取得了相当或更好的结果。这表明，使用 LLM 编码器的文本特征可以在所有图数据集上获得合理的结果。(2) OFA 成功地使单一图模型在不同领域的所有图数据集上都有效，因为所有不同 LLM 的联合版本在所有数据集上都表现良好。(3) 一般来说，较大的 LLM 可以在联合训练中获得更好、更稳定的性能。本文还观察到，LLM 越大，收敛速度越快（Llama2-13b）。但是，其幅度并不明显。同时，不同的 LLM 似乎专门用于不同的领域。例如，在引文网络中，Llama2 比其他 LLM 取得了更好的性能，但在分子数据集中，e5-large-v2 却取得了很好的效果。这可能是因为不同 LLM 的训练数据不同。(4) 与baseline方法相比，OFA 的独立版本和联合版本在 Cora（节点）、Pubmed（节点）和 WikiCS 上的性能都较差。这可能是因为冻结 LLM 编码器获得的固定长度向量在某些情况下的判别能力不如单次编码，从而阻碍了模型的学习。本文还提取了 OFA-joint-st 对每个数据集的 NOI 提示节点的输出嵌入，并将其投影到二维空间。如图 3 所示，不同领域的节点嵌入明显分开。这表明，OFA 模型可以在不同的子空间中表示来自不同领域的数据，从而对其进行处理。

下面还有一些few- shot和zero-shot的实验结果，可以发现OFA的效果都是比较优越的。

三、总结

这次介绍了两篇ICLR2024投稿的Graph+LLM论文。第一篇文章提出了一种新的prompt的方法，它模拟了人类的四个思维方式，根据类似的问题来类比推理得到新问题的答案，并在三个任务上都取得了很好的效果。这篇文章的作者之前在图神经网络领域有探索，提出来的这个TP方法也带着GNN的message-passing的味道，未来如何将GNN中的一些思想运用到LLM中，是一个很好的研究方向。

第二篇文章提出了OFA 模型，在不同的图任务中表现出色，成为第一个适用于跨领域分类的通用图模型。这一成果在图学习领域具有重要意义，因为它不仅提高了模型处理多种任务的能力，而且提高了模型的灵活性和适应性。

本期责任编辑：杨成

本期编辑：刘佳玮

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成、王啸

编辑：刘佳玮

长按下图并点击“识别图中二维码”

即可关注北邮 GAMMA Lab 公众号

专题解读 | ICLR2024图与大语言模型结合论文介绍

原文始发于微信公众号（北邮 GAMMA Lab）：专题解读 | ICLR2024图与大语言模型结合论文介绍

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

专题解读 | ICLR2024图与大语言模型结合论文介绍

一、Thought Propagation

1.1 引言

1.2 方法

1.3 复杂度

1.4 实验

1.4.1 最短路径推理

1.4.2 创意写作

1.4.3 LLM-Agent 规划

Docker配置了daemon镜像源但未生效，仍走默认源的解决办法

G.O.S.S.I.P 阅读推荐 2025-06-26 RAG Trackback

如何做好IT资产管理

近期勒索软件组织Qilin如此活跃 | 什么来头？

5 分钟零配置！一键搭建局域网文件共享服务器（手机 / 电脑互传必备）

0day漏洞攻防竞赛：东大与美国的隐秘战争

BreachForums暗网论坛看来是真凉了

NSFOCUS旧友记王艳《往事值得回味》

信息科技关键风险指标监测（ KRI ）

Splunk系列：Splunk字段提取篇（三）

发表评论

在线咨询

微信