随着 OpenAI 的 o1、DeepSeek-R1 和谷歌的 Gemini 2.5 等推理模型争夺顶级 AI 智能基准,希望整合 AI 的企业越来越警惕所谓的“模型膨胀”——模型变得不必要地庞大或复杂,推高计算成本和模型训练时间,并降低它们提供企业所需响应的速度。
OpenAI 的 o1 和 DeepSeek-R1 使用思维链(CoT) 推理将复杂问题分解为多个步骤,实现了前所未有的性能和比以前模型更高的准确性。但 IBM 副总裁兼 AI 基础设施组合负责人 Volkmar Uhlig 在接受IBM Think采访时表示, CoT 在推理过程中也需要大量计算资源,导致输出时间过长和延迟更高。
输入一类新的提示技术,在各种新论文中进行了描述,从思维原子(AoT)到草稿链(CoD),旨在通过帮助模型更快地解决问题来提高 CoT 的效率和准确性 - 从而降低成本和延迟。
人工智能科学家兼初创公司创始人 Lance Elliott 将思维链的新分支视为即时工程师工具包的变体。他告诉IBM Think:“您典型的家庭手工工具包可能有一个普通的锤子,那就是 CoT。AoT 类似于使用专门用于切割和调整石膏板的锤子。您可以使用普通锤子进行石膏板工作,但如果您有石膏板锤并且知道如何正确使用它,建议使用石膏板锤。”
IBM 的 AI 技术解决方案架构师 Vyoma Gajjar 看到了这些新的 CoT 表亲的潜力,尤其是对于“寻求更具成本效益的方式来促使小模型获得针对其特定用例的准确答案的企业”而言,她说。
思想原子:通过分而治之来加快思考速度
与将复杂问题分解为详细、连续步骤来解决的思路链不同,AoT 采用分而治之的策略。具体来说,正如 香港科技大学和中国人民大学的一篇论文的作者所解释的那样,AoT 将问题的步骤分解为并行处理的“原子问题”,然后将各个解决方案组合起来以得出最终答案。
AoT 既可以作为独立框架,也可以作为插件增强。当作者将 AoT 与 OpenAI 的 GPT-4o mini 结合使用时,它在六个基线基准测试中超越了多个推理模型,其中在 HotpotQA 数据集上超越了 o3-mini 3.4% 和 DeepSeek-R1 10.6%。
Gajjar 认为,AoT 对于寻求平衡性能和维持给定成本的企业应用程序大有裨益。她在接受IBM Think采访时表示:“单独的任务并行运行,然后让这些任务或‘原子’相互交流,以获得最准确的解决方案,就像电子与质子交流一样。”
论文作者确认,AoT“与现有方法相比,以显著降低的计算成本达到了具有竞争力的性能”,并补充道,“这种效率的提高可以归因于我们的原子状态表示,它只保留必要的信息,同时消除了冗余计算。”
然而,AoT 并不适用于所有用例。人工智能科学家 Elliott 表示,AoT 最有可能在“使用生成式人工智能推导数学证明、生成编程代码以及执行高度结构化的推理任务时”发挥作用。他说,AoT 不太可能提高创意写作任务和参与对话的效率。
草稿链:少写,多思考
同时,草稿链提示解决了推理模型产生冗长、高度详细的步骤(这会增加延迟)时可能出现的瓶颈。Zoom Communications 的作者在一篇关于CoD 的新论文中写道,这种现象代表了推理模型与人类之间的一个关键区别,人类倾向于“依靠简洁的草稿或速记笔记来捕捉重要见解,而无需不必要的繁琐” 。
“延迟问题经常被忽视,”论文作者写道。“然而,对于许多实时应用程序来说,低延迟和高质量响应至关重要。”
在 CoD 提示下,LLM 被鼓励在推理出答案的过程中给出简明的解释。例如,CoT 控制提示说:“一步一步思考回答以下问题。在分隔符 #### 后返回答案。”相比之下,CoD 提示指示模型“一步一步思考,但只为每个思考步骤保留最低限度的草稿,最多 5 个字。在分隔符后返回答案。”
研究人员使用 OpenAI 的 ChatGPT-4o 和 Anthropic 的 Claude 3.5 Sonnet,发现 CoD 在准确率上达到或超过了 CoT,同时使用的令牌减少了 92.4%,从而降低了各种推理任务的成本和延迟。
IBM 的 Uhlig 表示:“我们正处于一个全新的算法探索世界。如果你以不同的方式提示训练,你可以大大减少 token 的数量。这是非常自然的下一步。”
用例将决定哪种提示技术最好
虽然许多新的提示技术不断出现,但其中一种名为“思维骨架”(SoT)的技术因结合了思维原子和草稿链的元素而引人注目。一篇提出该技术的论文的作者表示,他们的灵感来自“人类的写作和思考过程”。SoT 提示引导 LLM 生成答案的骨架,然后并行完成每个骨架点的内容。
通过使用思维框架,来自中国清华大学和微软研究院的作者能够加快各种 LLM 的运行速度,并提高多个类别答案的准确性。他们写道:“我们展示了并行解码现成 LLM 的可行性,而无需对其模型、系统或硬件进行任何更改。”
例如,研究人员向模型提出了一个问题:“在工作场所解决冲突的最有效策略是什么?”使用 SoT 提示,作者将 Claude 的延迟从 22 秒减少到 12 秒(速度提高了 1.83 倍),将 Vicuna 33B V1.3 的延迟从 43 秒减少到 16 秒(速度提高了 2.69 倍)。
最终,没有一种提示技术能够解决所有问题,手头的任务将决定“提示工程师工具包”中最有效的选项,Elliott 说。“了解生成式人工智能在引擎盖下的工作原理非常有利,”他解释道。“这就像开车。你不一定需要知道发动机或变速箱如何工作的复杂细节,但至少熟悉一些关键原理可以大大有助于更好地驾驶汽车。你可以更好地应对结冰的道路、湿滑的道路、在山路上行驶和处理急转弯等情况。”
— 欢迎关注
原文始发于微信公众号(祺印说信安):新的提示技术解决模型膨胀问题
原文始发于微信公众号(祺印说信安):新的提示技术解决模型膨胀问题
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论