什么是o1,它是如何工作的?
那么,什么是o1?OpenAI的o1模型是他们最新的迭代,专注于高度推理和思想链处理。与GPT-4o或GPT-4等以前的模型不同,o1是专门为在响应前“思考”而设计的,这意味着它不仅生成文本,而且在响应前要经过多个推理步骤来解决复杂的问题。这种方法使它更好地完成需要详细推理的任务,如解决数学问题或编码挑战。这很像我们,在说话之前先思考。
不幸的是,和我们中的一些人一样,这种回答前的思考过程使o1比以前的模型慢得多。有时甚至不会引起任何反应。
当你问一个问题时,它需要更长的时间,因为它在推理上花费了更多的计算——基本上,它需要时间来反思和完善其回答。就像我们会要求在思想链提示下“一步一步地思考”一样,但它每次都这样做,因为他们如何通过强化学习进一步训练模型,迫使它每次一步一步地思考,并在回答前反思。不幸的是,除了“在数据效率高的训练过程中”之外,没有关于数据集的细节。
虽然结果看起来令人印象深刻,但我们必须拭目以待,看看人们是否喜欢需要更长的时间才能获得好结果的事实。尽管如此,还是有一些非常有趣的事情需要提及......
o1和GPT-4o之间的主要区别
首先,o1与GPT-4o等模型的真正不同点显然是其内置的推理能力。在测试中,o1在编码、解决问题和学术基准等推理繁重的任务上表现优于GPT-4o。o1的突出特点之一是它能够将思想串在一起,这意味着它更有能力解决早期模型可能挣扎的多步问题。
例如,在数学竞赛和编程挑战等任务中,o1能够解决更复杂的问题。平均而言,o1在AIME(美国邀请数学考试)等基准测试中得分要高得多,它解决了74%的问题,而GPT-4o的9%。
它在处理多语言任务方面也做得很好。事实上,在涉及约鲁巴语和斯瓦希里语等语言的测试中,o1的性能全面优于GPT-4o,这些语言对早期模型来说是出了名的困难。
推理时间和性能权衡
这就是o1的优势变成其潜在弱点的地方。虽然该模型在推理方面要好得多,但以推理时间和令牌数量为代价。思想链推理过程意味着o1比GPT-4o慢,因为它在推理过程中花更多时间思考问题,所以当它与您交谈时,而不是专注于使用严格使用高计算来训练模型。看到这里正在探索另一条途径,结果大大改善,现在由于最近模型不断降低生成价格和延迟,代币生成的效率提高,这非常酷。尽管如此,它还是显著增加了两者。
这种延迟差异在模型应处理复杂、多步推理的任务中尤为明显。因此,如果您使用o1进行快速、直接的任务,与GPT-4o-mini或Claude等型号相比,它可能感觉有点迟钝。这本质上是速度和理解深度之间的权衡。
减少幻觉
o1闪耀的另一个领域是减少幻觉——那些模特只是编造东西的时刻。在测试期间,o1的幻觉远低于GPT-4o,特别是在事实准确性至关重要的任务中。例如,在SimpleQA测试中,o1的幻觉率仅为0.44,而GPT-4o的幻觉率为0.61。这使得o1在正确事实至关重要的任务中更加可靠。
自我反思和“草莓问题”
你可能听说过人们提到一种叫做“草莓模型”的东西,在某些圈子里,它实际上是o1的代号。它之所以被称为“草莓”,有点像内部笑话——因为“草莓”一词中的“R”数字,这与复杂推理的概念有关。就像计算模型“草莓”中的R有多棘手一样,每次都要获得正确的推理步骤也很棘手,但o1使这个过程更有效率。
公平性和偏见处理o1中的另一个重大升级是它如何处理公平性和偏见。在BBQ测试等公平性评估中,与GPT-4o相比,o1在避免刻板印象反应方面要好得多。然而,它并不完美——当面对模棱两可的问题时,o1有时会挣扎,特别是当正确答案应该是“未知”时。但总的来说,它更符合人类价值观,特别是与GPT-4o相比。
关于o1So的最后想法,OpenAI的新草莓或o1模型并不是一个很大的飞跃。这基本上只是一个更好的模型,实现了思想链,促使我们大多数人已经在使用,而且以前也做过。问题是,通过更高的代币使用,生成需要更长的时间,成本更高,所以人们停止了这样做。似乎OpenAI做出了相反的决定,并全力以赴。事实上,它比GPT-4o等模型慢,因为它需要时间来思考问题,但如果你需要一个擅长解决复杂任务的模型,o1是你的首选。
如果您正在处理复杂的问题,或者需要一个跨不同语言的可靠模型,o1绝对值得额外的等待时间。但如果速度是你的首要任务,GPT-4o-mini可能仍然是更好的选择。
和往常一样,如果你想更深入地了解o1的工作原理及其结果,我在下面的描述中链接了更详细的资源和David Shapiro的非常酷的直播。
我通常尝试解释研究论文或方法,但不幸的是,像往常一样,OpenAI没有对强化学习过程或他们使用的数据说太多。尽管如此,我们可以假设该模型必须与GPT-4o非常相似,而数据集只是一个精心策划的数据集,实现了思想链过程。
原文始发于微信公众号(KK安全说):相比较chatgpt,o1会不会更好?
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论