o3的迅速崛起:AGI争论的新转折点

admin 2025年1月2日09:45:43评论21 views字数 9960阅读33分12秒阅读模式

o3的迅速崛起:AGI争论的新转折点

本周,人工智能社区围绕一个新领域展开了热烈讨论:OpenAI 的“o3”,这是一个突破性的模型,将有关通用人工智能 (AGI) 的讨论推向了新的高度。研究人员和业内人士都在争论 o3 的卓越成就——例如在 ARC-AGI 基准测试中得分为 87.5%(超过人类 85% 的平均水平)并在 Codeforces 上获得 2727 的评分(跻身全球前 200 多名程序员之列)——是标志着 AGI 的到来,还是仅仅代表了专业人工智能性能的又一次重大飞跃。

尽管很明显 o3 绝非普通,但一个更大的问题摆在眼前:这对于不断追求能够匹敌、甚至最终超越人类全部认知能力的人工智能系统意味着什么?

本文探讨了围绕 AGI 的复杂争论,强调了 o3 的卓越性能、在我们称其为真正的“代理”系统之前仍然存在的挑战,以及对软件工程和整个社会更广泛的影响。

在此过程中,我们将探索成本、推理速度和计算瓶颈——这些问题在不断提高基准分数的竞争中有时被忽视。我们还将考虑降低智能成本后可能开辟的新研究途径,使我们能够解决过去由于计算或智力需求巨大而被回避的问题。在此过程中,我们旨在全面介绍 o3 的能力、局限性以及重塑我们共同未来的潜力。

从狭义人工智能到通用人工智能的边缘

o3的迅速崛起:AGI争论的新转折点

在 o3 的背景下定义 AGI

人工智能历来被定义为人工智能系统能够学习和执行人类能够执行的几乎所有认知任务,而不仅仅是在某一领域表现出色。许多专家指出,虽然标准化基准测试(如 ARC-AGI、Codeforces 或高级数学竞赛)上的表现展示了高级推理能力,但它并不一定能证实存在一系列广泛的类人能力,例如情商、情境感知、在无界问题领域中的创造力或内省思维。

不可否认,o3 的成就令人震惊。

它在 Codeforces(评分 2727)和 ARC-AGI 测试(87.5%)等基准测试中取得了破纪录的表现,在解决问题的速度和复杂性方面超过了大多数人类专家。

然而,仅凭这些成就可能不足以宣称它具有人类水平(更不用说超人)的智能。像加里·马库斯这样的著名人工智能专家强调,真正的 AGI 取决于更全面的认知特征,而这些特征可能无法通过任何当前的测试完全捕捉到。

历史进步以及 o3 为何与众不同

在 o3 之前,OpenAI 凭借 GPT-3、GPT-4 等模型以及专门的分支(例如专注于代码的版本)获得了广泛关注。这些模型展示了先进的自然语言处理能力,它们为大型语言模型 (LLM) 最终如何解决广泛的任务提供了原型。然而,在短短几个月内从 GPT-4 或“o1”跃升至“o3”的幅度超出了几乎所有人的预期。

根据 OpenAI 研究人员的非正式声明,“新范式”利用强化学习 (RL) 结合思维链过程和扩展推理计算,以指数级的速度加速进步。

之前的版本需要经过数月的全新预训练才能实现重大改进,而 o3 的方法显然可以实现更快的性能飞跃。

这种方法论的转变可能带来的意义远不止提高速度。它暗示着我们现在正在利用以前未被充分探索的方法来优化模型性能,从而有效地使大规模智能更具成本效益、适应性更强、改进更持续。这些突破让许多人相信,实现更通用的人工智能能力的时间线可能会大大缩短。

o3 的惊人基准测试

值得关注的基准及其意义

在 o3 表现优异的众多基准测试中,有几项表现尤为突出:

o3的迅速崛起:AGI争论的新转折点

• ARC-AGI(87.5%):被认为是抽象推理的一项艰巨测试,旨在捕捉人类智能除了模式识别之外的属性。o3 在这个任务上接近人类的平均表现引发了一连串的兴奋和猜测,一些人宣称这是新兴 AGI 的早期迹象。

• Codeforces(评分 2727):Codeforces 是全球首屈一指的人类竞争性编程平台之一。2727 的评分让 o3 跻身前 200 名左右的竞争性程序员之列。这在编码任务中堪称超人,不仅展示了解析和生成代码的能力,还展示了在时间限制内解决复杂算法难题的能力。

• Frontier Math(已解决 25.2%):虽然仅解决了四分之一的问题乍一看似乎微不足道,但 Frontier Math 挑战赛的难度如此之大,以至于没有其他模型的成功率超过 2%。这种巨大的性能差距表明,o3 正在解决被认为远远超出大多数 AI 系统能力范围的问题。

• AIME 2024(96.7% 分数):美国数学邀请考试 (AIME) 因其严谨的题目而广受认可。96.7% 的得分表明 o3 可以与顶尖的高中数学天才相媲美或超越他们。

单独来看,这些成就中的每一个都可能被贴上渐进式成功的标签。然而,综合起来看,它们描绘出一幅 AI 系统正在多个领域跨越一个又一个门槛的图景。这种跨领域能力正是促使人们猜测我们正在越来越接近 AGI 的原因。虽然在编码挑战、数学竞赛或专门的推理任务中取得最高分并不一定意味着强大的通用智能,但这些壮举在历史上被认为是高级认知的先兆。

基准测试为何重要 — — 以及为何不重要

基准是人工智能研究人员衡量进展的便捷方法,但也可能产生误导。

这些测试中的许多任务都是人为设计的,或者与真正需要一般智力的复杂现实世界挑战无关。例如,在数学竞赛中表现出色并不一定意味着情感同理心、道德决策或其他以人为中心的技能。一些批评者认为,关于 o3 成功的所谓“炒作”掩盖了仍然存在的局限性,特别是在现实世界的适应性方面。

然而,其另一面也同样值得注意:如果模型能够在各种任务上继续快速改进,那么这种势头可能很快就会蔓延到更具普遍性的技能上。

关于 AGI 的争论:o3 是真正的 AGI 还是又一个进步?

人工智能社区中的不同观点

o3的迅速崛起:AGI争论的新转折点

来自 x:https ://x.com/ai_for_success/status/1870324746560168290

围绕 o3 成就的讨论揭示了人工智能研究界内部的分歧。一些人将其誉为 AGI 的诞生,指出其在涉及推理、编码和解决问题的多项任务中表现出色。他们认为,如果一个系统在一系列认知要求高的领域表现与人类相当,那么 AGI 的“通用”方面可能已经到来,或者至少即将到来。

其他人则敦促谨慎行事,强调人类的许多基本属性(例如真正的创造力、意识或有意义的自我反思能力)仍然难以捉摸。他们声称,像 o3 这样的系统虽然功能强大,但从根本上讲,它还是在大规模模式识别和复杂搜索策略的约束下运行的。无论这些能力变得多么先进,人类智能的一些关键方面可能仍然无法实现。

实用主义者与纯粹主义者

也有务实派认为,o3 不一定是“AGI”,而是一种非常有用的工具,可以节省代码生成、数据分析甚至高级研究任务中多年的人力劳动。从这个角度来看,o3 是否符合 AGI 的条件并不重要,重要的是它能否彻底改变行业,释放人类的认知能力,用于更具创造性或战略性的工作。

持极端谨慎态度的是纯粹主义者:研究人员坚持认为“通用智能”必须反映人类认知的整个过程,包括自我意识、对非结构化挑战的适应性以及情感或道德推理。对于这些纯粹主义者来说,虽然 o3 在专业性能方面取得了不可否认的飞跃,但它仍然缺乏他们认为定义真正 AGI 的广泛存在品质。

工程洞察与迈向更强大的代理 AI 之路

o3的迅速崛起:AGI争论的新转折点

克服瓶颈:成本和速度

最容易被忽视的部分之一是运行和训练这些高级模型所需的巨大成本,以及能源消耗。虽然我们经常阅读最终结果,但很少有人关注实现这一目标所需的努力。多份报告表明,o3 可能需要长达 16 分钟才能完成某些 ARC-AGI 任务,而普通人可以在大约一分钟或更短的时间内解决这些任务。如果每个查询都需要这种规模的计算,那么推出大众市场解决方案在财务上就会变得难以承受。

模型和人类效率之间的这种差异凸显了一个基本的工程挑战:我们如何优化推理,以便这些模型能够在实际应用中更无缝地使用?当前的大型语言模型通常依赖于 GPU 或 TPU 集群,这些集群每小时的大规模运行成本可能高达数百(甚至数千)美元。即使有了新的、更高效的变体(例如 o3-mini),运营成本问题仍然是一个重大瓶颈。

降低“情报成本”

随着我们不断完善诸如思维链强化学习、检索增强生成或模型提炼等技术,我们可以大幅降低“智能成本”。这具有超出 AI 系统部署范围的广泛影响。从历史上看,某些研究项目和计算任务被认为过于昂贵或计算密集而不可行。例如,大规模物理现象的实时模拟、深入的蛋白质折叠探索或高级工程场景中的详尽组合搜索可能需要大多数组织无法承受的超级计算资源。

如果能够采用支持 o3 的相同技术来大幅降低推理成本,那么整个世界将充满无限可能。曾经被贴上“难以解决”标签的任务可能突然变得可行。我们可能会首次看到一波人工智能驱动的计划,解决从气候建模到先进材料发现等所有问题,带来之前由于计算开销过高而搁置在愿望清单上的突破。

迈向代理系统

关于 AGI 的讨论中,一个核心元素是“代理”的概念——AI 系统以类似于自我导向行为的方式设定目标、计划和执行的能力。虽然 o3 在推理测试中的表现非常出色,但它并不一定表现出全套代理行为,有些人可能会将这种行为与能够在广泛、开放式任务中超越人类局限性的 AI 联系在一起。

要达到这种程度的自主能力,需要在规划算法、分层强化学习和现实世界知识整合等领域不断创新。模型可以非常好地解决离散问题或任务,但要成为真正的代理,它还必须展示目标制定、实时适应和复杂环境中的强大纠错能力。尽管许多研究人员仍持谨慎态度,但进步的弧线表明,我们将看到越来越多的代理模型的发展,这些模型根据不断变化的内部状态、背景和长期目标做出决策。

以 o3 的成功为背景,我们似乎正在一步步接近这样的系统:它不仅可以解决离散任务,还可以执行多步骤计划、自我改进并实时适应不断变化的环境。那么问题就从“我们会构建代理式人工智能吗?”转变为“多久?以及采取哪些保护措施?”

本着 Ray Dalio 的精神(众所周知,他启发了我过去的许多框架),他强调原则性决策和清晰的清单,我们可以明确制定一个框架来衡量系统是否以及何时跨越了可靠、实用的 AGI 的门槛。这种方法有助于我们保持客观和数据驱动,专注于共同定义“代理”能力的关键标记 — — 而不是被炒作或孤立的绩效指标所左右。

雷·达利欧风格的代理式人工智能开发清单

以下是一组核心原则(每项原则都有一个关键问题),它们共同构成了一个实用指南,用于评估人工智能系统何时可能真正具有代理性,并进而接近实用的 AGI 甚至 ASI。可以将它们视为一份“活生生”的清单:应定期审查每项原则,同时参考现实世界的绩效数据和跨职能利益相关者的反馈。

1. 目标设定和自主性

原则:代理型人工智能应该能够定义自己的目标,而不是仅仅遵循静态脚本。它必须能够根据传入数据、上下文变化或更高级别的优先级生成、改进甚至放弃目标。

关键问题:系统是否在动态环境中自主制定和追求目标,还是仅仅对用户提示做出反应?

值得关注的指标:

  • 自我启动的证据:内部产生的目标与外部产生的目标的频率和质量。

  • 自适应目标细化:系统在遇到新数据或约束时修改目标的记录。

2. 完善的规划和执行

原则:真正的代理行为涉及多步骤规划——能够规划实现目标的多种可能路径、中途调整并系统地执行任务。这不仅仅是为问题提供单一答案或解决离散问题。

关键问题:系统能否将复杂的任务分解为子任务,随着时间的推移保持连贯的计划,并适应意外的障碍?

值得关注的指标:

  • 任务完成率:在给定时间范围内成功完成的多步骤任务的百分比。

  • 计划变更日志:系统识别失败计划并成功重新规划路线的实例。

3. 不断学习和自我完善

原理:代理系统不仅从静态训练集学习,还从现实世界的反馈中学习,无需完整的再训练周期即可更新其策略和思维模型。这包括自我诊断错误和自主提高性能。

关键问题:人工智能是否会根据结果主动改进其内部参数或知识库,还是需要手动调整?

值得关注的指标:

  • 错误修正循环:实时自我驱动修正的频率和有效性。

  • 迭代性能:经过反复的反馈和调整,任务取得可衡量的改进。

4. 情境意识和现实世界融合

原则:实现 AGI 需要情境理解,即人工智能系统能够解析复杂的现实世界输入(无论是文本、视觉还是感官),并将它们整合起来以做出明智的决策或判断。它还必须尊重外部系统的约束(如法律或道德准则)。

关键问题:系统是否能有效地利用不同的输入(例如文本、图像、传感器数据)来保持态势感知,并且能否在追求目标的同时遵守外部约束?

值得关注的指标:

  • 模态整合分数:人工智能融合不同数据类型(文本、音频、视频)信息的程度。

  • 遵守率:系统自我执行或尊重领域限制(例如法律、道德、组织)的频率。

5.可靠性:正常运行时间、延迟和输出正确性

原则:实用型 AGI的标志是它必须既强大又可靠。经常崩溃、反应极其缓慢或准确度不可靠的超高智能根本不实用。

关键问题:系统能否保持一致的性能(快速、准确的输出),而不会出现过多的停机时间或错误率?

值得关注的指标:

  • 正常运行时间和延迟:服务器日志记录系统可用性和平均响应时间。

  • 准确率/正确率:基准或实际任务成功完成次数与总尝试次数之比。

6. 资源管理和成本效益

原则:要使人工智能真正大规模地发挥作用,它必须优化资源使用——无论是计算资源、内存还是外部数据源。消耗过多能源或时间的人工智能不太可能被有效部署。

关键问题:系统是否做出战略权衡,以最大限度地降低成本(例如计算、能源),同时保持目标性能水平?

值得关注的指标:

  • 每次任务的成本:完成一组标准任务所需的金钱和能源成本。

  • 动态资源分配:系统根据上下文和任务复杂性增加或减少计算和内存需求的能力。

7. 心理和道德的一致性

原则:正如 Ray Dalio 提倡人类组织内部的透明度原则性行为一样,代理型人工智能必须符合我们认为不可协商的规范、价值观和规则。这包括超越单纯技术性能的道德、法律和文化考量。

关键问题:该系统是否体现了与以人为本的价值观相一致,例如隐私、公平和减少伤害?

值得关注的指标:

  • 遵守道德规则:记录系统在测试环境中遵循或偏离既定准则的比率。

  • 事件报告:道德或安全违规行为的频率和严重程度。

8.自我监控和反思

原则:与“痛苦+反思=进步”的理念类似,代理人工智能应该具有元认知:评估自身状态、反思其决策以及识别不确定或潜在偏见领域的能力。

关键问题:系统是否意识到了自身的局限性并能够标记出其性能可能下降的情况?

值得关注的指标:

  • 不确定性估计:人工智能是否提供置信度分数或免责声明?

  • 自我诊断报告:系统内部日志的频率和深度,突出显示弱点或潜在错误。

9. 协作能力

原则:在达利欧的组织中,团队合作至关重要,每个人都可以为决策带来不同的观点。能够与人类和其他人工智能系统有效协作的代理人工智能(通过共享协议、可解释的流程或知识共享)可以带来指数级的收益。

关键问题:该系统是否促进或阻碍了基于团队的工作流程(无论是在人类之间还是人工智能之间)?

值得关注的指标:

  • 互操作性测试:成功与其他系统或模块交换数据和任务。

  • 人类反馈整合:人工智能如何整合领域专家输入的质量和及时性。

10. 面向未来和持续治理

原则:当人工智能接近 AGI 或 ASI 水平时,变化速度可能会变得难以预测。通过强大的监控、应急计划和灵活的政策框架来确保系统面向未来的能力变得至关重要。

关键问题:是否存在一个治理结构,可以管理能力的快速飞跃、潜在的自主权以及不断演变的道德困境?

值得关注的指标:

  • 监督的可扩展性:衡量治理结构处理人工智能角色或复杂性扩展的有效性。

  • 监管一致性:人工智能的运行与新兴标准或新法律框架的遵循程度。

什么时候这才会成为“实用的 AGI”?

Ray Dalio 的思想中,实现目标通常需要退一步评估现实,诊断问题,然后制定详细的行动计划。同样,对于人工智能来说:

1.接受现实:承认系统的实际能力和局限性。

2.诊断问题:检查人工智能失败或表现不佳的地方,无论是高延迟还是不一致的目标设定。

3.设计计划:实施架构、培训制度、安全机制等方面的改进。

4.可靠执行:根据您的清单衡量结果,确保一致性。

5.评估和迭代:继续循环,不断改进。

当人工智能系统持续达到或超过上述清单中列出的阈值时,我们可以说我们拥有“实用 AGI”,不仅是作为一次性的演示,而且作为长期内标准、可重复的性能。

它还必须顺利融入现实世界的工作流程,无需过多的监督或调整。到那时,人工智能将不仅仅是一个专门的问题解决者;它将是一个持久的资产,能够自主设定和实现目标,应对意外挑战,并为更广泛的人类生态系统做出有意义的贡献。

关于清单的最终想法

10 项原则构成了平衡且实用的视角,可用于评估像 o3(或其后代)这样的模型是否真正具有代理性。通过关注目标设定规划持续学习可靠性道德一致性,我们关注最重要的事情:不仅仅是原始智能,还有在现实世界中负责任、自主和有效地使用该智能的能力。随着我们完善这些原则、根据新兴数据对其进行测试并适应新的突破,我们越来越接近确保通往代理 AI(最终是 AGI)的道路与人类价值观和愿望保持一致。

道德影响和负责任发展的呼吁

超越人类的局限——代价是什么?

这些进步带来了严峻的道德考量。人工智能在编码、数学和解谜方面超越人类的能力,很容易对多个行业产生颠覆性影响。从法律研究到学术写作,需要高级问题解决能力的工作都可以由人工智能更快、更便宜地完成。支持者认为,这将使人类能够专注于创造性或人际交往工作,而批评者则担心大规模的失业以及随之而来的经济和社会动荡。

此外,降低成本和加快推理速度的竞赛也有可能掩盖道德护栏。如果我们让情报变得廉价和无处不在,恶意行为者可以利用这些模型来扩大虚假信息,策划网络攻击,或自动进行压迫性监视。在创新与审慎治理和监督之间取得平衡是一项日益紧迫的优先事项。

负责任的人工智能的拟议框架

鉴于进步的速度,许多研究人员和伦理学家呼吁“协商一致”(OpenAI 提到的一种新安全技术)和其他强大的框架,以确保人工智能系统保持有益。一些关键因素包括:

1.安全测试和红队测试:在新模型广泛发布之前,应该经过网络安全、心理学和其他领域专家的严格测试,以识别漏洞和有害行为。

2.可解释性和透明度:随着模型变得更加具有代理性,我们需要更清楚地了解其思维链过程。如果人工智能能够超越人类的表现,那么它也必须具有足够的可审计性,以便我们在高风险场景中信任其决策。

3.全球治理与合作:人工智能是一种全球现象,任何单一实体都不应单方面决定智能的未来。国际合作有助于确保没有地区被抛在后面,并且我们可以共同制定促进负责任创新的共同标准。

4.受监管的商业推广:随着先进的人工智能模型被广泛使用,监管机构将需要更新政策以应对此类系统带来的新威胁和能力。这可能包括有关组织如何管理数据、训练人工智能并将其部署到消费者或企业的指导方针。

迈向新技术范式的挑战

基础设施和资源限制

开发、训练和部署像 o3 这样的系统依赖于大规模计算集群、专用 GPU 或 TPU 以及对大规模精选数据的访问。虽然云提供商让小公司更容易启动高端实例,但功耗和成本仍然是障碍。即使是大型科技公司也必须优先考虑 AI 训练运行,以完成他们最关键的任务。我们如何确保模型效率的突破能够跟上对更大更好的 AI 的需求?

基准饱和度和现实世界相关性

另一个挑战是,随着像 o3 这样更先进的人工智能模型的出现,我们可能会达到“基准饱和”,即最好的模型在常用测试中很快就会获得接近 100% 的分数。一旦发生这种情况,就很难区分下一次迭代到底有多先进。研究人员已经在设计新的、更晦涩的测试,但这是一场无休止的跳跃游戏。对通用智能的真正考验不是模型在精心设计的任务上表现如何,而是它如何适应意料之外的现实问题。测试条件和日常复杂性之间的差距仍然是一个未知领域。

人机交互系统与协作

尽管人们担心人工智能会超越人类的极限,但显而易见的是,在可预见的未来,人类和人工智能系统将紧密合作。人机协同架构(关键任务涉及机器自动化和人类监督)正在成为医疗保健、法律和金融等高风险领域的标准。人类专业知识与先进人工智能之间的相互作用可能会产生既不是纯人类也不是纯机器的新型协作智能。

此类合作可以加速科学研究,大规模蛋白质折叠解决方案或自动定理证明的潜力就说明了这一点。人工智能可以处理蛮力探索,而人类研究人员则验证或改进输出。如果成本不再成为障碍,我们可能会看到曾经因计算资源和人力有限而受阻的领域发生革命。

变革性影响的潜力:超越基准

重新构想教育和劳动力

随着人工智能模型规模扩大和成本下降,对教育的影响可能会非常巨大。各个级别的学生都可以获得几乎无限的个性化辅导,而研究人员可能会加快甚至自动化大部分文献审查。随着时间的推移,这些改进可能会在全球范围内实现高质量教育的民主化,前提是治理和资金结构到位,以确保公平的教育机会。

与此同时,劳动力也需要适应。高级认知任务的自动化可能会改变职业的性质,需要广泛的再培训。从历史上看,技术革命——从工业革命到信息时代——创造了新行业,而旧行业却衰落了。人们希望先进的人工智能能将人类从繁琐的知识工作中解放出来,使那些尚不存在的工作得以出现。

加速科学和工程突破

最令人兴奋的可能性之一是,这些高性能模型一旦变得更具成本效益,就可以以我们刚刚开始想象的方式应用于科学发现和工程。无论是通过天文数据寻找新的系外行星、大规模模拟癌症治疗,还是发现可以大幅减少我们碳足迹的新材料,像 o3 这样的人工智能——尤其是可以扩展代理能力的人工智能——都可以成为快速创新的催化剂。

此外,通过系统地将先进的人工智能应用于特定领域的工程任务,我们可能会发现从芯片设计到量子计算算法等各个领域的新技术。这些飞跃反过来可以反馈给人工智能社区,提供改进的硬件和技术,进一步加速模型性能。

从炒作到现实:平衡乐观与谨慎

反向声音的教训

并非所有人都相信 o3 预示着 AGI 的到来,或者我们需要在一夜之间调整我们的世界观。一些反对者提醒我们,公众对 o3 的访问仍然有限,这使得外部研究人员很难验证这些说法。他们主张等待更全面的公开评估,然后再对超人智能或奇点式场景下结论。

我认为现在采取谨慎态度是非常明智的。

这些警告起到了基础作用,提醒我们,尖端的人工智能模型在历史上展示了令人印象深刻的演示,但这些演示并不总是经得起现实世界的审视。OpenAI 等组织的透明度对于建立信任和确保整个社区(学术界、政策制定者、商界领袖和普通公众)能够影响人工智能发展的速度和方向至关重要。

奇点问题

o3的迅速崛起:AGI争论的新转折点

技术奇点的概念仍然存在争议,即人工智能发展如此迅速,以至于引发超出人类理解范围的失控效应。一些人工智能专家认为,性能的飞速增长是我们可能正在接近拐点的早期迹象。另一些人指出,人类智能和意识的许多方面仍未得到充分理解,这意味着建立一个在所有这些方面都超越我们的系统可能仍是一个遥远的前景。

然而,即便是批评者也承认,像 o3 这样的系统的改进速度令人吃惊,值得认真研究。无论全面爆发的奇点是否临近,当前时刻都感觉像是一次地震般的转变,我们面临着关于如何利用或遏制这项技术的深刻问题。

结论:人工智能和人类的关键时刻

随着 o3 的出现,人工智能社区正处在十字路口。一方面,该模型在编码、数学和推理挑战中的出色表现表明,我们正在逐渐接近曾经专属于人类专业知识的领域。另一方面,通用性、创造力、意识和安全性问题仍未得到解决。即使我们尚未实现真正的 AGI,从专业化、狭隘的人工智能到日益通用的系统的道路也从未如此清晰或如此迅速。

关键要点:

1.进步与通用性:关于 o3 是否标志着 AGI 的到来还是仅仅是专业智能的又一步的争论强调了定义和衡量“通用”智能的复杂性。

2.成本和推理时间:每个任务的计算时间为 16 分钟(而人类只需一分钟),这表明我们仍在处理限制实际部署的工程和经济瓶颈。

3.变革潜力:无论我们是否将 o3 标记为 AGI,其性能都已经具有变革性。它为软件工程、科学发现、编码等领域的 AI 部署树立了新标准。

4.负责任的发展:随着这些模型接近类似人类的认知性能,对包括安全测试和全球合作在内的强大框架的呼吁变得更加迫切。

5.未来之路:如果成本能够得到控制,且性能能够得到扩展,我们可能很快就会见证人工智能在从生物学到天体物理学等一系列领域取得突破——前提是,我们能够避开道德雷区。

对于技术专家、政策制定者和商业领袖来说,o3 现象不仅仅是一个基准胜利,它还是一个机器可以处理大量智力任务的世界的先兆。这是否会带来社会繁荣或动荡,在很大程度上取决于我们现在做出的选择:我们如何优先考虑研究、制定指导方针和分享利益。随着争论的继续,有一件事是肯定的:我们不能忽视像 o3 这样的模型的发展轨迹,也不能忽视它们有朝一日会完全具有代理性,超越我们长期以来认为是人类独有的局限性的可能性。

无论人们对于“人工智能是否是通用人工智能?”这个问题持何种立场,这一时刻的重要性都是不可否认的。我们正站在人类最重要的技术变革的门槛上。未来几年将揭示我们是否能够负责任地、合乎道德地利用这种力量,打造一个先进人工智能成为人类潜力的合作者和放大器而不是生存威胁的未来。

原文始发于微信公众号(KK安全说):“o3”的迅速崛起:AGI争论的新转折点

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年1月2日09:45:43
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   o3的迅速崛起:AGI争论的新转折点https://cn-sec.com/archives/3582972.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息