研究人员以不到50美元的成本创建了OpenAI o1推理模型的开源竞争对手。

2025年2月7日00:04:09评论21 views字数 1663阅读5分32秒阅读模式

近日，斯坦福大学和华盛顿大学的人工智能研究人员仅凭50美元的云计算积分，就训练出了一个具备“推理”能力的AI模型。据上周五发布的一篇最新研究论文https://arxiv.org/pdf/2501.19393介绍，这一模型被称为s1，其在数学和编程能力等测试中表现与尖端的推理模型不相上下，比如OpenAI的o1和DeepSeek的R1。

s1模型的代码、训练数据和相关代码已在GitHub上公开https://github.com/simplescaling/s1。研究团队表示，他们首先采用了一种现成的基础模型，随后通过蒸馏技术进行微调，提取出其他AI模型的“推理”能力，即通过对该模型的回答进行训练，来传授这种能力。

研究人员指出，s1是从谷歌的推理模型——Gemini 2.0 Flash Thinking Experimental中蒸馏出来的。蒸馏技术与伯克利的研究人员上个月采用的制作AI推理模型的方法类似，当时他们用约450美元训练出了一个具有推理能力的模型。

对许多人来说，少数没有雄厚资金支持的研究人员仍能在AI领域取得创新突破令人振奋；但s1的出现也引发了关于AI模型商品化的严肃问题。如果有人能够花费相对较少的资金复制出一个价值数百万美元的模型，那么所谓的护城河究竟何在？

不出所料，大型AI实验室对此并不买账。OpenAI曾指责DeepSeek未经许可地利用其API数据进行模型蒸馏，目的在于复制其推理模型。

s1的研究人员旨在寻找出一种最简单的方法，以实现优异的推理表现以及“测试时扩展”——即在回答问题前让AI有更多“思考”时间。这正是OpenAI的o1模型中所实现的一些突破，DeepSeek及其他AI实验室也在通过各种技术手段试图复制这一效果。

s1论文表明，借助监督微调（SFT）这一方法——即明确要求AI模型模仿数据集中设定的行为——只需用较小的数据集，同样可以对推理模型进行蒸馏。

而SFT的成本往往低于DeepSeek用来训练其与OpenAI o1模型竞争的R1模型所采纳的大规模强化学习方法。

谷歌通过其Google AI Studio平台，提供对Gemini 2.0 Flash Thinking Experimental的免费访问（每日有访问额度限制）。

不过，谷歌条款中明文禁止通过逆向工程其模型，从而开发出与谷歌自身AI产品竞争的服务。对此，我们已联系谷歌寻求评论。

s1基于阿里巴巴控股的中国AI实验室Qwen推出的一个小型、现成的AI模型，该模型可免费下载安装。为训练s1，研究人员创建了一个包含1000个精心挑选的问题的数据集，并为每个问题提供答案以及来自谷歌Gemini 2.0 Flash Thinking Experimental的“思考”过程记录。

训练s1仅用了不到30分钟，动用了16个Nvidia H100 GPU，即可在部分AI基准测试中取得亮眼成绩。参与项目的斯坦福研究员Niklas Muennighoff告诉TechCrunch，他目前租用所需计算资源大概只需20美元左右。

研究人员还采用了一项小巧门道，让s1在回答问题前能对自己的答案进行二次检查并延长“思考”时间：他们在s1的推理过程中加入了“wait”（等待）这一指令。论文指出，在推理过程中加入“wait”有助于模型给出更准确的答案。

展望2025年，Meta、谷歌和微软计划总计投资数千亿美元于AI基础设施建设，这将部分用于训练新一代的AI模型。

尽管如此，要推动AI创新前沿，这种级别的投资依然必不可少。虽然蒸馏技术已被证明是一种低成本复制AI模型能力的有效方法，但它并不能创造出比现有技术大幅超越的新型AI模型。

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

原文始发于微信公众号（独眼情报）：研究人员以不到50美元的成本创建了OpenAI o1“推理”模型的开源竞争对手。

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

研究人员以不到50美元的成本创建了OpenAI o1推理模型的开源竞争对手。

WordPress 结账页出现高隐匿性恶意插件：伪装成 Cloudflare 窃取用户信息

CVSS10分！Pterodactyl Panel远程代码执行漏洞安全风险通告

XDigo 恶意软件利用 Windows LNK 漏洞对东欧政府发动攻击

针对麦克风阵列的激光命令注入攻击

Microsoft Exchange 邮件服务器遭大规模键盘记录攻击，全球逾 70 台被入侵

黑客滥用微软 ClickOnce 和 AWS 服务进行隐秘攻击

黑客利用AI工具搜索结果投毒，传播信息窃取恶意软件

黑客利用伪造的SonicWall VPN应用窃取企业凭证

溯源伪冒火绒背后：FPS雷达透视外挂黑市产销链浮出水面

实战：滥用MCP服务攻击企业AI，窃取企业内部数据 | WinRAR目录遍历漏洞允许通过恶意文件执行任意代码

发表评论

在线咨询

微信