xAI发布Grok-1 —— 最大的开源LLM

admin

145248
文章

119
评论

2024年3月18日15:15:52评论42 views字数 2374阅读7分54秒阅读模式

Elon Musk 的人工智能公司 xAI 在 Apache 2.0 许可下发布了其 3140 亿参数MoE混合专家模型 Grok-1 的权重和架构。

xAI发布Grok-1 —— 最大的开源LLM

埃隆·马斯克也兑现了之前向公众免费开放Grok的承诺，这标志着在开放性和可访问性方面的重大进步。

什么是Grok

2023年7月12日，特斯拉和SpaceX的首席执行官埃隆·马斯克（Elon Musk）宣布创立了xAI，这是一家旨在探索宇宙真理的创新型公司。紧接着，有报道称他们开发的人工智能Grok将在2023年11月3日，于英国布莱切利公园的一个人工智能峰会结束后正式发布。

xAI的团队成员背景卓越，包括来自DeepMind、OpenAI、Google研究院、微软研究院和多伦多大学等顶尖机构的精英。团队中的显赫人物如Igor Babuschkin、Manuel Kroiss和Yuhuai (Tony) Wu，他们在人工智能研究领域的开创性工作和重大突破，如开发GPT-3.5和GPT-4，贡献卓越。

Grok这个庞大的语言模型拥有3140亿个参数，是迄今为止最大的开源模型之一。为了提供一些参考，这是OpenAI发布的GPT-3模型大小的两倍多，而GPT-3当时已被视为一个里程碑。X用户Andrew Kean Gau分享的图表直观展示了Grok与其竞争对手相比的规模之大。

xAI发布Grok-1 —— 最大的开源LLM

但 Grok 不仅更大，它还利用了专家混合 (MoE) 架构。"Mixture-of-Experts"模型是一种深度学习架构，它将大型神经网络分解为多个专家（Experts），每个专家负责处理输入数据的不同部分。这种架构的目的是通过允许每个专家专注于输入数据的特定子集来提高模型的效率和性能。理论上，与传统的密集模型相比，这使其更加高效且适应性更强。

以下是 Grok-1 版本的摘要

具有314B（即314亿）参数的专家混合模型，在给定的标记（token）上有25%的权重是活跃的。对于任何一个给定的词或字符，只有大约四分之一的模型参数（权重）是参与到处理这个特定标记的。这表明模型的大部分参数在处理任何特定输入时都是不活跃的，这可能是为了提高计算效率，因为不是所有的参数都对每个输入都是必要的。
基础模型是在大量文本数据上训练的，没有针对任何特定任务进行微调。
8个expert(两个活跃)
860亿个参数
Apache 2.0 许可证
论文：https://x.ai/blog/grok-os
代码：https://github.com/xai-org/grok-1

Grok特效和功能

实时信息访问：Grok 可以实时提取信息，使其能够提供最新的响应和数据分析。
讽刺和幽默：与常态不同的是，Grok 被编程为能够理解和使用讽刺和幽默，从而有可能使互动变得更有吸引力，而不是机械化。

xAI发布Grok-1 —— 最大的开源LLM

幽默和讽刺的引入，以及实时数据访问的集成，可能会彻底改变公众对人工智能的看法，使其变得更加平易近人、用户友好。此举符合人工智能发展的更广泛趋势，重点是类人交互能力。

如何安装 Grok

有关加载和运行 Grok-1 的说明在此 GitHub 存储库中进行了解释。将存储库clone到本地。

xAI发布Grok-1 —— 最大的开源LLM

从HuggingFace 或Academic Torrents 下载权重并将其放入“checkpoints”目录中。

xAI发布Grok-1 —— 最大的开源LLM

顺便说一句，有些人质疑为什么权重是通过 Bittorrent 磁力链接发布的。由于模型变得越来越大，这可能会成为未来的常态。另外，通过 torrent 分发 300 GB 数据比直接分发更便宜。

打开 CLI 并运行以下命令来测试代码：

pip install -r requirements.txt
python run.py

该脚本负责加载模型检查点，并在测试输入上进行抽样。

重要的是，鉴于Grok-1模型巨大的规模，具备3140亿参数，必须使用一台拥有充足GPU内存的计算机，才能通过提供的示例代码来测试该模型。

在xAI仓库中，混合专家（MoE）层的实现并没有针对效率进行优化，这是一个有意的选择，目的是为了优先保证模型的正确性，并避免开发专用的计算核心。

如何尝试 Grok

如果您只是对 Grok 的功能感到好奇，它目前在 X 上可用，但只有 Premium+ 用户可以使用，价格为每月 16 美元。

xAI发布Grok-1 —— 最大的开源LLM

Grok-1 许可

此版本中的代码和相关 Grok-1 权重已根据 Apache 2.0 许可证获得许可。

Apache 2.0 许可证是一种宽松的自由软件许可证。该许可证允许出于任何目的使用该软件，用户可以分发该软件、修改该软件以及分发该软件的修改版本。

该许可证仅适用于该存储库中的源文件和 Grok-1 的模型权重。

想法

Grok-1 的发布正值关于意识形态在人工智能开发中的作用的激烈争论之中。埃隆·马斯克（Elon Musk）一直直言不讳地表达了他对“唤醒人工智能”的担忧，并引用了谷歌的 Gemini 作为人工智能系统的一个例子，该系统将多样性举措优先考虑到了潜在危险的程度。

Google Gemini 这样的人工智能系统旨在优先考虑某些社会和政治价值观，而 Grok 这样更加开放的目标是最大限度地减少培训和输出中的意识形态偏见。虽然开源如此强大的语言模型肯定会带来风险，但我相信其好处远远大于潜在的缺点。我们期待看到 LoRA 和 Dreambooth 等技术如何扩展微调和定制方面的可能性。

开放朋友圈，不定时分享学习感悟，日常思

考。如果有需要，欢迎前排围观。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

扫描二维码加入技术交流群，获取免费知识星球名额

xAI发布Grok-1 —— 最大的开源LLM

// 近期阅读推荐

‍

原文始发于微信公众号（朱雀先进攻防）：xAI发布Grok-1 —— 最大的开源LLM

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

xAI发布Grok-1 —— 最大的开源LLM

什么是Grok

如何安装 Grok

如何尝试 Grok

Grok-1 许可

想法

原创 | ModSecurity 自建规则之路

Invoke-EDRChecker：一款功能强大的主机安全产品检测工具

Invoke-EDRChecker 功能强大的主机安全产品检测工具

JsRpc与Burp Suite联动自动化加解密的完整实战指南（详细版）

EasyTools渗透测试工具箱(v1.8.0)_windows_社区版2.0

代码审计diff工具WinMerge

工具分享 | JumpServer堡垒机未授权综合漏洞利用脚本：blackjump

JWT-CrackX：Jwt自动化攻击的脚本（JWT 测试的瑞士军刀）

代码审计diff工具WinMerge

工具集：奇安信明动插件

发表评论