100M Token 上下文的编程模型带来的思考

admin 2024年9月26日13:26:31评论16 views字数 1069阅读3分33秒阅读模式

今天大漂亮出来了一个模型,8000张H100卡实现的。通过映射hash来实现代码的快速实现代码的编程。

先不说别的,先来看下文

100M Token 上下文的编程模型带来的思考

100M Token 上下文的编程模型带来的思考

就准确率来说32M以下都是100%,这个太可怕了,github上相当一部分代码是32M以下的。数据来看是6跳+32M以下是100%,6跳你就理解成6层堆栈

它的训练方法我感觉是用了Q* 算法,为什么呢?因为我从文章里感觉到它对注意力的处理用了长期中期和短期,这些数据完全可以自动话动态debug来实现堆栈状态的获取。也就是产生数据 肯定要上Q* 算法,利用自动化debug来实现各种程序的中间状态的值的获取,有点像是编译原理里讲的前端的时候各种字节码的属性的参数,函数名,是否被重新赋值,参数用过没用过,然后把这些值和代码转换成hash,模型只训练hash,然后再加一层编码映射转换,就可以转换文字了。

虽然它目前只能在6层堆栈,32M数据下表现接近100% 但是相信它增强Q* 推理能力再加上大的显卡。要不了多久时间应该可以实现20层甚至50 100层的堆栈的100M以下的能力,这样就很可怕了。而且现在Gcp在给他们提供算力。。。

以后可能就。。。不会写出来漏洞了。。也不需要安全什么事情了。github的代码会被他们扫描一遍,漏洞会被当作资源库提供给大漂亮军方。。。。哎

以后写代码得 先写1000个没用的函数 再执行了,不然漏洞都给他们挖完了

然后这个也会形成更高效的代码编程,慢慢的实现自举,也就是做模型的人也可以开除了,剩下几个架构师就行了,然后架构师写写prompt整个模型训练的pipeline就搭建好了,然后按下按钮就可以自动化把下一代模型跑出来了,整个模型迭代也pipeline了,以后就没以后了。。。整个过程也是ai 自动化的

也就是模型反思自己的缺点 然后优化缺点 迭代下一个LLM版本 实现LLM自举。

那还要人类干嘛。。。?????

虽然现在看起来还是有点缺点,但是长远来看 这个是要不了多久时间的,几年肯定实现了。过程都是开源,你也看到的 就是追不上,本质芯片不够,芯片就是拼产能和工业生态。

反正这个东西你懂的,有和没有差距很大的 就和量子霸权一样了。过程大家都知道,就是比芯片,芯片的代差就是国家之间的代差。拿下弯弯刻不容缓啊 英伟达太飘了

相关参考资料:https://magic.dev/blog/100m-token-context-windows

开源代码:https://github.com/magicproduct/hash-hop

原文始发于微信公众号(xsser的博客):100M Token 上下文的编程模型带来的思考

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年9月26日13:26:31
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   100M Token 上下文的编程模型带来的思考http://cn-sec.com/archives/3114380.html

发表评论

匿名网友 填写信息