今天大漂亮出来了一个模型,8000张H100卡实现的。通过映射hash来实现代码的快速实现代码的编程。
先不说别的,先来看下文
就准确率来说32M以下都是100%,这个太可怕了,github上相当一部分代码是32M以下的。数据来看是6跳+32M以下是100%,6跳你就理解成6层堆栈。
它的训练方法我感觉是用了Q* 算法,为什么呢?因为我从文章里感觉到它对注意力的处理用了长期中期和短期,这些数据完全可以自动话动态debug来实现堆栈状态的获取。也就是产生数据 肯定要上Q* 算法,利用自动化debug来实现各种程序的中间状态的值的获取,有点像是编译原理里讲的前端的时候各种字节码的属性的参数,函数名,是否被重新赋值,参数用过没用过,然后把这些值和代码转换成hash,模型只训练hash,然后再加一层编码映射转换,就可以转换文字了。
虽然它目前只能在6层堆栈,32M数据下表现接近100% 但是相信它增强Q* 推理能力再加上大的显卡。要不了多久时间应该可以实现20层甚至50 100层的堆栈的100M以下的能力,这样就很可怕了。而且现在Gcp在给他们提供算力。。。
以后可能就。。。不会写出来漏洞了。。也不需要安全什么事情了。github的代码会被他们扫描一遍,漏洞会被当作资源库提供给大漂亮军方。。。。哎
以后写代码得 先写1000个没用的函数 再执行了,不然漏洞都给他们挖完了
然后这个也会形成更高效的代码编程,慢慢的实现自举,也就是做模型的人也可以开除了,剩下几个架构师就行了,然后架构师写写prompt整个模型训练的pipeline就搭建好了,然后按下按钮就可以自动化把下一代模型跑出来了,整个模型迭代也pipeline了,以后就没以后了。。。整个过程也是ai 自动化的
也就是模型反思自己的缺点 然后优化缺点 迭代下一个LLM版本 实现LLM自举。
那还要人类干嘛。。。?????
虽然现在看起来还是有点缺点,但是长远来看 这个是要不了多久时间的,几年肯定实现了。过程都是开源,你也看到的 就是追不上,本质芯片不够,芯片就是拼产能和工业生态。
反正这个东西你懂的,有和没有差距很大的 就和量子霸权一样了。过程大家都知道,就是比芯片,芯片的代差就是国家之间的代差。拿下弯弯刻不容缓啊 英伟达太飘了
相关参考资料:https://magic.dev/blog/100m-token-context-windows
开源代码:https://github.com/magicproduct/hash-hop
原文始发于微信公众号(xsser的博客):100M Token 上下文的编程模型带来的思考
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论