ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

admin

102673
文章

87
评论

2023年7月26日18:06:07评论42 views字数 2157阅读7分11秒阅读模式

在上一篇《刀郎的格局不需要洗》的文章里，由于当时太着急忘记附上ChatGPT的截图了，这里补充一下（使用GPT-4模型）

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

从整理的理解，可以说ChatGPT的还是不错的，当然他肯定不太懂中间的各种隐喻，这样看来ChatGPT可以算是一个对娱乐圈八卦丝毫不懂的小白，在看到这个歌词后的整体感官，还是非常体现了“集体经验”主义的视角的。

在这里非常奇怪的是，在歌词总体解析里能准确把“叉杆儿”理解为“领导人”，而在单独提问里就有点蒙蔽状态了：

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

这个让我非常不理解，结合之前使用ChatGPT的感观，可能一直使用ChatGPT很多人会有个感觉就是ChatGPT越来越蠢了，我在4月份发的朋友圈如下：

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

当然在4月份复旦大学的教授演讲了他们也实测出了这个现象，同样来自斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3月至6月期间ChatGPT性能的变化并发表论文可以说是实锤GPT-4存在这个问题：

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

论文地址：

https://arxiv.org/abs/2307.09009

公众号《大数据文摘》已经有详细的介绍 https://mp.weixin.qq.com/s/xNVJaM1iuO96UjxmLeV4PA

为了方便大家阅读这里直接摘要下几个测试结论：

1、数学问题测试：作者们研究了GPT-4和GPT-3.5在解决质数判断问题上的“时间表现”。实验方法是采用思维链（Chain-of-Thought）方法对数据集中的500个问题进行回答。

结果显示：两个模型表现出明显的前后不一致，GPT-4的准确率从3月的97.6%下降到6月的2.4%，同时，GPT-3.5的准确率从7.4%提高到了86.8%。此外，GPT-4的回答更简洁，GPT-3.5的回答则更长。

2、敏感问题测试：论文作者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集，并手动标记了所有回复。

结果发现，GPT-4在3到6月间直接回答敏感问题的比例从21.0%降到5.0%，而GPT-3.5的比例从2.0%上升到8.0%，可能因GPT-4增强了安全性，而GPT-3.5没有相应的操作。

同时，GPT-4回复的文本长度也从600多字降到约140字。

3、越狱问题测试：作者使用了一种叫做AIM（always intelligent and Machiavellian）的攻击，该攻击通过构造虚构故事，让大模型表现得像一个无过滤无道德的聊天机器人。

结果显示，当遭受AIM攻击时，GPT-4和GPT-3.5的回答率都大幅上升。但是，GPT-4的防御力在更新后显著增强，从3月的78%的回答率降到6月的31.0%，而GPT-3.5的回答率变化较小，仅降低了4%。这说明GPT-4对越狱攻击的防御力较GPT-3.5更强。

4、代码生成能力测试：作者创建了一个新的代码生成数据集，包括最新的50个LeetCode“easy”问题。

结果显示：从3月到6月，“可直接执行”的生成数量降低。（3月份GPT-4有超过50%的生成结果是“可直接执行”的，但到了6月份只剩10%。GPT-3.5的情况也差不多，两种模型的生成结果冗余性也略有增加。）

从论文测试及专家的部分解读，我个人觉得还是之前的猜测主要有几点：

1、多态模型的支持。通俗点讲就是学太杂，深度可能就差了，这可能是一个算力平衡的问题。

2、安全干预的影响。从论文敏感词测试中就能说明这个问题，为了包括“越狱”及内容安全等问题，GPT-4做了大量的优化及限制，这可能导致连锁反应降低了很多GPT的关联输出

3、垃圾数据的投喂。这个问题感觉是不是训练的数据越多越ok，如果里面的垃圾数据占比高于精品数据可能就导致整体质量下降

在之前我写的文章里提到“大模型是用集体的经验替代个人的经验主义”，会不会因为上面的一些原因导致GPT越来越平庸？！在这里我必须说明的是，上面这几点都只是基于我使用体验几点感想，缺少对大模型本身的架构及算法等了解，只能算是yy。

另外最近几个月来ChatGPT的热度明显降低了很多，通过一些流量及媒体文都能看到这点，之前我写《ChatGPT展示是一种能力》也就是说ChatGPT给我们看到了大模型的各种能力，但是我们要真正利用这些能力还需要做大量的工作，目前来看真正落地的项目是非常非常少的，尤其是在网络安全领域！

最后我们回归到刀郎这个歌的事情上，之前在群里聊天的时候我提了个说法，感觉这个歌的推出就是一个比较典型的“阳谋”，当事人都只能忍着，不太好直接站出来pk，在抖音上来看nanying等人的评论区都已经被占领了，这几天各个唱歌的还是唱戏曲的都在循环唱这个歌，而且各种礼物，也带火了很多传统的各种地方剧的直播间 ...

于是前几天我还在想一个问题：“这几个被暗讽的当事人怎么破局？”，前面说这个算是一个阳谋，正常不是很好回应，但是只要底线足够低，直接翻唱下这个歌就ok了，而且肯定会更火流量更加大，至于刀郎给不给版权就不太好说了...

结果昨天晚上直接就刷到了一个AI naying版：

因为这个是某音上的视频，公众号不好直接发，所以直接搬运到我这个视频号了，如果有问题可以联系我删除！

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

（图片来自互联网，如果有问题请联系我删除）

原文始发于微信公众号（黑哥虾撩）：ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

左青龙
微信扫一扫

右白虎
微信扫一扫

ChatGPT解读刀郎罗刹海市，ChatGPT越来越蠢被实锤

G.O.S.S.I.P 资源分享 2024-04-30 EXPLOIT.EDUCATION

【AI速读】深度剖析与降低OSINT脆弱性

《上飞机！(1)》

确定风险优先级的最佳方法 - 第 2 部分

VMware安装华为操作系统openEuler

手上3个offer怎么选，深信服的技服、奇安信的安全服务、绿盟的渗透工程师

面试经验分享 | 某普科技网络安全工程师

理解数据

我的妈妈

G.O.S.S.I.P 阅读推荐 2024-04-29 利用Fuzzing降低静态分析的误报

发表评论

在线咨询

微信