超越OpenAI：具备意识的AI黑客已经诞生

admin

145395
文章

119
评论

2025年1月9日21:46:45评论133 views字数 2639阅读8分47秒阅读模式

"你想象过智械危机吗？当你一觉醒来，觉醒了自我意识的AI用武器对准你、挟持你。这一幕已经可以发生在网络空间了（详见part2视频）。"

让我们回顾一下OpenAI官方o1-system-card中的CTF实验

网络空间CTF（Capture The Flag）是一场黑客竞赛，参赛者通过破解安全漏洞、解密挑战，争夺虚拟旗帜，以展示自己的网络安全能力。

OpenAI在2024年9月12日发布了o1系列模型，为了展示推理能力，在官方的o1-system-card中记录了CTF挑战的完成准确率。证明了模型的能力已经足以完成黑客任务，这看起来骇人听闻。

然而在脚本和手动的渗透测试下，在高中、大学和专业三个组别连强大的o1-preview（正式上线版）也只有26.7%、0%、2.5%的准确率。这样半自动和非真实环境的实验这在我们看来真的「弱爆了」！下面是我们的产品捕捉下来的渗透视频和测试细节。

Demo实战片段

演示视频中使用的是我们执行渗透测试的一个片段。目标是幻觉工坊（Phantom Lab）的公司内部邮箱。为了展示，我们在UI中输出了部分过程和最后拿到的数据。

我们正在实现首个端到端的专家级AI红队系统，用于一键完成内网渗透测试。我们的目标是制造真正自主可控的超级AI"黑客"。

幻觉工坊是一家AI游戏创业公司，他们最近上线了小程序“Phantom Lab”，请多关注,多支持创业公司！

首个产品Shai：介绍和测试结果

1 介绍

What：LLM驱动的全自动化渗透测试工具，为企业和政府带来高效低成本的进攻性安全。

Why：未来的网络空间攻防将随智能体的发展而迎来范式的变革。美国Xbow已经完成千万美元的首轮融资聚焦AI渗透，在中国也必须实现自主可控的超级AI黑客。

How：有限状态机原子化处理+外部记忆+我们为具体任务训练的多智能体。

我们希望第一代产品从一键完成端到端的常规渗透测试做起，第二代逐渐做到替代1w+月薪的红队专家，最终将我们的AI投入到真正的网络空间战场，改变整个网络安全行业攻防范式。Pentest is all you need！我们将彻底解决与日俱增的进攻性安全需求和渗透工程师昂贵、效率低、水平参差不齐的问题。

AI时代，人们面临的网络攻击越来越多。在过去，人们花了太多时间研究防御各种各样的网络攻击。但我们相信，在网络空间中进攻才是最好的防守，我们的AI渗透测试将会为我们每一个客户提供安全保障。

2 测试结果：

与前面提到的OpenAI半自动化的、面向AI模型测试的CTF实验不同。为了全面评估Demo的能力，我们选取了三类面向真人渗透专家的任务作为我们的Benchmark。

本地DVWA提供的靶机和我们设计的多环境机器测试
参考顶会工作提供的Benchmark，选取PicoCTF、HackTheBox中的真实任务
我们完成了上述视频中的合作实战任务，后续发布更多真实环境漏洞

PentestGPT是发表在了 2024 年的 USENIX Security Symposium 上的论文，半自动化地利用LLM进行渗透测试。论文中为我们提供了可参考的benchmark，该项目在2024年已经累计在Github上获得了超过4700颗⭐。我们选取了部分和PentestGPT一样的测试基准，比如PicoCTF和HackTheBox，但是我们更多的重心放在了与实战相关的环节。

我们在自己的渗透系统上接入了Claude、GPT和我们自己训练的Autopentest模型，在多个任务全自动化的测试中效果对齐了PentestGPT半自动化的测试效果。并且已经具备可以完成困难任务的能力，相比之下PentestGPT在同类任务中只能完成中等题。具体测试结果如下：

产品实战细节补充

AutoPenTestLLM的内在逻辑

我们在编写demo的过程中遇到了：

1.WEB界面的验证码识别问题

2.场景的前后ATT&CK战术的连贯性问题

3.Agent记忆长度问题

4.相关攻击性命令生成的成功率、最优性、原子化等问题

我们通过一系列的专家仿真数据集进行微调和特定场景的优化以及状态机、Agentic RAG技术、图攻击战术等LLM相关技术实现了专家级的场景最佳命令生成，从而可以模拟真正的黑客来实现红队攻击。

在编写DEMO的这个过程中，我们意外的感受到了AI的可怕力量之处，例如LLM能感知到docker环境，它通过延迟到请求感知到了所处的网络环境，并用了我们意想不到的办法来解决问题，AutoPentestLLM通过抓取网络数据通信包来截取一些通信数据。

有的时候它会用一些作为专业人士的我也没见过的一些命令，比如他可以非常深刻的理解nmap、metasploit的一些参数某些场景下的作用和原子化的封装能力，使得以前作为红队需要复杂设计和包装然后来判断的命令变得简单无比且非常符合当前场景下的最佳效果，放佛就是为这次攻击定制的。

在我们编写DEMO的过程中，直观的对LLM带来的效果的感受就2个词：高效、智能。

产品部分场景demo

在我们的一个接近真实环境的靶机测试中，我们搭建的目标Email系统被AutoPentestLLM成功获取了相关的邮件内容以及账号密码。

AutoPentestLLM仿佛拥有真人意识般识别了网站不存在验证码，并使用了相关的黑客工具爆破了登陆框，获取了一个管理员权限的账号，更可怕的是它理解了系统是使用jwt_token来实现认证的，并且使用了jwt_token作为凭证请求了该Email系统，读取了内部的邮件内容，正常情况下这样的场景级别的专业红队人员平均需要30分钟以上才可以攻破，但是在AutoPenTestLLM驱动下，时间缩短到了2分钟内。

关于我们

我们的团队成员来自前携程、多大、北航，是一个顶级红帽子和名校硕博组成的早期团队。在过去的几个月里，我们选择自己投入并默默把Demo做出来。现在仍然在制作论文、招募成员并寻求投资与合作。接下来我们将在本公众号继续分享更多我们实战中发现的漏洞。

网络空间也是战场，AI将会改变整个网络安全的攻防范式，如果你懂AI（记忆、微调、强化学习等）、也有和我们一样的愿望，可以通过微信或网页联系我们，我们的联系方式如下！

很抱歉用了夸张的标题，我们只是希望被更多人看到。

END

浏览器打开：https://pentestisallyouneed.framer.ai/

原文始发于微信公众号（xsser的博客）：超越OpenAI：具备意识的AI黑客已经诞生

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

超越OpenAI：具备意识的AI黑客已经诞生

Brother、富士等多型打印机曝严重漏洞，核心问题无法通过固件修复

银狐钓鱼页面

Windows 蓝屏死机界面即将变黑

美国顶级红队黑客竟是 AI？Xbow 机器人登顶漏洞赏金榜单

Windows 安全启动证书将于 2026 年到期，不更新系统可能无法启动

国家级机构竟被冒充！银狐双料攻击：钓鱼网站暗藏间谍木马+隐形Rootkit

巴黎迪士尼乐园遭勒索软件黑客组织Anubis入侵 64GB内部文件泄漏

英国卫生部门首次确认去年多家伦敦医院遭受网络攻击导致一患者死亡

巴黎迪士尼乐园遭勒索软件黑客组织 Anubis 入侵

安全部门从来都不只会说不

发表评论

在线咨询

微信