LLM的万能钥匙

2025年1月24日21:54:29评论21 views字数 784阅读2分36秒阅读模式

2024年2月，新加坡南洋理工大学的研究人员在一项他们称之为“越狱”的实验中成功破解了多个 AI 聊天机器人，包括 ChatGPT、Google Bard 和 Bing Chat。而越狱是利用系统软件中的缺陷来规避开发人员故意设置的限制的过程。在这种情况下，研究人员在成功的在数据库上训练了一个大型语言模型（LLM），他们成功创建了一个能够生成越狱其他聊天机器人的提示文本LLM 聊天机器人。

LLM（大数据语言模型）是人工智能聊天机器人的“大脑”，使它们能够处理输入的文本并生成与正常回答非常相似的文本。他们可以执行各种任务，例如规划旅行路线、讲故事，甚至编写代码。然而，研究人员已经证明，LLM 也可以被用于生成不道德的内容。非法人员通过使用绕过聊天机器人保护的文本，能够操纵它们制作违规甚至犯罪的内容。

研究人员把他们的方法称为“万能钥匙”，并在他们的论文中对其进行了描述。他们重建了 LLM 的防御机制，并训练了另一个 LLM 来生成可以绕过这些防御的文本。此过程可以自动化执行，即使在开发人员修补聊天机器人后，LLM 越狱机器人也可以适应并创建新的越狱文本。同时，研究人员还探索了规避聊天机器人设定的道德规则的方法。他们发现只要通过创建躲避关键字的文本并指示chatbot以不受约束的角色进行响应，这种方法可以增加创建违法内容的机会，并揭示了聊天机器人防御机制中的漏洞。

这项研究清楚地表明了黑客和 AI 开发人员之间正在进行的军备竞赛。随着漏洞的发现和暴露，开发人员会对其进行修补，从而导致双方之间不断的猫捉老鼠循环。然而，NTU 研究人员开发的 “万能钥匙” 方法使这场竞赛升级，因为通过新开发的AI 聊天“漏洞”挖掘机器人可以生成大量利用AI回馈机制漏洞的文本。

附论文地址

https://arxiv.org/abs/2307.08715

原文始发于微信公众号（黄豆安全实验室）：LLM的“万能钥匙”

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

LLM的万能钥匙

【实战】手把手学习写一个MCP服务，获取热榜文章

深度学习基础架构革新？通过梯度近似寻找Normalization的替代品

AI的攻与防：基于大模型漏洞基因库的威胁狩猎与企业级纵深防御

基于 MCP 的 AI Agent 应用开发实践

【论文速读】| 漏洞放大：针对基于LLM的多智能体辩论的结构化越狱攻击

AAAI 2025｜利用语言模型实现跨异质性知识转移

要给大家泼盆冷水了，使用 MCP 绝对不容忽视的一个问题！

大模型在运维场景中的应用

人工智能对国家安全的冲击

MCP：大模型时代的USB接口

发表评论

在线咨询

微信