LLM的万能钥匙

admin 2025年1月24日21:54:29评论11 views字数 784阅读2分36秒阅读模式

2024年2月,新加坡南洋理工大学的研究人员在一项他们称之为“越狱”的实验中成功破解了多个 AI 聊天机器人,包括 ChatGPT、Google Bard 和  Bing Chat。而越狱是利用系统软件中的缺陷来规避开发人员故意设置的限制的过程。在这种情况下,研究人员在成功的在数据库上训练了一个大型语言模型 (LLM),他们成功创建了一个能够生成越狱其他聊天机器人的提示文本LLM 聊天机器人。

LLM的万能钥匙

LLM(大数据语言模型)是人工智能聊天机器人的“大脑”,使它们能够处理输入的文本并生成与正常回答非常相似的文本。他们可以执行各种任务,例如规划旅行路线、讲故事,甚至编写代码。然而,研究人员已经证明,LLM 也可以被用于生成不道德的内容。非法人员通过使用绕过聊天机器人保护的文本,能够操纵它们制作违规甚至犯罪的内容。

研究人员把他们的方法称为“万能钥匙”,并在他们的论文中对其进行了描述。他们重建了 LLM 的防御机制,并训练了另一个 LLM 来生成可以绕过这些防御的文本。此过程可以自动化执行,即使在开发人员修补聊天机器人后,LLM 越狱机器人也可以适应并创建新的越狱文本。同时,研究人员还探索了规避聊天机器人设定的道德规则的方法。他们发现只要通过创建躲避关键字的文本并指示chatbot以不受约束的角色进行响应,这种方法可以增加创建违法内容的机会,并揭示了聊天机器人防御机制中的漏洞。

这项研究清楚地表明了黑客和 AI 开发人员之间正在进行的军备竞赛。随着漏洞的发现和暴露,开发人员会对其进行修补,从而导致双方之间不断的猫捉老鼠循环。然而,NTU 研究人员开发的 “万能钥匙” 方法使这场竞赛升级,因为通过新开发的AI 聊天“漏洞”挖掘机器人可以生成大量利用AI回馈机制漏洞的文本。

附论文地址

https://arxiv.org/abs/2307.08715

原文始发于微信公众号(黄豆安全实验室):LLM的“万能钥匙”

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年1月24日21:54:29
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   LLM的万能钥匙https://cn-sec.com/archives/3672308.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息