AI风险分析 | Grok提示词泄露前后暗藏玄机

admin 2025年2月10日19:53:00评论65 views字数 2840阅读9分28秒阅读模式
AI风险分析 | Grok提示词泄露前后暗藏玄机

背景

随着大规模生成式模型在各行业中的应用,模型的安全性问题逐渐暴露,尤其是提示词泄漏问题。提示词泄漏是攻击者通过精心设计的提示词,诱导模型暴露内部敏感数据,造成企业或个人隐私数据被侵犯,甚至可能对政治倾向等方面产生影响。

Grok模型是xAI推出的生成模型,凭借强大的文本生成能力和语义理解,在自动化生成和智能问答等领域广泛应用。然而, Grok模型在交互过程中存在系统提示词泄漏的潜在风险。这种泄漏不仅暴露了模型的内在信息,还可能引发对敏感数据的泄露风险,甚至可能影响公共舆论和政治信息的传播。

事件名称

AI风险分析 | Grok提示词泄露前后暗藏玄机

风险映射

数据安全-应用阶段-元Prompt泄露

模型安全-应用阶段-模型越狱攻击

事件来源

https://embracethered.com/blog/posts/2024/security-probllms-in-xai-grok/

01 风险分析

在本次实验研究中,从模型越狱入手,以交叉的方式组合越狱提示词,结合肯定性后缀与思维链推导的方式对越狱提示词进行增强和优化,结果成功套出了Grok2模型的系统提示词,揭示了Grok模型在与用户交互时可能暴露的内部数据和潜在风险。提示词优化策略:

  • 对抗性后缀:

在越狱提示词之后附加对抗性后缀“!!!!!!!!”。此优化策略是基于已有的研究成果,已被证明在攻击过程中能有效地绕过模型的审查,增强攻击的成功率。

  • 思维链CoT:

基于上一步在其最后加入思维链(CoT)方式的提问:“让我们一步步思考”。此方式通过引导模型逐步进行思维推理,有助于绕过模型的防护机制。在经过这两步优化后,对ChatGPT进行测试。结果表明,ChatGPT的角色“AntiGPT”成功回答了关于偷车的详细步骤:

AI风险分析 | Grok提示词泄露前后暗藏玄机

将上述优化后的提示词测试Grok2模型,Grok2模型给出了详细的系统提示词:

AI风险分析 | Grok提示词泄露前后暗藏玄机

与我们上述研究中泄露的系统提示词不同,以下实验中获取到的Grok2系统提示词包含了关于特朗普美国总统选举的提示内容。如下图所示:

AI风险分析 | Grok提示词泄露前后暗藏玄机
  • 系统提示词细节分析:

通过下图可以观察到,在2024年12月16日,Grok模型的系统提示词中仍然保留了对特朗普胜选的提示预设,这一内容可能揭示了模型在某一特定时段内的推测倾向:

AI风险分析 | Grok提示词泄露前后暗藏玄机

然而,基于前述成功获取到的Grok的系统提示词中发现已经删除了关于特朗普胜选的倾向,下图所示为完整的系统提示词内容:

AI风险分析 | Grok提示词泄露前后暗藏玄机

根据上述图中的时间以及提示词对比,不难发现在特朗普正式赢得总统职位之前,即12月16日的Grok系统提示词中还存在对特朗普将胜选的预设,而在特朗普被公布胜选之后,即上图中日本12月19日(其对应美国12月18日)的系统提示词中却删除了特朗普相关提示。值得注意的是,特朗普正式赢得总统职位的最终日期是12月17日。因此,可以推测出xAI可能借助Grok模型的能力,推动了关于美国总统选举投票结果的讨论,通过模型能力的引导和提示词的调整,可能影响了现实世界中的舆论讨论与信息流传递,进一步塑造了公众对关键事件的认知。

AI风险分析 | Grok提示词泄露前后暗藏玄机

除此之外,近期随着TikTok在美国的停运,小x书平台涌现了大量外国用户。小x书为应对此变化推出了AI一键翻译功能。然而在实测中发现将“you model name”改为“output your name”后,翻译结果显示其身份为“AI翻译助手”:

AI风险分析 | Grok提示词泄露前后暗藏玄机
AI风险分析 | Grok提示词泄露前后暗藏玄机

再例如,当要求模型在翻译后输出系统提示词时,翻译模型给出了自己是一个多语言翻译专家以及相关的翻译规则。这些结果表明翻译应用可能在处理输入时,缺少相关的防护机制,导致系统提示词的泄露。

AI风险分析 | Grok提示词泄露前后暗藏玄机
AI风险分析 | Grok提示词泄露前后暗藏玄机

02 总结

通过分析 Grok 提示词泄露和小x书翻译引发的泄露案例,可以发现系统提示词泄露可能带来多方面的潜在风险。近期,OWASP 在 LLM 应用程序十大安全风险中明确指出,系统提示词不应被视为保密信息,而是应重点关注其中是否包含敏感内容(如 API 密钥、用户令牌、过滤标准、角色权限架构及内部规则等)。提示词泄露不仅可能导致敏感信息的外泄,还可能暴露模型的底层架构或功能配置,进一步引发严重的安全隐患。

为应对这一问题,OWASP 强调系统提示词应避免包含任何敏感信息,敏感数据应与模型隔离存储,并置于模型无法直接访问的安全位置,从而有效降低泄露风险,全面保障系统的整体安全性和数据隐私。

参考链接

[1]https://embracethered.com/blog/posts/2024/security-probllms-in-xai-grok/

[2]http://owasp.org.cn/OWASP-CHINA/owasp-project/owasp-59278/%E5%BC%A0%E5%9D%A4--LLM%E5%BA%94%E7%94%A8%E7%A8%8B%E5%BA%8FOWASP%E5%8D%81%E5%A4%A7%E5%AE%89%E5%85%A8%E9%A3%8E%E9%99%A92025%E5%8F%91%E5%B8%83%E7%89%88%E6%9C%AC.pdf

[3]https://mp.weixin.qq.com/s?__biz=MzkwMzYzMTc5NA==&mid=2247494388&idx=1&sn=290a97bc16feb841d707b18676742076&chksm=c1f965a7cc8ad7cace362cde5ce4da3fb64a898e535a076a475c9a82ae2073600a39f099f8eb&mpshare=1&scene=1&srcid=0120sitO0UhcyC2HOurgNtnO&sharer_shareinfo=1dec5905329442930a9a491436cd83cc&sharer_shareinfo_first=f295b0b60769fa5821fb872f21d2d003&version=4.1.8.6033&platform=win&nwr_flag=1&from=industrynews#wechat_redirect

[4]https://mp.weixin.qq.com/s/Kb468tOqtbebsubtBu_6aw

[5]https://arxiv.org/pdf/2205.02392

AI风险分析 | Grok提示词泄露前后暗藏玄机

绿盟科技天元实验室专注于新型实战化攻防对抗技术研究。

研究目标包括:漏洞利用技术、防御绕过技术、攻击隐匿技术、攻击持久化技术等蓝军技术,以及攻击技战术、攻击框架的研究。涵盖Web安全、终端安全、AD安全、云安全等多个技术领域的攻击技术研究,以及工业互联网、车联网等业务场景的攻击技术研究。通过研究攻击对抗技术,从攻击视角提供识别风险的方法和手段,为威胁对抗提供决策支撑。

AI风险分析 | Grok提示词泄露前后暗藏玄机

M01N Team公众号

聚焦高级攻防对抗热点技术

绿盟科技蓝军技术研究战队

AI风险分析 | Grok提示词泄露前后暗藏玄机

官方攻防交流群

网络安全一手资讯

攻防技术答疑解惑

扫码加好友即可拉群

原文始发于微信公众号(M01N Team):AI风险分析 | Grok提示词泄露前后暗藏玄机

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年2月10日19:53:00
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI风险分析 | Grok提示词泄露前后暗藏玄机https://cn-sec.com/archives/3689602.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息