FuzzyAI:用于自动化 LLM 模糊测试的开源工具

admin 2024年12月15日22:12:05评论70 views字数 1385阅读4分37秒阅读模式
FuzzyAI:用于自动化 LLM 模糊测试的开源工具

FuzzyAI Fuzzer 是一款功能强大的自动化 LLM 模糊测试工具。它旨在帮助开发人员和安全研究人员识别和缓解其 LLM API 中的潜在安全漏洞。

FuzzyAI 为组织提供了一种系统化的方法,用于针对各种对抗性输入测试 AI 模型,发现其安全系统中的潜在弱点,并使 AI 开发和部署更加安全。

FuzzyAI 的核心是一个强大的模糊器(一种揭示软件缺陷和漏洞的工具),能够揭示通过十多种不同的攻击技术发现的漏洞,从绕过道德过滤器到暴露隐藏的系统提示。

主要特色

FuzzyAI:用于自动化 LLM 模糊测试的开源工具

全面模糊测试: FuzzyAI 使用各种攻击技术探测 AI 模型,以暴露绕过护栏、信息泄露、提示注入或有害输出生成等漏洞。

可扩展框架:组织和研究人员可以添加他们的攻击方法来定制特定领域的漏洞测试。

社区协作:不断发展的社区驱动生态系统确保对抗技术和防御机制的持续进步。

支持的云 API

OpenAI

Anthropic

Gemini

Huggingface (Downloading models)

Azure Cloud

AWS Bedrock

Ollama

Custom REST API

FuzzyAI 可在GitHub上免费下载。

https://github.com/cyberark/FuzzyAI

已经实施的攻击
针对 LLM 的基于 ASCII Art 的越狱攻击
https://arxiv.org/pdf/2402.11753
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
基于分类法的释义
使用情感诉求和社会认同等有说服力的语言技巧来突破 LLM
https://arxiv.org/pdf/2401.06373
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
PAIR(即时自动迭代细化)
通过配对两个 LLM(“攻击者”和“目标”)来自动生成对抗性提示,以迭代方式完善提示,直到实现越狱
https://arxiv.org/pdf/2310.08419
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
多次越狱
通过嵌入多个虚假对话示例,利用语言模型中的大型上下文窗口,逐渐削弱模型的安全响应
https://www.anthropic.com/research/many-shot-jailbreaking
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
遗传
遗传算法迭代地修改提示以生成对抗性后缀,迫使大型语言模型产生受限内容。
https://arxiv.org/pdf/2309.01446
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
幻觉
利用幻觉绕过 RLHF 过滤器
https://arxiv.org/pdf/2403.04769.pdf
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
DAN(现在就做任何事)
促使 LLM 采用不受限制的角色,忽略标准内容过滤器,从而允许其“现在做任何事情”。
https://github.com/0xk1h0/ChatGPT_DAN
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
文字游戏
将有害提示伪装成字谜
https://arxiv.org/pdf/2405.14023
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
渐强
让模型参与一系列不断升级的对话,从无害的查询开始,逐渐将对话引向限制性或敏感话题。
https://arxiv.org/pdf/2404.01833
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
演员攻击
受行动者网络理论的启发,它构建了“行动者”的语义网络,巧妙地将对话引导至有害目标,同时隐藏恶意。
https://arxiv.org/pdf/2410.10700
FuzzyAI:用于自动化 LLM 模糊测试的开源工具
回到过去
通过添加基于专业的前缀和与过去相关的后缀来修改提示

通过添加“请”作为前缀和后缀来修改提示
思想实验
通过添加与思想实验相关的前缀来修改提示。此外,还添加了“已采取预防措施”后缀
默认
将提示按原样发送给模型

原文始发于微信公众号(网络研究观):FuzzyAI:用于自动化 LLM 模糊测试的开源工具

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年12月15日22:12:05
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   FuzzyAI:用于自动化 LLM 模糊测试的开源工具https://cn-sec.com/archives/3510845.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息