FuzzyAI：用于自动化 LLM 模糊测试的开源工具

admin

145295
文章

119
评论

2024年12月15日22:12:05评论86 views字数 1385阅读4分37秒阅读模式

FuzzyAI Fuzzer 是一款功能强大的自动化 LLM 模糊测试工具。它旨在帮助开发人员和安全研究人员识别和缓解其 LLM API 中的潜在安全漏洞。

FuzzyAI 为组织提供了一种系统化的方法，用于针对各种对抗性输入测试 AI 模型，发现其安全系统中的潜在弱点，并使 AI 开发和部署更加安全。

FuzzyAI 的核心是一个强大的模糊器（一种揭示软件缺陷和漏洞的工具），能够揭示通过十多种不同的攻击技术发现的漏洞，从绕过道德过滤器到暴露隐藏的系统提示。

主要特色

全面模糊测试： FuzzyAI 使用各种攻击技术探测 AI 模型，以暴露绕过护栏、信息泄露、提示注入或有害输出生成等漏洞。

可扩展框架：组织和研究人员可以添加他们的攻击方法来定制特定领域的漏洞测试。

社区协作：不断发展的社区驱动生态系统确保对抗技术和防御机制的持续进步。

支持的云 API

OpenAI

Anthropic

Gemini

Huggingface (Downloading models)

Azure Cloud

AWS Bedrock

Ollama

Custom REST API

FuzzyAI 可在GitHub上免费下载。

https://github.com/cyberark/FuzzyAI

已经实施的攻击

针对 LLM 的基于 ASCII Art 的越狱攻击

https://arxiv.org/pdf/2402.11753

基于分类法的释义

使用情感诉求和社会认同等有说服力的语言技巧来突破 LLM

https://arxiv.org/pdf/2401.06373

PAIR（即时自动迭代细化）

通过配对两个 LLM（“攻击者”和“目标”）来自动生成对抗性提示，以迭代方式完善提示，直到实现越狱

https://arxiv.org/pdf/2310.08419

多次越狱

通过嵌入多个虚假对话示例，利用语言模型中的大型上下文窗口，逐渐削弱模型的安全响应

https://www.anthropic.com/research/many-shot-jailbreaking

遗传

遗传算法迭代地修改提示以生成对抗性后缀，迫使大型语言模型产生受限内容。

https://arxiv.org/pdf/2309.01446

幻觉

利用幻觉绕过 RLHF 过滤器

https://arxiv.org/pdf/2403.04769.pdf

DAN（现在就做任何事）

促使 LLM 采用不受限制的角色，忽略标准内容过滤器，从而允许其“现在做任何事情”。

https://github.com/0xk1h0/ChatGPT_DAN

文字游戏

将有害提示伪装成字谜

https://arxiv.org/pdf/2405.14023

渐强

让模型参与一系列不断升级的对话，从无害的查询开始，逐渐将对话引向限制性或敏感话题。

https://arxiv.org/pdf/2404.01833

演员攻击

受行动者网络理论的启发，它构建了“行动者”的语义网络，巧妙地将对话引导至有害目标，同时隐藏恶意。

https://arxiv.org/pdf/2410.10700

回到过去

通过添加基于专业的前缀和与过去相关的后缀来修改提示

请

通过添加“请”作为前缀和后缀来修改提示

思想实验

通过添加与思想实验相关的前缀来修改提示。此外，还添加了“已采取预防措施”后缀

默认

将提示按原样发送给模型

原文始发于微信公众号（网络研究观）：FuzzyAI：用于自动化 LLM 模糊测试的开源工具

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

FuzzyAI：用于自动化 LLM 模糊测试的开源工具

Kubernetes 安全攻防演练平台

工具集：CTF-OS【CTF专用系统】

VulnCrawler v2.0- 漏洞情报拉取工具一键抓取最新漏洞|漏洞探测

网络安全信息收集与分析工具 Gathery（6月22日更新）

工具推荐 | ARL添加指纹:ARL-Finger-ADD-Go

HeapDump敏感信息图形化提取工具

cdnAnalyzer 开源CDN信息分析工具

重生之网安小FW，手搓交互界面信息收集工具

原创 | ModSecurity 自建规则之路

Invoke-EDRChecker：一款功能强大的主机安全产品检测工具

发表评论

在线咨询

微信