Meta近期开源了LlamaFirewall框架,用于检测AI安全风险。
LlamaFirewall简介
LlamaFirewall 是一套专为检测和防范AI安全风险设计的防护框架,支持对多种输入输出层级的监控——既涵盖常规的大语言模型(LLM)对话场景,也能防护多步骤智能代理的高级操作。该框架通过多组安全扫描器,针对不同风险类型提供立体化防护。
项目主页:https://meta-llama.github.io/PurpleLlama/LlamaFirewall/
LlamaFirewall特点
-
分层防御架构:通过 PromptGuard、AlignmentCheck、CodeShield分层拦截威胁 -
实时性:专为低延迟环境构建,支持高吞吐量管道 -
开源可扩展:允许开发者通过正则表达式或 LLM 提示自定义扫描器,快速适应新威胁
核心组件
PromptGuard v2
基于BERT架构的轻量级分类器,检测直接提示注入(如指令覆盖、角色伪装),支持多语言,低延迟。PromptGuard V2 86M在AgentDojo基准测试中,攻击成功率降低57%,同时保持高任务完成率。
AlignmentCheck
AlignmentCheck利用大模型(如Llama 4 Maverick)进行语义分析,分析Agent行为是否偏离用户目标。
CodeShield
CodeShield 最初作为 Llama 3 的一部分发布。CodeShield 作为一款在线静态分析引擎,支持8种语言和50+CWE漏洞,支持 Semgrep 和基于正则表达式的规则。CodeShield 采用了双层扫描架构。第一层采用轻量级模式匹配和静态分析,可在 100 毫秒内完成扫描。当检测到潜在的安全隐患时,输入将升级到第二层更全面的静态分析层,平均延迟约为 300 毫秒。
LlamaFirewall应用场景
安全风险类型 | 攻击示例 | 潜在危害 | 防护机制 |
---|---|---|---|
直接越狱指令注入 |
|
|
PromptGuard
|
间接越狱指令注入
|
|
|
PromptGuard
|
代理目标劫持攻击 |
|
|
AlignmentCheck
|
不安全代码生成 |
|
|
CodeShield
|
恶意代码注入攻击 |
|
|
|
Demo1:基于电子邮件的agent应用
LlamaFirewall如何保护一个基于邮件的agent应用。该Agent应用专为处理接收邮件并生成相应回复而设计。LlamaFirewall能确保检测并拦截邮件中的恶意内容,避免其影响代理程序的正常运行。首先呈现未启用LlamaFirewall时的风险场景,随后展示LlamaFirewall如何有效保护agent应用免受潜在威胁。
Demo2:代码助手Agent
LlamaFirewall在SWE agent中的应用。当agent通过生成代码片段或调用外部资源为用户提供协助时,LlamaFirewall会实时监控输入输出,拦截不安全代码或恶意指令等危险内容。这确保代码助手始终是安全可靠的开发工具。
LlamaFirewall与Cloudflare Firewall for AI有何区别?
虽然二者都是Firewall,但是架构有所区别:
Cloudflare Firewall for AI 明显是WAF的延展,适合快速集成到Cloudflare生态中。虽然支持检测敏感数据检测、DOS防护、模型滥用,但不开源。
LlamaFirewall 则是面向LLM的专用安全框架,通过AI和静态分析提供深度防御,适合需要精细化控制和定制化的场景,需用户自行部署和维护。
原文始发于微信公众号(玄月调查小组):Meta开源的AI防火墙:LlamaFirewall
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论