Meta开源LlamaFirewall大模型防火墙框架

admin

146004
文章

119
评论

2025年5月1日01:12:33评论35 views字数 1043阅读3分28秒阅读模式

Meta开源LlamaFirewall大模型防火墙框架

Meta公司周二正式发布开源框架LlamaFirewall，该框架旨在保护人工智能（AI）系统免受即时注入（prompt injection）、越狱攻击（jailbreak）及不安全代码等新兴网络安全威胁。

Meta开源LlamaFirewall大模型防火墙框架

三重防护机制

据该公司介绍，该框架包含三大防护组件：PromptGuard 2、Agent Alignment Checks和CodeShield。其中PromptGuard 2可实时检测直接的越狱攻击和即时注入尝试；Agent Alignment Checks则能监测AI代理的推理过程，识别潜在的目标劫持和间接即时注入攻击场景。

CodeShield是一个在线静态分析引擎，专门用于阻止AI代理生成不安全或危险的代码。Meta在GitHub项目描述中表示："LlamaFirewall设计为一个灵活的实时防护框架，用于保护基于大语言模型（LLM）的应用程序。其模块化架构使安全团队和开发者能够构建分层防御体系，覆盖从原始输入到最终输出的全流程——无论是简单聊天模型还是复杂自主代理。"

Meta开源LlamaFirewall大模型防火墙框架

配套安全工具升级

与LlamaFirewall同步推出的还有LlamaGuard和CyberSecEval的升级版本。前者用于更精准检测各类违规内容，后者则用于评估AI系统的网络安全防御能力。CyberSecEval 4新增了名为AutoPatchBench的基准测试，专门评估大语言模型代理自动修复通过模糊测试（fuzzing）发现的C/C++漏洞的能力，这种技术被称为AI驱动的补丁修复。

Meta表示："AutoPatchBench为评估AI辅助漏洞修复工具的有效性提供了标准化框架。该基准测试旨在全面了解各类AI驱动方法在修复模糊测试发现漏洞方面的能力与局限。"

安全开发者计划

此外，Meta还启动了名为"Llama for Defenders"的新计划，通过向合作组织和AI开发者提供开放、早期测试及封闭式AI解决方案，帮助应对特定安全挑战，例如检测用于诈骗和钓鱼攻击的AI生成内容。

这些技术发布恰逢WhatsApp预览名为"Private Processing"的新技术。该技术通过将用户请求卸载到安全保密环境中处理，使得用户在使用AI功能时无需担心隐私泄露。Meta表示："我们正与安全社区合作审核改进架构，在正式产品化前将继续与研究人员协作，以开放方式持续完善Private Processing技术。"

原文始发于微信公众号（FreeBuf）：Meta开源LlamaFirewall大模型防火墙框架

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Meta开源LlamaFirewall大模型防火墙框架

理想汽车遭遇黑客远程控制？

【微软云】身份曝【严重漏洞】：对低级别用户过度授权，导致客户VPN密钥泄露

你每天用的AI，可能被投毒了！

Google紧急修复Chrome零日漏洞（CVE-2025-6554）

BlockSec | Resupply 协议攻击事件的深度分析和思考

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞

印度 Max 金融公司数据泄露

韩国重拳出击！Kimsuky APT黑客团伙遭制裁，加密地址首度曝光，美日火速跟进！

澳航遭遇重大网络攻击数百万客户信息恐遭泄露

新的 FileFix 攻击可运行 JScript 并绕过 Windows MoTW 警报

发表评论