Meta开源LlamaFirewall大模型防火墙框架

admin 2025年5月1日01:12:33评论1 views字数 1043阅读3分28秒阅读模式

Meta开源LlamaFirewall大模型防火墙框架

Meta开源LlamaFirewall大模型防火墙框架

Meta公司周二正式发布开源框架LlamaFirewall,该框架旨在保护人工智能(AI)系统免受即时注入(prompt injection)、越狱攻击(jailbreak)及不安全代码等新兴网络安全威胁。

Meta开源LlamaFirewall大模型防火墙框架

01

三重防护机制

据该公司介绍,该框架包含三大防护组件:PromptGuard 2、Agent Alignment Checks和CodeShield。其中PromptGuard 2可实时检测直接的越狱攻击和即时注入尝试;Agent Alignment Checks则能监测AI代理的推理过程,识别潜在的目标劫持和间接即时注入攻击场景。
CodeShield是一个在线静态分析引擎,专门用于阻止AI代理生成不安全或危险的代码。Meta在GitHub项目描述中表示:"LlamaFirewall设计为一个灵活的实时防护框架,用于保护基于大语言模型(LLM)的应用程序。其模块化架构使安全团队和开发者能够构建分层防御体系,覆盖从原始输入到最终输出的全流程——无论是简单聊天模型还是复杂自主代理。"

Meta开源LlamaFirewall大模型防火墙框架

02

配套安全工具升级

与LlamaFirewall同步推出的还有LlamaGuard和CyberSecEval的升级版本。前者用于更精准检测各类违规内容,后者则用于评估AI系统的网络安全防御能力。CyberSecEval 4新增了名为AutoPatchBench的基准测试,专门评估大语言模型代理自动修复通过模糊测试(fuzzing)发现的C/C++漏洞的能力,这种技术被称为AI驱动的补丁修复。
Meta表示:"AutoPatchBench为评估AI辅助漏洞修复工具的有效性提供了标准化框架。该基准测试旨在全面了解各类AI驱动方法在修复模糊测试发现漏洞方面的能力与局限。"
03

安全开发者计划

此外,Meta还启动了名为"Llama for Defenders"的新计划,通过向合作组织和AI开发者提供开放、早期测试及封闭式AI解决方案,帮助应对特定安全挑战,例如检测用于诈骗和钓鱼攻击的AI生成内容。
这些技术发布恰逢WhatsApp预览名为"Private Processing"的新技术。该技术通过将用户请求卸载到安全保密环境中处理,使得用户在使用AI功能时无需担心隐私泄露。Meta表示:"我们正与安全社区合作审核改进架构,在正式产品化前将继续与研究人员协作,以开放方式持续完善Private Processing技术。"

原文始发于微信公众号(FreeBuf):Meta开源LlamaFirewall大模型防火墙框架

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月1日01:12:33
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Meta开源LlamaFirewall大模型防火墙框架https://cn-sec.com/archives/4022027.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息