基本信息原文标题:PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization原文作...
生成式AI可一键生成诈骗网站,越狱攻击引发钓鱼危机
Lovable AI 易受到越狱攻击,使新手和潜在网络犯罪分子能够设置类似真实页面的凭证收集页面,实施网络钓鱼攻击。由生成式人工智能(AI)驱动的平台Lovable,支持通过文本指令创建全栈式网页应用...
研究人员发现新方法防御 AI 模型的通用越狱攻击
更多全球网络安全资讯尽在邑安全来自安全研究团队的研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”,已在数千小时的人类红队测试和合成评估中表现出了显著的抗...
研究人员发现新方法防御 AI 模型的通用越狱攻击
关键词人工智能来自Anthropic保障研究团队的研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”,已在数千小时的人类红队测试和合成评估中表现出了显著的...
新越狱攻击允许用户操纵 GitHub Copilot
导 读研究人员发现了两种操纵 GitHub 人工智能编码助手 Copilot 的新方法,从而能够绕过安全限制和订阅费用、训练恶意模型等。第一个技巧是将聊天交互嵌入到 Copilot 代码中,利用 AI...
越狱攻击让LLM驱动的机器人分分钟上演灾难大片
LLM 驱动的机器人成了新一代“调皮小子”,一旦遭遇恶意攻击,不是追着电线杆绕圈就是制造现实版“交通大乱斗”,分分钟让你见识到什么叫潜在危险。看起来,想要管好这些“大脑聪明、行为离谱”的家伙,还真得费...
AISS专栏 | 模型越狱攻击手段与评估框架分析
前言模型越狱是指通过各种手段突破人工智能模型内置的安全性和内容政策,迫使模型执行一些原本被禁止的操作或生成敏感、违法及不当的内容。这类越狱行为通常会涉及绕过模型的过滤系统、道德规范或安全限制,使模型生...
【论文速读】| 针对大语言模型的可转移集成黑盒越狱攻击
基本信息原文标题:Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models原文作者:Yiqi Yang, H...
【论文速读】| 通过良性数据镜像对大语言模型进行隐蔽越狱攻击
基本信息原文标题:Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring原文作者:Honglin M...
【论文速读】| RePD:通过基于检索的提示分解过程防御越狱攻击
基本信息原文标题:RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process原文作者...
PathSeeker:使用基于强化学习的越狱攻击方法探索大语言模型的安全漏洞
基本信息 原文标题: PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Ja...
【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
基本信息原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking原文作者...