前言模型越狱是指通过各种手段突破人工智能模型内置的安全性和内容政策,迫使模型执行一些原本被禁止的操作或生成敏感、违法及不当的内容。这类越狱行为通常会涉及绕过模型的过滤系统、道德规范或安全限制,使模型生...
【论文速读】| 针对大语言模型的可转移集成黑盒越狱攻击
基本信息原文标题:Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models原文作者:Yiqi Yang, H...
【论文速读】| 通过良性数据镜像对大语言模型进行隐蔽越狱攻击
基本信息原文标题:Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring原文作者:Honglin M...
【论文速读】| RePD:通过基于检索的提示分解过程防御越狱攻击
基本信息原文标题:RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process原文作者...
PathSeeker:使用基于强化学习的越狱攻击方法探索大语言模型的安全漏洞
基本信息 原文标题: PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Ja...
【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
基本信息原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking原文作者...
【论文速读】| 针对大语言模型的有效且具有规避性的模糊测试驱动越狱攻击
基本信息原文标题:Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs原文作者:Xueluan Gon...
AI+Security系列第2期(三):面向LLM(大语言模型)的漏洞挖掘与对齐防御研究
近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。在此次活动...
大语言模型越狱攻击综述
今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against...
GPT-4o Mini:首创指令层级技术抵御越狱攻击
OpenAI 近日发布了性价比极高的轻量化模型 GPT-4o Mini,入局大模型价格战,支持 128K 上下文长度、多模态,能力接近 GPT-4,价格却比 GPT-3.5 Turbo 便宜 60%,...
大模型语音模式越狱攻击 (Jailbreak Attack)
原文标题 : Voice Jailbreak Attacks Against GPT-4o 原文作者 : Xinyue Shen, Yixin Wu, Michael Backes, Yang Zha...
2