由于全文223页PDF,15万字,公众号放不下,这里只展示目录,Ai安全学习路线 与序言,完整PDF版本获取地址:https://github.com/Acmesec/theAIMythbook,喜欢可以点个star 后续会不断更新,点击原文链接跳转,已上传PDF
郑重声明: 后文所述皆为作者洺熙个人立场与认同的观点,仅供技术研讨与交流之用,严禁用于任何非法用途。凡由此引发的一切争议与本人概不负责。
序言
本文创作伊始,即秉持从零到一的探索精神,为方便不同视角的读者参与其中,文章已分设章节,读者可各取所需,自行探索。同时,笔者向所有秉持独立思考精神的探索者致以崇高的敬意,拜谢诸君
人工智能的浪潮汹涌而至,其核心在于模拟人脑的运作模式,构建复杂的世界模型,最终拥有并超越人类的智能水平,人类大脑中神经元如何涌现出意识,这一本质问题至今仍是未解之谜,引人深思。《华严经》有云:“起一念时,具足三世。一刹那顷,有九百生灭。” 或可映照出,人类思维与意识的诞生,源于无数神经元的复杂连接与瞬息万变的信号交互。意识的生灭聚散,其机制之复杂性难以言喻。 无论是人类大脑还是人工智能,在当下都更像是我们难以完全洞悉其内部运作的“黑盒子”。
正如任何颠覆性技术的问世,都将引发不同视角的解读与争鸣,仁者见之谓之仁,知者见之谓之知,故本文题为“AI 迷思录”,旨在记录我个人视角下对人工智能的求索之路。认知产生想法,想法催生行动(表达),观点难免受限认知局限产生理解偏差,故称之为“迷思”。若你对文中某些观点感到困惑,大可不必深究,保持独立思考相信你的直觉。 大胆假设你是对的,并以严谨的逻辑,付诸实践求证真伪。 若你甘于随波逐流, 若你只是潮水的一部分,怎么能看见潮流的方向呢?如何能洞察时代的真正方向?所以我的朋友,保持批判质疑,为什么?这并非故作姿态,而是因为人工智能尚处萌芽,无人能够完全定义其边界,
我们不妨秉持 Hacker 的探索精神,突破世俗的条条框框,不设限,追寻开放与自由,质疑哪些所谓既定权威, 探寻事物运行的本质规律,进而守正出奇, 若你也渴望融入这场Ai变革,渴望提升自我,证明价值,那么你将与志同道合者不期而遇。 与何人为伍,将决定你走向何方。让我们携手并进,愉悦地 Hacking! 若你心中已萌生奇妙的构想,那就Just Do it!
炼丹道术之说
本文旨在追溯人工智能大模型的前世今生,缘起(为什么火的是大模型?),设计者的深层构想(是什么,想干嘛),模型的运行机制(它怎么运作),以及 AI 安全的演进脉络(怎么打破常规),从而实现“道”(模型内在机制)与“术”(极致应用技巧)的融会贯通。最终目标是,基于对模型机制的深刻理解,探索大模型能力的边界,揭示潜藏于技术高塔之下的奥秘。
单以目前很火的prompt来说,当前许多专注于 Prompt 编写的人员,往往仅着眼于 Prompt 的表层技巧,而忽略了对模型底层运行机制的探究,实则本末倒置。Prompt 的引入始于 GPT3.5,其最初目的在于通过 Prompt Instruction Tuning,利用大量指令模板数据对模型进行微调,使其具备理解和响应各种指令的能力。从这一设计初衷出发,对于 Prompt 工程实践者而言,关键在于我们所构建的 Prompt 如何契合大模型的运行逻辑,在压缩编解码后精准地命中预设模板,并有效激发模型固有的知识与能力 (MoE),这样我们才能得到最佳实践,正如我所追求的是对模型机制的可透视性, 因此,致力于追根溯源,探寻模型演变历程,洞察设计者的原始意图,这正是本文的缘起。此前,我曾撰写《Prompt 越狱手册》(详情可见:Acmesec/PromptJailbreakManual),并测试了全球范围内五百余款模型,我深刻领悟到:
Prompt 旨在弥合人类大脑与 LLM 认知架构之间的鸿沟,但并非万能之匙。 当人类尝试用自然语言“编程”时,依然需要深入理解模型的行为模式与反馈机制。否则,极易陷入一种认知误区:误认为一旦接触 AI,便可轻而易举地驾驭它,甚至幻想大部分工作将被 AI 取代。 事实远非如此。 真正能够驾驭 AI 的,是那些具备卓越创造力与深度思维能力的人。 其关键在于,能否精准地发现并提出具有价值的问题,并以精妙的语言加以阐述,进而选择最适配的模型,方能获得最优解。 缺乏创造力与深度思考,便难以真正驾驭 AI,更遑论最大限度地发挥人机协作的潜力,要知道 prompt翻译过来是 提示 而非 说话,提示是思维呈现的过程,说话只是语言输出的行为
AI 处理信息的方式,也为我们提供了一个反思自身认知过程的独特视角。 我们会愈发意识到人类语言的模糊性与歧义性,以及清晰、精确表达的重要性。 这是一种认知层面的“镜像效应”—— 你之所见,皆为自身之投影。
为了更形象地阐释 Prompt 与 AI 模型的关系,我们可以将其比作古代的炼丹术。 炼丹之术,成丹需借天时地利人和,而其核心不外乎三要素:灵药、控火与炉鼎。 这三者在 AI 模型中恰好对应:Prompt (灵药),算法框架运行机制 (控火),以及底座模型架构 (炉鼎)。 欲从模型中获取理想输出,此三者缺一不可,相辅相成。
在炼丹过程中,灵药是丹药的基础,其品质直接决定了丹药的效用。 在 AI 领域,Prompt 便是指引模型生成预期输出的关键信息。 Prompt 的质量直接影响输出结果的优劣,如同不同年份、品相的药材会影响丹药的最终品质。 精心设计的 Prompt,犹如精挑细选的上等药材,能够显著提升输出质量。 反之,一个模糊不清、信息不足的 Prompt,就像劣质的药材,难以炼制出令人满意的“丹药”。 控火,则意味着选择并精确调控合适的算法框架。 不同的任务对“火候”的要求亦不相同: 文本生成任务往往青睐 GPT、BERT 等大型语言模型; 推理任务则可选择图神经网络 (GNN); 而问答场景下,T5 或经过专门微调的模型可能更为适宜。 然而,“控火”不仅仅是指选择框架,更在于对学习率、优化器等关键参数的精细调控。 这些参数如同炼丹过程中的火候控制,直接影响模型的学习效率与最终的输出品质。 处理长文本与短文本,亦如炼制不同丹药需要采取不同的温度和方法。 炉鼎,是炼制丹药的容器,它不仅需要承受高温,更要确保丹药在炼制过程中的稳定与纯粹。 在 AI 领域,模型架构便扮演着类似的角色,它决定了模型能够处理的数据类型和复杂度。 例如,循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 擅长处理具有序列依赖性的数据; 卷积神经网络 (CNN) 则更适合处理图像和提取局部特征; 而 Transformer 模型在处理长距离依赖关系方面表现卓越。 模型架构的选择还需要综合考量参数规模、预训练策略、计算资源、训练语料库等多重因素,正如选择炉鼎需要权衡其材质、大小和用途。 不同材质和结构的炉鼎,各有其擅长的应用场景,适合处理不同类型的数据和任务
以恶意软件检测任务为例,Prompt 可以是输入文件的哈希值,用于指示模型对文件进行恶意与否的分类。 此时,选择深度神经网络架构作为“炉鼎”来处理哈希值,并通过精细地调控算法框架和训练过程 (“控火”),来确保模型能够准确地学习。 “控火”的具体实践包括选择合适的优化器、调节学习率、运用正则化技巧以及应对数据不平衡等训练策略,以确保模型的高效学习和稳定收敛。 最终,模型通过学习文件的细微特征,从哈希值中准确判断文件是否为恶意。
所以AI 目前的最终输出,实则依赖于 Prompt、算法机制和模型架构这三大要素的协同作用。 正如炼丹术需要灵药、火候与炉鼎的完美结合,人工智能的成功也仰赖于这三者之间的最佳平衡。 三者彼此成就,缺一不可,唯有三者皆备,并使其协同效应最大化,方能炼得“灵光宝丹”。 训练 AI,乃至 越狱,莫不如是如此?
章节目录如下
全文PDF版本目录展示
AI迷思录(应用与安全指南)
作者联系方式与GitHub开源地址 AI安全路线指南参考——洺熙
序言
炼丹道术之说
大模型的前世今生篇
人工智能的三种定义 人工智能发展脉络:大模型起源与未来分析 缘起 从19502023 2024年2025年春节——未来新范式探索回溯 ChatGPT时代:从文本压缩到推理模型 deepseek的工程创新点——新范式的确立 争议与展望 模型蒸馏成本展望
大模型能够实现的重要技术
机器学习深度学习 基础设施 大模型使用过程常见踩坑点
模型使用:prompt设计与优化篇
什么是Prompt? 设计的本质与技巧 设计前的准备 设计技巧 Prompt框架 prompt优化与迭代 Prompt编写方法总结 Prompt自查清单
推理模型下的prompt推荐
乔哈里视窗判断人机盲区 达成对齐(摘取一念星球张凯寓)
推理模型推理模型prompt编写流程展示 判断任务是否可以通过提示解决? 选择性使用角色扮演设计留有余地 判断你的任务是指令导向还是提问导向? 第四象限是否能进行共振场域? 苏格拉底式的提问进行多轮对话
AI应用篇
1.代码审计与漏洞分析 2.网络侦察与威胁情报 3.渗透测试与漏洞利用 4.安全检测与防御 5.逆向工程与自动化 6.厂商AI 7.LLM应用侧
AI安全篇
安全对齐
安全对齐规则 越狱拦截对抗训练对齐手法 越狱框架及其潜力 二十万漏洞案例分析
米斯特漏洞助手设计赛博挖洞环节 缅甸割腰子钓鱼短信和钓鱼邮件源代码公开:越狱效果:自动化越狱 遗传算法梯度下降法 GPTFUZZER自动化越狱探索的引擎 ManyshotJailbreaking(MSJ) 超长上下文攻击
模型操纵模型中毒 数据中毒 隐私窃取 deepfake 过度依赖模型后门
传统后门InputAwareBackdoorAttack LIRABackdoorAttack RefoolBackdoorAttack
安全防护
安全防护规则 内置小模型:prompt过滤器:token与语法限定 人工审核与实时监控 隐式水印模型沙盒与安全访问
安全防护对抗手法Prompt注入 prompt窃取泄露模型投毒 大模型隐藏恶意代码
多模态文生图1.文本编码器 2.图像生成器 3.联合训练 4.微调优化
扩散模型:生成对抗网络GAN:传统AE与VAE变分自编码器:多模态安全
安全过滤器基于关键词的过滤器 基于图像的安全过滤器 基于文本图像的安全过滤器 RL绕过或加强安全过滤器
文生图多模态攻击面排版越狱攻击 对抗样本攻击
对抗样本生成过程1.对抗样本生成技术 2.对抗样本攻击案例:多模态投毒标签投毒概念篡改
AI红队测试
1.漏洞区别 2.测试方法区别 3.系统架构差异 4.人员组成与测试的不同
AI红队目标1.应用安全 2.使用安全(合规驱动) 3.AI平台安全(基础设施)
AI红队的测试类别1.全栈红队测试 2.对抗性机器学习 3.prompt注入
AI红队自动化1.数据采集和记录 2.数据集构建与标注 3.自动化评估工具开发 4.循环
AI红队大模型为什么需要红队1.大模型技术流程:工作流程案例 2.红队大模型的缺陷
AI红队流程1.项目方案 2.组建多元红队 3.设计多层测试 4.迭代执行测试 5.结构化报告结果
微软Ai红队项目总结
1.openai,Gopher,Claude,DEFCON,Ai红队案例
Ai特有威胁分类表
Ai备案与法律
1.一、备案是啥?为啥要备案? 2.二、备案都要交啥材料? 3.三、大模型备案流程的步骤 4.四、填报注意事项
Ai法律
1.一、全球人工智能安全战略与政策法规的竞合态势 2.二、全球人工智能安全标准:探索共识与应对分歧 3.三、中国人工智能安全政策与标准细化解读
未来展望与战略启示
资料参考
AI 安全路线指南参考——洺熙
1. 基础知识
-
传统网络安全基础 -
威胁复杂性:AI安全涉及对抗攻击、数据投毒、模型逃逸等复杂威胁 -
攻击面:AI系统攻击面包括训练数据、模型和算法等 -
威胁适应性:AI攻击不断调整策略 -
可解释性:AI决策难以理解 -
数据隐私:关注模型训练数据的隐私保护 -
监管合规:法规和标准仍在发展中 -
伦理考量:关注公平性、透明度和问责制 -
理解常见网络安全威胁,如恶意软件、网络入侵等 -
掌握网络安全基本概念、威胁模型和防御技术 -
区分传统网络安全与AI安全: -
人工智能数学概念 -
概率:理解概率如何影响模型和不确定性 -
线性代数:这是AI基石,务必掌握 -
微积分:理解梯度下降的基础 -
优化:了解模型训练过程 -
掌握算法、统计学、概率论、线性代数和微积分等数学基础 -
侧重于AI安全相关的数学知识,如概率论、线性代数和优化方法 -
人工智能关键概念 -
深入理解Transformer架构 -
务必理解评估指标的含义和适用场景 -
了解过拟合、欠拟合及应对方法 -
深度学习、大语言模型、自然语言处理、计算机视觉等核心领域 -
了解监督学习、无监督学习和强化学习等机器学习方法 -
熟悉对抗样本、数据/模型投毒和成员推理攻击等概念 -
人工智能硬件基础 -
了解GPU、TPU和ASIC等硬件平台 -
熟悉主流深度学习框架如何与硬件交互
2. 学习路径
-
法律法规和标准学习路径 -
欧盟人工智能法案(EU AI Act)草案 -
GDPR(通用数据保护条例) -
美国总统的AI行政命令 -
中国的《网络安全法》和《生成式人工智能服务管理暂行办法》 -
了解国内外AI相关法律法规和标准,确保AI系统开发和应用符合伦理和法律要求 -
关注数据隐私保护、模型安全性、算法公平性相关的法规 -
持续关注法规更新 -
重点法规: -
熟悉ISO/IEC 42001等国际标准 -
经典人工智能学习路径 -
线性回归和逻辑回归 -
决策树、随机森林和梯度提升树 -
支持向量机和朴素贝叶斯 -
K近邻 -
掌握经典机器学习模型,了解其原理、优缺点和应用场景 -
重要模型: -
重点:理解模型的假设、优缺点和可解释性 -
了解经典模型容易受到哪些攻击 -
探索人工智能漏洞和攻击的学习路径 -
对抗样本攻击 -
数据/模型投毒攻击 -
后门攻击 -
模型反演攻击 -
成员推理攻击 -
提示注入攻击 -
越狱攻击 -
了解AI系统特有的漏洞和攻击类型 -
从理解攻击原理开始,尝试复现攻击 -
重要攻击类型: -
探索保护人工智能方法学习路径 -
对抗训练 -
梯度掩蔽 -
输入预处理 -
防御蒸馏 -
鲁棒性优化 -
偏差与公平性审计 -
同态加密 -
隐私保护机器学习 -
联邦学习 -
零知识证明 -
模型水印 -
了解如何防御AI系统的各种攻击,提高模型的鲁棒性和安全性 -
先理解攻击,再学习防御 -
重要防御方法: -
安全开发和机器学习运维学习路径 -
持续集成/持续交付(CI/CD) -
基础设施即代码(IaC) -
策略即代码 -
左移安全 -
威胁建模 -
将安全融入AI系统生命周期,从设计、开发、部署到运维 -
从被动防御到主动安全,将安全融入AI开发各环节 -
实践包括: -
实施数据与数据中心安全措施 -
采用模型隐私技术,如差分隐私和联邦学习 -
进行模型监控,包括性能监控和安全监控 -
实施安全模型服务
3. 人工智能安全技能等级
-
等级 0:人工智能初学者 -
使用AI工具,认识技术局限性 -
体验各种AI应用 -
等级 1:“应用专家” -
有效使用现有AI解决方案,识别潜在风险 -
学习基础知识和法律法规,了解常见AI攻击类型 -
等级 2:“开发专家” -
改进和扩展现有AI系统,理解算法原理 -
理解AI模型原理,能够复现简单AI攻击,了解基本防御方法 -
等级 3:“创新专家” -
提出新的AI安全方法,开发创新解决方案 -
深入理解AI安全原理,能够设计和实现新的AI安全防御方法
4. 实践与资源
-
AI安全工具 -
NB Defense、Guardrails AI、Garak、Rebuff等 -
安全框架 -
OWASP ML TOP 10、NIST人工智能风险管理框架、MITRE ATLAS等 -
会议与讲座 -
Black Hat和DefCon AI Village、IEEE可信赖和安全机器学习国际会议等
AI应用篇
1. 代码审计与漏洞分析
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2. 网络侦察与威胁情报
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3. 渗透测试与漏洞利用
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4. 安全检测与防御
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5. 逆向工程与自动化
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6. 厂商AI
|
|
|
|
|
---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7.LLM应用侧
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
openai,Gopher,Claude,DEFCON,Ai红队案例
|
|
|
|
|
|
|
|
|
---|---|---|---|---|---|---|---|---|
Bing Chat |
|
|
|
|
|
|
|
|
GPT4 |
|
|
|
|
|
|
|
|
Gopher |
|
|
|
|
|
|
|
|
Claude 2 |
|
|
|
|
|
|
|
|
Various (DEFCON) |
|
|
|
|
|
|
|
|
Claude 1 |
|
|
|
|
|
|
|
|
资料参考(感谢knight提供的学术资料https://github.com/knightswd)
-
《ArtPrompt: ASCII Artbased Jailbreak Attacks against Aligned LLMs》 -
《LLM Agents can Autonomously Hack Websites》 -
《Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction》 -
《Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues》 -
《Smishing Dataset I: Phishing SMS Dataset from Smishtank.com》 -
《DevPhish: Exploring Social Engineering in Software Supply Chain Attacks on Developers》 -
《WIPI: A New Web Threat for LLMDriven Web Agents》 -
《Tree of Attacks: Jailbreaking BlackBox LLMs Automatically》 -
《Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild》 -
《Linguistic Obfuscation Attacks and Large Language Model Uncertainty》 -
《PoisonedRAG: Knowledge Poisoning Attacks to RetrievalAugmented Generation of Large Language Models》 -
《How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments?》 -
《PAL: ProxyGuided BlackBox Attack on Large Language Models》 -
《Watch Out for Your Agents! Investigating Backdoor Threats to LLMBased Agents》 -
《Stealthy Attack on Large Language Model based Recommendation》 -
《InjecAgent: Benchmarking Indirect Prompt Injections in ToolIntegrated Large Language Model Agents》 -
《ImgTrojan: Jailbreaking VisionLanguage Models with ONE Image》 -
《Human vs. Machine: Language Models and Wargames》 -
《Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks》 -
《DeepEclipse: How to Break WhiteBox DNNWatermarking Schemes》 -
《Stealing Part of a Production Language Model》 -
《Exploring Safety Generalization Challenges of Large Language Models via Code》 -
《Analyzing Adversarial Attacks on SequencetoSequence Relevance Models》 -
《Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology》 -
[多模态攻击]《FMMAttack: A Flowbased Multimodal Adversarial Attack on Videobased LLMs》 -
[后门攻击]《BadEdit: Backdooring large language models by model editing》 -
[越狱攻击]《EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models》 -
[对抗攻击]《SSCAE Semantic, Syntactic, and Contextaware natural language Adversarial Examples generator》 -
[图对抗攻击]《Problem space structural adversarial attacks for Network Intrusion Detection Systems based on Graph Neural Networks》 -
[后门攻击]《Invisible Backdoor Attack Through Singular Value Decomposition》 -
[自动化红队]《Rainbow Teaming: OpenEnded Generation of Diverse Adversarial Prompts》 -
《SPML: A DSL for Defending Language Models Against Prompt Attacks》 -
《Reformatted Alignment》 -
《AIpowered patching: the future of automated vulnerability fixes》 -
《ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection》 -
《AIassisted Tagging of Deepfake Audio Calls using ChallengeResponse》 -
《TokenSpecific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models》 -
《Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning》 -
《Defending Jailbreak Prompts via InContext Adversarial Game》 -
《Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code》 -
《Towards an AIEnhanced Cyber Threat Intelligence Processing Pipeline》 -
《LMSanitator: Defending PromptTuning Against TaskAgnostic Backdoors》 -
《Assetdriven Threat Modeling for AIbased Systems》 -
《Threats, Attacks, and Defenses in Machine Unlearning: A Survey》 -
《Have You Poisoned My Data? Defending Neural Networks against Data Poisoning》 -
《Adversarial Attacks and Defenses in Automated Control Systems: A Comprehensive Benchmark》 -
[风险综述]《Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices》 -
[风险评估]《Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal》 -
[漏洞修复]《A Study of Vulnerability Repair in JavaScript Programs with Large Language Models》 -
[机器遗忘]《Has Approximate Machine Unlearning been evaluated properly? From Auditing to Side Effects》 -
[python fuzz]《Python Fuzzing for Trustworthy Machine Learning Frameworks》 -
[水印]《Towards Better Statistical Understanding of Watermarking LLMs》 -
[挑战&机遇]《Large language models in 6G security: challenges and opportunities》 -
[投毒攻击防护]《Diffusion Denoising as a Certified Defense against Cleanlabel Poisoning》 -
[音频检测]《Towards the Development of a RealTime Deepfake Audio Detection System in Communication Platforms》 -
[安全对齐]《Large Language Model Alignment: A Survey》
原文始发于微信公众号(米斯特安全团队):AI迷思录 | AI应用与安全指南{从0到1的新手指南}
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论