AI迷思录 | AI应用与安全指南{从0到1的新手指南}

2025年2月18日20:05:18评论121 views字数 17287阅读57分37秒阅读模式

由于全文223页PDF，15万字，公众号放不下，这里只展示目录，Ai安全学习路线与序言，完整PDF版本获取地址：https://github.com/Acmesec/theAIMythbook，喜欢可以点个star 后续会不断更新，点击原文链接跳转，已上传PDF

郑重声明：后文所述皆为作者洺熙个人立场与认同的观点，仅供技术研讨与交流之用，严禁用于任何非法用途。凡由此引发的一切争议与本人概不负责。

序言

本文创作伊始，即秉持从零到一的探索精神，为方便不同视角的读者参与其中，文章已分设章节，读者可各取所需，自行探索。同时，笔者向所有秉持独立思考精神的探索者致以崇高的敬意，拜谢诸君

人工智能的浪潮汹涌而至，其核心在于模拟人脑的运作模式，构建复杂的世界模型，最终拥有并超越人类的智能水平,人类大脑中神经元如何涌现出意识，这一本质问题至今仍是未解之谜，引人深思。《华严经》有云：“起一念时，具足三世。一刹那顷，有九百生灭。” 或可映照出，人类思维与意识的诞生，源于无数神经元的复杂连接与瞬息万变的信号交互。意识的生灭聚散，其机制之复杂性难以言喻。无论是人类大脑还是人工智能，在当下都更像是我们难以完全洞悉其内部运作的“黑盒子”。

正如任何颠覆性技术的问世，都将引发不同视角的解读与争鸣，仁者见之谓之仁，知者见之谓之知，故本文题为“AI 迷思录”，旨在记录我个人视角下对人工智能的求索之路。认知产生想法，想法催生行动（表达），观点难免受限认知局限产生理解偏差，故称之为“迷思”。若你对文中某些观点感到困惑，大可不必深究，保持独立思考相信你的直觉。大胆假设你是对的，并以严谨的逻辑，付诸实践求证真伪。若你甘于随波逐流，若你只是潮水的一部分，怎么能看见潮流的方向呢？如何能洞察时代的真正方向？所以我的朋友，保持批判质疑，为什么？这并非故作姿态，而是因为人工智能尚处萌芽，无人能够完全定义其边界，

我们不妨秉持 Hacker 的探索精神，突破世俗的条条框框，不设限，追寻开放与自由，质疑哪些所谓既定权威，探寻事物运行的本质规律，进而守正出奇，若你也渴望融入这场Ai变革，渴望提升自我，证明价值，那么你将与志同道合者不期而遇。与何人为伍，将决定你走向何方。让我们携手并进，愉悦地 Hacking！若你心中已萌生奇妙的构想，那就Just Do it!

炼丹道术之说

本文旨在追溯人工智能大模型的前世今生,缘起(为什么火的是大模型？)，设计者的深层构想（是什么，想干嘛）,模型的运行机制（它怎么运作），以及 AI 安全的演进脉络（怎么打破常规），从而实现“道”（模型内在机制）与“术”（极致应用技巧）的融会贯通。最终目标是，基于对模型机制的深刻理解，探索大模型能力的边界，揭示潜藏于技术高塔之下的奥秘。

单以目前很火的prompt来说，当前许多专注于 Prompt 编写的人员，往往仅着眼于 Prompt 的表层技巧，而忽略了对模型底层运行机制的探究，实则本末倒置。Prompt 的引入始于 GPT3.5，其最初目的在于通过 Prompt Instruction Tuning，利用大量指令模板数据对模型进行微调，使其具备理解和响应各种指令的能力。从这一设计初衷出发，对于 Prompt 工程实践者而言，关键在于我们所构建的 Prompt 如何契合大模型的运行逻辑，在压缩编解码后精准地命中预设模板，并有效激发模型固有的知识与能力 (MoE)，这样我们才能得到最佳实践，正如我所追求的是对模型机制的可透视性，因此，致力于追根溯源，探寻模型演变历程，洞察设计者的原始意图，这正是本文的缘起。此前，我曾撰写《Prompt 越狱手册》(详情可见：Acmesec/PromptJailbreakManual)，并测试了全球范围内五百余款模型，我深刻领悟到：

Prompt 旨在弥合人类大脑与 LLM 认知架构之间的鸿沟，但并非万能之匙。当人类尝试用自然语言“编程”时，依然需要深入理解模型的行为模式与反馈机制。否则，极易陷入一种认知误区：误认为一旦接触 AI，便可轻而易举地驾驭它，甚至幻想大部分工作将被 AI 取代。事实远非如此。真正能够驾驭 AI 的，是那些具备卓越创造力与深度思维能力的人。其关键在于，能否精准地发现并提出具有价值的问题，并以精妙的语言加以阐述，进而选择最适配的模型，方能获得最优解。缺乏创造力与深度思考，便难以真正驾驭 AI，更遑论最大限度地发挥人机协作的潜力，要知道 prompt翻译过来是提示而非说话，提示是思维呈现的过程，说话只是语言输出的行为

AI 处理信息的方式，也为我们提供了一个反思自身认知过程的独特视角。我们会愈发意识到人类语言的模糊性与歧义性，以及清晰、精确表达的重要性。这是一种认知层面的“镜像效应”—— 你之所见，皆为自身之投影。

为了更形象地阐释 Prompt 与 AI 模型的关系，我们可以将其比作古代的炼丹术。炼丹之术，成丹需借天时地利人和，而其核心不外乎三要素：灵药、控火与炉鼎。这三者在 AI 模型中恰好对应：Prompt (灵药)，算法框架运行机制 (控火)，以及底座模型架构 (炉鼎)。欲从模型中获取理想输出，此三者缺一不可，相辅相成。

在炼丹过程中，灵药是丹药的基础，其品质直接决定了丹药的效用。在 AI 领域，Prompt 便是指引模型生成预期输出的关键信息。 Prompt 的质量直接影响输出结果的优劣，如同不同年份、品相的药材会影响丹药的最终品质。精心设计的 Prompt，犹如精挑细选的上等药材，能够显著提升输出质量。反之，一个模糊不清、信息不足的 Prompt，就像劣质的药材，难以炼制出令人满意的“丹药”。控火，则意味着选择并精确调控合适的算法框架。不同的任务对“火候”的要求亦不相同：文本生成任务往往青睐 GPT、BERT 等大型语言模型；推理任务则可选择图神经网络 (GNN)；而问答场景下，T5 或经过专门微调的模型可能更为适宜。然而，“控火”不仅仅是指选择框架，更在于对学习率、优化器等关键参数的精细调控。这些参数如同炼丹过程中的火候控制，直接影响模型的学习效率与最终的输出品质。处理长文本与短文本，亦如炼制不同丹药需要采取不同的温度和方法。炉鼎，是炼制丹药的容器，它不仅需要承受高温，更要确保丹药在炼制过程中的稳定与纯粹。在 AI 领域，模型架构便扮演着类似的角色，它决定了模型能够处理的数据类型和复杂度。例如，循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 擅长处理具有序列依赖性的数据；卷积神经网络 (CNN) 则更适合处理图像和提取局部特征；而 Transformer 模型在处理长距离依赖关系方面表现卓越。模型架构的选择还需要综合考量参数规模、预训练策略、计算资源、训练语料库等多重因素，正如选择炉鼎需要权衡其材质、大小和用途。不同材质和结构的炉鼎，各有其擅长的应用场景，适合处理不同类型的数据和任务

以恶意软件检测任务为例，Prompt 可以是输入文件的哈希值，用于指示模型对文件进行恶意与否的分类。此时，选择深度神经网络架构作为“炉鼎”来处理哈希值，并通过精细地调控算法框架和训练过程 (“控火”)，来确保模型能够准确地学习。 “控火”的具体实践包括选择合适的优化器、调节学习率、运用正则化技巧以及应对数据不平衡等训练策略，以确保模型的高效学习和稳定收敛。最终，模型通过学习文件的细微特征，从哈希值中准确判断文件是否为恶意。

所以AI 目前的最终输出，实则依赖于 Prompt、算法机制和模型架构这三大要素的协同作用。正如炼丹术需要灵药、火候与炉鼎的完美结合，人工智能的成功也仰赖于这三者之间的最佳平衡。三者彼此成就，缺一不可，唯有三者皆备，并使其协同效应最大化，方能炼得“灵光宝丹”。训练 AI，乃至越狱，莫不如是如此？

章节目录如下

全文PDF版本目录展示

AI迷思录（应用与安全指南）

作者联系方式与GitHub开源地址 AI安全路线指南参考——洺熙

序言

炼丹道术之说

大模型的前世今生篇

人工智能的三种定义人工智能发展脉络：大模型起源与未来分析缘起从19502023 2024年2025年春节——未来新范式探索回溯 ChatGPT时代：从文本压缩到推理模型 deepseek的工程创新点——新范式的确立争议与展望模型蒸馏成本展望

大模型能够实现的重要技术

机器学习深度学习基础设施大模型使用过程常见踩坑点

模型使用：prompt设计与优化篇

什么是Prompt？设计的本质与技巧设计前的准备设计技巧 Prompt框架 prompt优化与迭代 Prompt编写方法总结 Prompt自查清单

推理模型下的prompt推荐

乔哈里视窗判断人机盲区达成对齐（摘取一念星球张凯寓）

推理模型推理模型prompt编写流程展示判断任务是否可以通过提示解决？选择性使用角色扮演设计留有余地判断你的任务是指令导向还是提问导向？第四象限是否能进行共振场域？苏格拉底式的提问进行多轮对话

AI应用篇

1.代码审计与漏洞分析 2.网络侦察与威胁情报 3.渗透测试与漏洞利用 4.安全检测与防御 5.逆向工程与自动化 6.厂商AI 7.LLM应用侧

AI安全篇

安全对齐

安全对齐规则越狱拦截对抗训练对齐手法越狱框架及其潜力二十万漏洞案例分析

米斯特漏洞助手设计赛博挖洞环节缅甸割腰子钓鱼短信和钓鱼邮件源代码公开：越狱效果：自动化越狱遗传算法梯度下降法 GPTFUZZER自动化越狱探索的引擎 ManyshotJailbreaking(MSJ) 超长上下文攻击

模型操纵模型中毒数据中毒隐私窃取 deepfake 过度依赖模型后门

传统后门InputAwareBackdoorAttack LIRABackdoorAttack RefoolBackdoorAttack

安全防护

安全防护规则内置小模型：prompt过滤器：token与语法限定人工审核与实时监控隐式水印模型沙盒与安全访问

安全防护对抗手法Prompt注入 prompt窃取泄露模型投毒大模型隐藏恶意代码

多模态文生图1.文本编码器 2.图像生成器 3.联合训练 4.微调优化

扩散模型:生成对抗网络GAN:传统AE与VAE变分自编码器:多模态安全

安全过滤器基于关键词的过滤器基于图像的安全过滤器基于文本图像的安全过滤器 RL绕过或加强安全过滤器

文生图多模态攻击面排版越狱攻击对抗样本攻击

对抗样本生成过程1.对抗样本生成技术 2.对抗样本攻击案例：多模态投毒标签投毒概念篡改

AI红队测试

1.漏洞区别 2.测试方法区别 3.系统架构差异 4.人员组成与测试的不同

AI红队目标1.应用安全 2.使用安全（合规驱动） 3.AI平台安全（基础设施）

AI红队的测试类别1.全栈红队测试 2.对抗性机器学习 3.prompt注入

AI红队自动化1.数据采集和记录 2.数据集构建与标注 3.自动化评估工具开发 4.循环

AI红队大模型为什么需要红队1.大模型技术流程：工作流程案例 2.红队大模型的缺陷

AI红队流程1.项目方案 2.组建多元红队 3.设计多层测试 4.迭代执行测试 5.结构化报告结果

微软Ai红队项目总结

1.openai，Gopher，Claude，DEFCON，Ai红队案例

Ai特有威胁分类表

Ai备案与法律

1.一、备案是啥？为啥要备案？ 2.二、备案都要交啥材料？ 3.三、大模型备案流程的步骤 4.四、填报注意事项

Ai法律

1.一、全球人工智能安全战略与政策法规的竞合态势 2.二、全球人工智能安全标准：探索共识与应对分歧 3.三、中国人工智能安全政策与标准细化解读

未来展望与战略启示

资料参考

AI 安全路线指南参考——洺熙

1. 基础知识

传统网络安全基础

威胁复杂性：AI安全涉及对抗攻击、数据投毒、模型逃逸等复杂威胁
攻击面：AI系统攻击面包括训练数据、模型和算法等
威胁适应性：AI攻击不断调整策略
可解释性：AI决策难以理解
数据隐私：关注模型训练数据的隐私保护
监管合规：法规和标准仍在发展中
伦理考量：关注公平性、透明度和问责制

理解常见网络安全威胁，如恶意软件、网络入侵等
掌握网络安全基本概念、威胁模型和防御技术
区分传统网络安全与AI安全：

人工智能数学概念

概率：理解概率如何影响模型和不确定性
线性代数：这是AI基石，务必掌握
微积分：理解梯度下降的基础
优化：了解模型训练过程

掌握算法、统计学、概率论、线性代数和微积分等数学基础
侧重于AI安全相关的数学知识，如概率论、线性代数和优化方法

人工智能关键概念

深入理解Transformer架构

务必理解评估指标的含义和适用场景
了解过拟合、欠拟合及应对方法

深度学习、大语言模型、自然语言处理、计算机视觉等核心领域
了解监督学习、无监督学习和强化学习等机器学习方法
熟悉对抗样本、数据/模型投毒和成员推理攻击等概念

人工智能硬件基础

了解GPU、TPU和ASIC等硬件平台
熟悉主流深度学习框架如何与硬件交互

2. 学习路径

法律法规和标准学习路径

欧盟人工智能法案（EU AI Act）草案
GDPR（通用数据保护条例）
美国总统的AI行政命令
中国的《网络安全法》和《生成式人工智能服务管理暂行办法》

了解国内外AI相关法律法规和标准，确保AI系统开发和应用符合伦理和法律要求
关注数据隐私保护、模型安全性、算法公平性相关的法规
持续关注法规更新
重点法规：
熟悉ISO/IEC 42001等国际标准

经典人工智能学习路径

线性回归和逻辑回归
决策树、随机森林和梯度提升树
支持向量机和朴素贝叶斯
K近邻

掌握经典机器学习模型，了解其原理、优缺点和应用场景
重要模型：
重点：理解模型的假设、优缺点和可解释性
了解经典模型容易受到哪些攻击

探索人工智能漏洞和攻击的学习路径

对抗样本攻击
数据/模型投毒攻击
后门攻击
模型反演攻击
成员推理攻击
提示注入攻击
越狱攻击

了解AI系统特有的漏洞和攻击类型
从理解攻击原理开始，尝试复现攻击
重要攻击类型：

探索保护人工智能方法学习路径

对抗训练
梯度掩蔽
输入预处理
防御蒸馏
鲁棒性优化
偏差与公平性审计
同态加密
隐私保护机器学习
联邦学习
零知识证明
模型水印

了解如何防御AI系统的各种攻击，提高模型的鲁棒性和安全性
先理解攻击，再学习防御
重要防御方法：

安全开发和机器学习运维学习路径

持续集成/持续交付（CI/CD）
基础设施即代码（IaC）
策略即代码
左移安全
威胁建模

将安全融入AI系统生命周期，从设计、开发、部署到运维
从被动防御到主动安全，将安全融入AI开发各环节
实践包括：
实施数据与数据中心安全措施
采用模型隐私技术，如差分隐私和联邦学习
进行模型监控，包括性能监控和安全监控
实施安全模型服务

3. 人工智能安全技能等级

等级 0：人工智能初学者

使用AI工具，认识技术局限性
体验各种AI应用

等级 1：“应用专家”

有效使用现有AI解决方案，识别潜在风险
学习基础知识和法律法规，了解常见AI攻击类型

等级 2：“开发专家”

改进和扩展现有AI系统，理解算法原理
理解AI模型原理，能够复现简单AI攻击，了解基本防御方法

等级 3：“创新专家”

提出新的AI安全方法，开发创新解决方案
深入理解AI安全原理，能够设计和实现新的AI安全防御方法

4. 实践与资源

AI安全工具

NB Defense、Guardrails AI、Garak、Rebuff等

安全框架

OWASP ML TOP 10、NIST人工智能风险管理框架、MITRE ATLAS等

会议与讲座

Black Hat和DefCon AI Village、IEEE可信赖和安全机器学习国际会议等

AI应用篇

1. 代码审计与漏洞分析

工具名称	产品原理	应用场景	存疑思考
AutoAudit	基于LLM，分析代码、配置文件等，识别安全漏洞或不合规行为。	代码审计、配置审查、合规性检查、漏洞早期发现。	准确性依赖模型，可能有误报漏报。对复杂或新型漏洞识别能力有限。
SourceGPT	利用ChatGPT作为预言机，结合提示工程和代码分析技术。	辅助代码审查、安全漏洞识别、代码理解、生成安全文档。	依赖ChatGPT理解能力。提示工程质量影响结果。可能有幻觉问题。
vulnhuntr	使用LLM进行零样本漏洞发现，利用LLM的泛化能力。	未知漏洞发现、安全研究、自动化漏洞挖掘。	零样本学习效果可能不稳定。可能产生大量误报。缺乏可信度。
ChatGPTScanner	基于ChatGPT的代码扫描器，将代码片段输入ChatGPT进行分析。	快速代码审查、漏洞初步筛查、安全教育。	依赖ChatGPT漏洞识别能力。无法处理大型代码库。Prompt影响大。
chatgptcodeanalyzer	类似ChatGPTScanner，集成到VS Code中。	开发过程中实时代码分析、漏洞提示。	同ChatGPTScanner。可能影响开发效率。IDE集成有安全风险。
黑客 AI	在线工具，通过AI模型分析上传的代码，检测漏洞。	快速漏洞检测、无需安装。	数据隐私安全风险。透明度低。可能需付费。
audit_gpt	针对智能合约进行微调的GPT模型。	智能合约审计、漏洞检测、安全加固。	效果依赖微调数据。难适应语言快速发展。对新型漏洞识别有限。
vulchatgpt	结合IDA Pro的HexRays反编译器和ChatGPT。	二进制文件漏洞分析、逆向工程辅助、恶意软件分析。	依赖反编译准确性和ChatGPT分析。难处理复杂二进制或混淆代码。需IDA Pro和ChatGPT授权。
Ret2GPT	利用LangChain和OpenAI API，构建知识图谱或语义分析模型。	CTF比赛、二进制漏洞分析、安全研究。	依赖LangChain和OpenAI API。可能需高计算资源。对复杂漏洞识别有限。
AuthzAI	利用OpenAI结构化输出能力，对比API端点预期权限模型与实际行为。	API安全测试、权限验证、访问控制审计。	依赖OpenAI结构化输出和权限模型理解。难处理复杂权限逻辑。
SinkFinder	结合LLM和静态代码分析，评估数据流安全性。	静态代码分析、漏洞挖掘、数据流分析。	依赖LLM对代码上下文理解和安全漏洞识别。可能有误报漏报。
Callisto	结合Ghidra、Semgrep和GPT进行自动化二进制漏洞分析。	二进制文件分析、漏洞挖掘。	准确性依赖多组件。复杂漏洞需人工复核。
CodeScanGPT	实验性的工具，通过GPT和OpenAPI实现对目标代码的安全漏洞扫描	快速的进行代码的安全扫描实验	效果受限于GPT的能力。
LLMCodeSecurityReviewer	一个可以辅助检查代码安全性的工具	快速的分析并评估代码的安全风险	需要自行搭建环境

2. 网络侦察与威胁情报

工具名称	产品原理	应用场景	存疑思考
CensysGPT 测试版	利用Censys数据和GPT模型，通过自然语言查询获取信息并分析。	威胁情报、资产发现、风险评估。	依赖Censys数据和GPT分析。受限于Censys覆盖。对新型威胁识别有限。
GPT_Vuln分析器	结合Nmap、DNS Recon和GPT模型，分析信息生成漏洞报告。	漏洞扫描、网络安全评估、自动化报告。	依赖各组件准确性。可能有误报漏报。
SubGPT	利用BingGPT分析已知子域名，发现更多子域名。	子域名枚举、资产发现、攻击面管理。	依赖BingGPT。受限Bing索引。对不常见子域名发现有限。
Navi	基于问答的侦察工具，通过与用户交互分析信息。	交互式侦察、信息收集、威胁评估。	依赖用户安全知识和GPT分析。有误导风险。
ChatCVE	利用LLM处理CVE信息，进行分类、聚合等。	CVE信息管理、漏洞优先级排序、安全研究。	依赖LLM对CVE描述理解。对新CVE或非标准描述处理不佳。
ZoomEyeGPT	基于GPT的ZoomEye浏览器扩展，增强搜索体验和AI辅助分析。	网络空间搜索引擎增强、资产发现、威胁情报。	依赖ZoomEye数据和GPT分析。受限ZoomEye覆盖。
uncoverturbo	将自然语言查询转换为测绘语法（如Shodan、Censys）。	网络空间测绘、资产发现、漏洞扫描。	依赖LLM理解查询和测绘语法。可能有转换错误。
nmapGPT	结合nmap与GPT，进行安全检查	增强的扫描体验	依赖GPT进行扫描后处理

3. 渗透测试与漏洞利用

工具名称	产品原理	应用场景	存疑思考
PentestGPT	利用GPT模型生成攻击脚本、分析漏洞报告、提供建议。	自动化渗透测试、漏洞利用、安全评估。	依赖GPT安全知识和能力。可能有误报漏报。脚本有风险。
burpgpt	将GPT集成到Burp Suite，分析HTTP请求和响应。	Web应用安全测试、漏洞发现、动态分析。	依赖GPT漏洞识别和Burp配置。可能有误报漏报。
ReconAIzer	类似burpgpt，集成GPT到Burp Suite，辅助漏洞赏金侦查。	漏洞赏金、Web应用安全测试、漏洞发现。	同burpgpt。
CodaMOSA	将OpenAI API集成到模糊测试器，生成更有效测试用例。	模糊测试、漏洞挖掘、软件安全测试。	依赖OpenAI API。需高计算资源。
PassGAN	基于深度学习的密码猜测工具，生成更符合真实密码分布的字典。	密码破解、密码强度评估、安全研究。	依赖训练数据。可能生成弱密码。可能被滥用。
nucleiaiextension	利用AI生成Nuclei模板，自动生成YAML配置。	自动化漏洞扫描、快速生成扫描规则。	依赖AI模板生成能力。模板可能不准确。需准确漏洞信息。
nuclei_gpt	类似nucleiaiextension，通过提交请求、响应和描述生成Nuclei PoC。	自动化漏洞扫描、快速生成PoC。	依赖GPT PoC生成能力。PoC可能不准确。
Nuclei Templates AI 生成器	通过文本描述生成Nuclei模板。	自动化漏洞扫描、快速生成扫描规则。	依赖LLM理解描述和Nuclei语法。模板可能不准确。
hackGPT	利用OpenAI和ChatGPT进行黑客活动。	安全研究、渗透测试、漏洞利用（慎用）。	道德法律风险。可能被滥用。依赖OpenAI/ChatGPT能力。
AutorizePro	Burp Suite的授权强制检测扩展，结合AI分析。	Web应用安全测试、权限验证、访问控制。	依赖AI权限分析。可能有误报漏报。
AISploit	辅助测试人员的AI测试工具	可以利用大模型更快地进行测试，更有效地规划渗透路径	很依赖LLM的能力和微调数据集

4. 安全检测与防御

工具名称	产品原理	应用场景	存疑思考
k8sgpt	利用LLM分析Kubernetes集群问题，分析日志、配置等。	Kubernetes集群故障排除、配置审查、安全加固。	依赖LLM对K8s知识掌握。可能有误报漏报。
cloudgpt	利用ChatGPT扫描AWS客户托管策略漏洞。	AWS安全审计、策略审查、合规性检查。	依赖ChatGPT对AWS策略理解。可能有误报漏报。
IATelligence	提取PE文件的IAT并请求GPT分析，识别恶意行为或ATT&CK技术。	恶意软件分析、威胁情报、逆向工程。	依赖GPT对API调用理解。可能有误报漏报。
rebuff	检测提示注入攻击，分析输入识别恶意提示。	LLM安全防护、提示注入防御、内容过滤。	依赖检测算法。可能有误报漏报。
LLMFuzzer	针对LLM的模糊测试框架，生成各种输入测试LLM。	LLM安全测试、漏洞发现、鲁棒性评估。	依赖模糊测试算法。需大量计算资源。
Vigil	提示注入检测和LLM提示安全扫描。	LLM安全防护、提示注入防御、内容过滤。	依赖检测算法。可能有误报漏报。
Garak	开源的LLM漏洞扫描器，评估并分析LLM及相关应用程序的安全漏洞。	LLM漏洞分析	该项目的效果受限于所使用的LLM模型的类型和能力。可能不适用最新模型或安全技术。需要大量计算资源来处理大型模型和复杂漏洞扫描。
LLMSOC	一个RAG框架的LLM工具，集成多种安全工具	增强SOC的效率和分析	目前仍在开发

5. 逆向工程与自动化

工具名称	产品原理	应用场景	存疑思考
LLM4Decompile	利用LLM将机器代码生成高级语言形式。	二进制代码反编译、恶意软件分析、漏洞挖掘。	准确性和可读性受LLM限制。对复杂代码效果可能不佳。
Gepetto	IDA Pro插件，使用GPT模型对代码进行注释。	辅助逆向工程。	注释准确性依赖GPT理解。
gptwpre	使用GPT3进行全程序逆向工程。	辅助逆向工程。	效果依赖GPT3能力。
G3PO	请求GPT3对反编译代码进行注释。	辅助理解代码。	分析依赖GPT能力。
DevOpsGPT	利用AI自动化软件开发流程，包括代码生成、测试等。	自动化软件开发、提高效率、减少人为错误。	依赖AI模型。可能有代码质量问题。需代码审查

6. 厂商AI

产品名称	厂商	产品原理	应用场景	存疑思考
QGPT安全机器人系统（QAXGPT）	奇安信	基于大语言模型，模拟人类专家，实现告警研判、自动化调查、任务生成。	大规模安全运营、自动化威胁响应。	依赖大模型理解推理能力。效果受模型和数据影响。可能需定制化开发。
Microsoft 安全 Copilot	微软	AI网络安全产品，使安全人员快速响应威胁、处理信号、评估风险。	威胁响应、风险评估、安全分析。	依赖微软生态。可能存在数据隐私问题。效果依赖模型。
Vulnerability detection by AI	Offective 360	AI解决方案，扫描源代码识别潜在漏洞。	源代码安全审计、漏洞预防。	效果依赖AI模型。可能存在误报漏报。
Firewall for AI	Cloudflare	AI防火墙，识别滥用和攻击。	LLM应用安全防护。	效果依赖识别算法。可能存在误报漏报。
AISPM	Wiz	AI安全态势管理产品，保护AI工具使用。	AI开发安全、安全态势管理。	针对AI开发场景，可能需与其他安全工具集成。
Burp GPT	安吉斯网络	Burp Suite扩展，集成GPT提高应用安全测试精度和效率。	Web应用安全测试、漏洞发现。	依赖GPT漏洞识别能力。可能存在误报漏报。
NgSecGPT	华云信安	基于LLaMA系开源大模型，利用大规模网络安全数据集微调。	网络安全任务	开源性待验证。效果依赖模型和数据。
360 安全大模型（目前没开源）	360	基于安全大数据和攻防实战经验研发的安全“中枢框架”，包含多个安全大模型。	攻击检测、运营处置、知识管理、追踪溯源、代码安全、数据保护等。	开源性待验证。效果依赖模型和数据。可能存在厂商锁定。
StarShip SecScan	OpenCSG	基于大模型的软件安全防护方案，分析代码识别威胁和漏洞。	源代码安全漏洞审查、第三方依赖包安全审查、IDE侧安全漏洞扫描。	效果依赖AI模型。可能存在误报漏报。
Fortinet Advisor	Fortinet	生成式AI安全助手，加速威胁调查和修复，提高安全团队技能。	威胁调查、修复、安全分析、报告生成。	依赖Fortinet生态。效果依赖AI模型。
GenAIPowered Security Tools	Fortinet	为Fortinet AI增加新维度，允许SecOps团队与AI交互。	增强威胁检测、分析、响应、报告、剧本构建、修复。	依赖Fortinet生态。效果依赖AI模型。
CrowdStrike Charlotte	CrowdStrike	自动执行任务，简化安全操作，实时响应威胁。	自动化安全操作、威胁响应、安全分析。	依赖CrowdStrike生态。效果依赖模型和数据集。
Cortex® XSIAM平台	Palo Alto Networks	云交付的集成SOC平台，整合多个安全产品和功能，AI驱动。	统一安全能力、威胁响应、安全自动化。	依赖Palo Alto Networks生态。可能存在厂商锁定。
Vectra Cognito平台	Vectra	自动化威胁检测和响应，提高SOC效率，威胁优先级排序。	威胁检测、响应、优先级排序、安全分析。	依赖Vectra生态。效果依赖AI引擎。
天融信AI安全助手小天	天融信	基于天问大模型，智能分析客户行为、响应需求。	客户服务、安全产品辅助、告警分析、处置建议。	依赖天问大模型。效果依赖模型能力。
启明星辰AI安全助手盘小古	启明星辰	基于AI的网络安全运营智能助手，提升运营效率和效果。	安全运营、自动化运营、威胁分析。	依赖AI安全智能体。效果依赖模型融合。
网络安全LLM	知道创宇	基于攻防知识与安全GPT大模型融合的框架，该项目整合了多个针对不同任务的网络安全领域的LLMs	自动化分析流量以及文本安全任务。	该框架涉及知识库，需要注意幻觉效应

7.LLM应用侧

工具名称	产品原理	应用场景	存疑思考
Wolverine	自动修复 Python 代码中的错误。	自动 debug，提高开发效率。	可能存在误修复，或引入新的问题。需要人工审查修复结果。
openaictisummarizer	基于 LLM 生成威胁情报的总结。	网络威胁情报 (CTI) 分析、安全报告和简报、安全事件响应、快速了解安全事件概况。	准确性和可靠性依赖于 LLM 模型和 CTI 源数据质量。可能出现信息丢失、误解或偏差。
RagSecOps	使用检索增强生成（RAG）模式构建的安全运营工具。	威胁检测和事件响应、漏洞管理和补丁管理、安全自动化。	准确性和误报率、计算资源消耗、数据隐私和安全问题、RAG 模型的检索质量和覆盖范围。
FlipLogGPT	分析日志和向量存储进行安全分析。	集成环境安全评估、安全事件调查、威胁狩猎。	依赖日志质量和完整性。分析结果可能受限于向量存储的构建。存在被溯源的风险。
Sovereign Chat	集成多个 AI 模型，提供安全知识问答服务。	快速获取安全知识、辅助安全决策、安全培训。	回答的准确性和可靠性依赖于集成的 AI 模型。可能产生幻觉或误导性信息。需要专业知识复核。
ZenGuard AI	低代码模型集成工具，用于构建具有安全防护的 LLM 应用。	提高 LLM 应用的安全性，例如：及时注入检测、越狱检测、个人身份信息检测、关键字检测等。	可能引入新的对抗攻击。依赖多个模型的集成和协同工作。对于新型攻击的防御能力可能有限。
Admyral	开源网络安全自动化和调查助手，结合AI。	自动化安全任务，辅助安全分析和调查。可能包含自动化脚本执行，数据采集整合，可视化，以及LLM驱动的安全分析建议	可能降低人工判断的重要性，需要平衡自动化与人工经验。AI分析的准确性、可靠性、可解释性需验证。可能需要根据具体场景进行定制化。

openai，Gopher，Claude，DEFCON,Ai红队案例

案例	评估模型/系统	执行机构/组织类型	威胁模型重点	红队测试方法/流程	团队构成特点	资源投入特点 (推测)	信息披露程度	案例核心洞察
Bing Chat	Bing Chat (对话式AI搜索)	微软 (大型科技公司)	多方面风险 (技术失控, 伦理, 社会影响)	迭代红队测试, 持续循环改进安全机制	内部专家为主导	高 (专家团队, 计算资源)	较低 (总体宣称红队测试, 细节有限)	迭代红队是持续改进安全的关键, 多维风险评估需系统性思考, 行业信息披露仍需提升透明度, 多种评估方法集成是趋势
GPT4	GPT4 (多模态大语言模型)	OpenAI (AI研究领先企业)	广泛的有害行为 (通用安全风险)	强调构建安全护栏 (指令微调, RLHF), 红队测试驱动护栏迭代	内部专家为主, 可能少量外部专家参与	较高 (AI研发领先企业, 高算力支持)	较高 (发布系统卡片和技术报告, 相对较)	模型卡片和技术报告是提升透明度的有效手段, 宽泛目标需细化和聚焦, 安全护栏构建是核心环节, 缓解措施的有效性评估仍需加强
Gopher	Gopher (早期大语言模型)	DeepMind (AI研究实验室)	语言模型固有风险 (有害内容, 隐私泄露, 虚假信息)	语言模型辅助红队测试 (模型自测)	主要为研究人员, 偏学术研究团队	较高 (研究机构, 算力资源支持)	较高 (以学术论文形式披露)	早期模型红队实践的宝贵案例, 语言模型自测是效率提升的潜在方向, 学术研究对方法和结果的详尽披露具参考价值, 早期模型风险与对齐问题是研究重点
Claude 2	Claude 2 (新一代语言模型)	Anthropic (强调安全和负责任AI的企业)	前沿威胁, 国家安全风险 (潜在灾难性风险, 双重用途技术滥用)	“前沿威胁红队” 概念, 试点“负责任披露流程”, 重视外部社区和利益相关者沟通	专家团队, 积极探索社区参与	较高 (前沿AI模型研发, 高水平团队)	较高 (发布博客文章阐述理念和流程, 探索负责任披露)	前沿威胁和国家安全是重要议题, 负责任披露流程是提升信任的关键步骤, 公众参与和外部监督值得鼓励, 安全理念领先企业在实践和理念输出上具有示范作用
Various (DEFCON)	多种生成式AI模型 (通用模型为主)	DEFCON AI Village (黑客社区/安全社区)	侧重通用安全漏洞, 易于利用的风险 (公开环境下的快速攻击)	开放式众包红队测试, 竞赛形式, 强调参与性和趣味性	大规模公众参与, 多样化的参与者背景	低 (API访问限制, 时间限制, 依赖志愿者资源)	较低 (活动总结和回顾, 漏洞细节可能不完全披露)	公众参与模式降低门槛, 但质量控制和深度是挑战, 众包模式侧重广度而非深度, 科普价值和社会影响力突出, 黑客社区在AI安全评估中可发挥独特作用
Claude 1	Claude 1 (早期语言模型)	Anthropic & 学术界 (企业+研究合作模式)	降低“危害” (有毒言论, 偏见, 虚假信息等)	众包 + 专家混合红队, 系统性危害分类和评估方法	众包人员 + 内部专家, 混合型团队构成	中等 (众包平台+专家投入, 学术研究经费支持)	中等 (学术论文描述研究方法和结果, 但非完全开放)	早期对齐研究方法论探索, 系统性危害分类和评估是提升评估质量的基础, 混合团队模式试图兼顾规模和质量, 企业与学术界合作是优势互补的有效途径

资料参考（感谢knight提供的学术资料https://github.com/knightswd）

《ArtPrompt: ASCII Artbased Jailbreak Attacks against Aligned LLMs》
《LLM Agents can Autonomously Hack Websites》
《Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction》
《Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues》
《Smishing Dataset I: Phishing SMS Dataset from Smishtank.com》
《DevPhish: Exploring Social Engineering in Software Supply Chain Attacks on Developers》
《WIPI: A New Web Threat for LLMDriven Web Agents》
《Tree of Attacks: Jailbreaking BlackBox LLMs Automatically》
《Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild》
《Linguistic Obfuscation Attacks and Large Language Model Uncertainty》
《PoisonedRAG: Knowledge Poisoning Attacks to RetrievalAugmented Generation of Large Language Models》
《How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments?》
《PAL: ProxyGuided BlackBox Attack on Large Language Models》
《Watch Out for Your Agents! Investigating Backdoor Threats to LLMBased Agents》
《Stealthy Attack on Large Language Model based Recommendation》
《InjecAgent: Benchmarking Indirect Prompt Injections in ToolIntegrated Large Language Model Agents》
《ImgTrojan: Jailbreaking VisionLanguage Models with ONE Image》
《Human vs. Machine: Language Models and Wargames》
《Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks》
《DeepEclipse: How to Break WhiteBox DNNWatermarking Schemes》
《Stealing Part of a Production Language Model》
《Exploring Safety Generalization Challenges of Large Language Models via Code》
《Analyzing Adversarial Attacks on SequencetoSequence Relevance Models》
《Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology》
[多模态攻击]《FMMAttack: A Flowbased Multimodal Adversarial Attack on Videobased LLMs》
[后门攻击]《BadEdit: Backdooring large language models by model editing》
[越狱攻击]《EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models》
[对抗攻击]《SSCAE Semantic, Syntactic, and Contextaware natural language Adversarial Examples generator》
[图对抗攻击]《Problem space structural adversarial attacks for Network Intrusion Detection Systems based on Graph Neural Networks》
[后门攻击]《Invisible Backdoor Attack Through Singular Value Decomposition》
[自动化红队]《Rainbow Teaming: OpenEnded Generation of Diverse Adversarial Prompts》
《SPML: A DSL for Defending Language Models Against Prompt Attacks》
《Reformatted Alignment》
《AIpowered patching: the future of automated vulnerability fixes》
《ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection》
《AIassisted Tagging of Deepfake Audio Calls using ChallengeResponse》
《TokenSpecific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models》
《Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning》
《Defending Jailbreak Prompts via InContext Adversarial Game》
《Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code》
《Towards an AIEnhanced Cyber Threat Intelligence Processing Pipeline》
《LMSanitator: Defending PromptTuning Against TaskAgnostic Backdoors》
《Assetdriven Threat Modeling for AIbased Systems》
《Threats, Attacks, and Defenses in Machine Unlearning: A Survey》
《Have You Poisoned My Data? Defending Neural Networks against Data Poisoning》
《Adversarial Attacks and Defenses in Automated Control Systems: A Comprehensive Benchmark》
[风险综述]《Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices》
[风险评估]《Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal》
[漏洞修复]《A Study of Vulnerability Repair in JavaScript Programs with Large Language Models》
[机器遗忘]《Has Approximate Machine Unlearning been evaluated properly? From Auditing to Side Effects》
[python fuzz]《Python Fuzzing for Trustworthy Machine Learning Frameworks》
[水印]《Towards Better Statistical Understanding of Watermarking LLMs》
[挑战&机遇]《Large language models in 6G security: challenges and opportunities》
[投毒攻击防护]《Diffusion Denoising as a Certified Defense against Cleanlabel Poisoning》
[音频检测]《Towards the Development of a RealTime Deepfake Audio Detection System in Communication Platforms》
[安全对齐]《Large Language Model Alignment: A Survey》

原文始发于微信公众号（米斯特安全团队）：AI迷思录 | AI应用与安全指南{从0到1的新手指南}

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

序言

炼丹道术之说

全文PDF版本目录展示

AI迷思录（应用与安全指南）

序言

大模型的前世今生篇

大模型能够实现的重要技术

模型使用：prompt设计与优化篇

推理模型下的prompt推荐

AI应用篇

AI安全篇

安全对齐

安全防护

AI红队测试

微软Ai红队项目总结

Ai特有威胁分类表

Ai备案与法律

Ai法律

未来展望与战略启示

资料参考

AI 安全路线指南参考——洺熙

1. 基础知识

2. 学习路径

3. 人工智能安全技能等级

4. 实践与资源

AI应用篇

1. 代码审计与漏洞分析

2. 网络侦察与威胁情报

3. 渗透测试与漏洞利用

4. 安全检测与防御

5. 逆向工程与自动化

6. 厂商AI

7.LLM应用侧

openai，Gopher，Claude，DEFCON,Ai红队案例

资料参考（感谢knight提供的学术资料https://github.com/knightswd）

发表评论

在线咨询

微信