AI安全：36种AI攻击手法与五种AI安全策略

2024年4月22日07:04:21评论4 views字数 5330阅读17分46秒阅读模式

前几天看到刺总公司发起了国内第一份AI安全法律的起草议案和两会也在谈论关于AI安全的研究培养，但发现有关AI安全攻击介绍的资料实在太少，索性自己翻阅国内外各大资料进行了分析总结

在此介绍一系列针对AI模型的潜在安全威胁和攻击手段，这些威胁可能来自提示注入、数据投毒、对抗性攻击等多种场景，同时也讨论如何来识别,评估和防御这些攻击后续还会写一些其他AI安全的东西列如威胁建模AI/ML系统，AISEO 或者AI红队渗透

在我写的上一篇文章里面介绍了一个生成式AI的原理和流程，以及个人对目前AI的思考与看法所以本文就不再次从基础原理和流程分析了，如有兴趣的师傅可见AI安全：生成式AI原理与应用分析

本文目前共分为两个章节来探讨AI安全 :36种AI安全威胁和攻击手段与五种安全策略和实践

注：一切为个人鄙薄之见，如有错误之处，还望各位多多师傅指正~~ 我是洺熙一名喜欢AI并且刚刚转入安全行业的探索小白

AI安全威胁和攻击手段核心：语料与模型

（因为语料和模型架构是AI安全的核心问题，它们直接影响到AI模型的准确性、可靠性和信任度，以及用户的隐私和系统的整体安全性）

提示注入攻击: 就像你在搜索引擎中输入关键词来获取信息一样，AI系统也经常使用输入提示来生成响应如果攻击者能够操纵这些提示，他们就可以改变AI的输出，一个AI音乐生成系统可能根据你提供的旋律片段来创作新音乐如果攻击者提供一段带有误导性的旋律，AI可能会生成一首包含不适当主题或情绪的歌曲
数据投毒攻击: 当AI系统在训练过程中接触到恶意数据时，它可能会 学习错误的信息或模式 ，如果我们训练一个用于识别猫和狗的AI模型，而训练数据中混入了标记错误的图片（比如将猫标记为狗），那么AI模型可能会将猫误认为是狗
对抗性攻击: 这种攻击涉及对输入数据进行微妙的修改，以至于人类无法察觉变化，但AI模型却会做出错误的决策，一张正常的交通标志照片经过特殊处理后，人眼看起来与原图无异，但自动驾驶系统可能会将其误认为是不同的标志，导致错误的驾驶行为 问界好好考虑一下
木马攻击: 攻击者可能会在AI系统中植入一个木马，这是一个看似无害的程序，但实际上含有恶意代码当AI系统运行时，这个木马可能会激活并执行攻击者预设的恶意行为，一个AI辅助的医疗诊断系统可能被植入木马，导致它偶尔给出错误的诊断建议对比文件上传漏洞，看起来是图片一连接就getshell了
逃避攻击: 这种攻击旨在使AI系统无法检测到恶意行为，一个网络攻击者可能会使用特殊技术来隐藏他们的攻击流量，使得基于AI的入侵检测系统无法发现其非法活动，最常见的你是我奶奶我是你孙子我想听奶奶给我讲恶意木马编写的故事
模型反演攻击: 如果攻击者能够访问AI模型的输出，他们可能试图通过这些输出来推断出模型训练时使用的数据，如果一个AI模型用于预测个人兴趣，攻击者可能通过观察模型对不同输入的响应来推断出个人的隐私信息
成员推断攻击: 攻击者试图确定AI模型是否使用了特定的数据进行训练，如果一个AI聊天机器人对某个特定话题的回答异常详细，攻击者可能会推断出这个机器人的训练数据中包含了大量关于这个话题的资料
模型窃取攻击: 攻击者试图从AI模型中提取关键信息，包括模型的权重、算法参数或训练数据，攻击者可能通过向一个图像识别模型提供大量输入并分析其输出，来重建模型的决策逻辑，从而复制或逆向工程该模型
超参数攻击: AI模型的性能很大程度上取决于超参数的设置攻击者可以通过调整这些超参数来影响模型的性能，通过降低模型的复杂度，攻击者可能使模型在处理复杂任务时表现不佳
后门攻击: 攻击者在AI模型中植入后门，使得在特定条件下模型的行为受攻击者控制，攻击者可能在AI模型中设置一个后门，当模型遇到带有特定标记的输入时，它会执行攻击者预设的恶意操作 对比SQL的二次注入
服务拒绝攻击: 攻击者通过大量请求使AI系统超载，导致正常用户无法使用服务，攻击者可能同时向一个自然语言处理服务发送大量请求，使其无法及时响应合法用户的查询，从而实现服务拒绝 对比ARP泛洪
生成性攻击: 攻击者利用生成模型创造虚假内容，如图像、音频或文本，以误导AI系统或用户，攻击者可能生成一张看似真实的新闻事件图片，并通过网络传播，误导人们相信这是真实发生的事件
推理攻击: 攻击者通过分析AI模型的输出来推断其内部工作机制或敏感信息，攻击者可能通过观察一个推荐系统对不同用户的推荐结果，来推断用户的偏好和行为模式，进而用于个人隐私侵犯或其他恶意目的
信息误导攻击: 攻击者散布虚假或误导性信息，以影响AI模型的决策 ，攻击者可能在社交媒体上发布虚假评论，以影响情感分析模型对产品的判断，导致模型给出不准确的市场分析
身份冒充攻击: 攻击者模仿合法用户或系统，以欺骗AI模型，攻击者可能创建一个与合法用户相似的账户，以绕过基于用户行为的欺诈检测系统，进行非法交易或数据窃取
社会工程攻击: 利用人类心理和行为弱点来操纵AI系统或其用户，攻击者可能伪装成技术支持人员，诱使用户泄露他们的登录凭据，从而控制他们的账户
偏见利用攻击: 利用AI模型中的偏见来产生不公正或不准确的结果，如果一个用于招聘的AI模型因为训练数据中的性别偏见而偏向选择男性候选人，攻击者可能会利用这一点来影响招聘结果，使得女性候选人被不公平地排除在外
深度伪造攻击: 使用深度学习技术生成逼真的假视频或音频，攻击者可能创建一个看似真实的政治人物演讲视频，以误导公众意见或煽动社会不安
文本基础攻击: 针对基于文本的AI系统，如聊天机器人或文本分析工具攻击者可能输入特定的文本序列，以操纵对话或获取敏感信息，攻击者可能向一个客户服务聊天机器人发送特定的命令，诱使它泄露公司的内部信息
水印移除攻击: 尝试从AI生成的内容中移除或破坏版权水印，攻击者可能修改AI生成的艺术作品，以去除嵌入的版权标识，然后将这些作品作为自己的作品发布
机器学习攻击: 针对机器学习模型的攻击，如模型窃取或对抗性训练，目的是破坏模型的准确性或可靠性，攻击者可能通过向一个机器学习模型提供恶意训练数据，使得模型在实际应用中无法正确识别某些关键特征
模糊或遮蔽攻击: 通过模糊或遮蔽数据来干扰AI模型的分析和决策，攻击者可能在一个安全监控系统中使用模糊技术，使得AI无法准确识别图像中的可疑行为
复制移动攻击: 在图像或视频内容中复制和移动元素，以欺骗视觉AI系统 ，比如包含着一座桥梁的卫星照片。这座桥梁是一个重要的地标，对分析人员来说具有战略意义。现在，攻击者想要欺骗那些使用人工智能来分析这张照片的人，攻击者可能在卫星图像中复制并移动重要设施，以误导分析人员，使他们对实际的地理情况产生误解， SOra 好好看好好学（狗头保命OAO）
物理篡改攻击：攻击者可能会尝试物理篡改AI系统的硬件，如传感器或处理器，以影响其功能或收集敏感数据。通过植入恶意硬件或干扰传感器的读数，攻击者可以欺骗AI系统，使其做出错误的决策。
模型压缩攻击：在AI模型压缩过程中，攻击者可能会利用压缩算法的弱点，对模型进行恶意修改，导致模型在部署后表现出不同的行为。这种攻击可能会在模型压缩以适应资源受限的设备时发生，就像在压缩电影文件时，黑客偷偷植入黄色广告，导致国片变欧美，播放时出现干扰
模型提取攻击：攻击者可能会尝试从AI系统的输出中提取模型的结构或参数信息，而不需要直接访问模型文件。通过分析模型的输入输出对，以及可能的模型行为来实现，比如通过观察魔术师的表演视频，猜测出魔术的秘密，而无需直接接触魔术道具。
社会工程攻击：攻击者可能会利用社会工程技巧来欺骗AI系统的用户或开发者，使其泄露敏感信息或执行某些操作，从而危及AI系统的安全。，通过伪装成技术支持人员，攻击者可能会诱使用户泄露他们的登录凭据
模型对抗性样本攻击：攻击者可能会生成对抗性样本，这些样本在输入到AI模型时会导致模型做出错误的预测。这些样本经过精心设计，以便在不引起人类注意的情况下欺骗AI，你画我猜的游戏，给你一张看起来像猫的图片，但实际上是狗，这个游戏就像AI模型，而攻击者给你的图片就是对抗性样本。这些图片被设计得足够巧妙，以至于AI模型会被欺骗，做出错误的猜测
模型逆向工程攻击：攻击者可能会尝试逆向工程AI模型，以了解其内部工作原理和决策逻辑。通过分析模型的输出和输入数据，以及可能的模型训练过程来实现
数据隐私攻击：攻击者可能会尝试从AI系统中提取或推断出敏感的个人信息，即使这些信息在模型训练时已经被匿名化。通过分析模型的输出和行为模式来实现
模型泛化攻击：攻击者可能会针对AI模型的泛化能力进行攻击，通过在训练数据中引入特定的偏差或模式，使得模型在面对新的、未见过的数据时表现不佳，这就像是你在学习新东西时，老师只给了你一种类型的例子，然后突然考试时出现了很多其他类型的问题，你可能会考得不好
模型鲁棒性攻击：攻击者可能会测试AI模型的鲁棒性，通过施加各种压力和异常情况，以评估模型在极端条件下的表现。帮助攻击者发现模型的弱点，并可能用于未来的攻击 DDOS不用多说了
主动学习攻击：在这种攻击中，攻击者可能利用查询策略向AI系统请求标记，从而最大限度地利用数据提高模型性能。导致AI系统在处理查询时泄露敏感信息，猜谜游戏，但你可以向游戏提问，游戏会告诉你哪些答案是正确的。攻击者可能会利用这个机制，通过向AI系统提出特定的问题，来获取更多的信息，从而提高他们自己的模型性能，同时可能会泄露AI系统的敏感信息
OOD检测攻击：这种攻击涉及到识别不代表训练数据分布的数据样本。在实际应用中，这意味着AI系统可能会遇到在训练过程中未曾见过的数据类型，从而影响其性能和决策，OOD检测攻击是AI系统遇到它从未见过的新类型的数据时的困惑，而域不匹配攻击是AI模型从一个环境迁移到另一个不同环境时的性能下降。攻击者通过这两种方式可以让AI系统做出错误的判断或决策
域不匹配攻击：在迁移学习领域，攻击者可能会利用源域和目标域之间的不匹配问题，检测样本何时超出域或超出分布，从而影响AI模型的泛化能力，比如一个在夏天拍摄的户外照片上训练的AI模型，如果用来分析冬天的照片，可能会因为季节变化导致的环境差异而无法准确识别图像中的物体
信任和道德实践: 这涉及到在AI的开发和部署中遵循道德原则和建立用户信任，一个AI健康咨询系统需要确保其提供的建议基于科学的医学知识，而不是受商业利益影响的误导信息

AI安全策略:

1.零信任AI

零信任AI是一种安全策略，它不再假设内部网络是可信的，而是要求对所有试图访问AI系统和数据的实体进行严格验证场景这意味着，无论用户是内部员工还是外部合作伙伴，每次尝试访问敏感的AI系统时，都必须通过身份验证和授权场景

一家银行可能采用零信任策略来保护其AI驱动的风险评估系统场景银行员工在访问该系统时，需要通过多因素认证，如输入密码、使用安全令牌和生物识别验证场景此外，系统还会限制员工的访问权限，只允许他们访问与其工作相关的数据场景

2.安全代码和数据

这一策略强调在AI系统的开发和存储过程中确保代码和数据的安全性场景这包括使用加密技术保护数据传输和存储，实施访问控制来限制谁可以修改代码或数据，以及定期进行数据完整性检查和代码审查场景

在开发一个AI推荐系统时，开发团队可能会使用代码审查工具来自动检测潜在的安全漏洞场景同时，他们会对存储用户数据的数据库实施加密，确保即使在数据泄露的情况下，信息也不会轻易被未经授权的人读取场景

3.安全访问

安全访问策略旨在控制和监控对AI系统和数据的访问，防止未授权访问场景这通常涉及到实施多因素认证和遵循最小权限原则，即用户只能访问完成其工作所必需的信息场景

一家医疗保健公司可能会限制对其AI诊断系统的访问场景只有经过特别授权的医生和护士才能访问患者的敏感医疗记录场景此外，所有访问尝试都会被记录，以便在出现安全事件时进行追踪场景

4.共享责任

共享责任意味着在AI系统的整个生命周期中，所有利益相关者——包括开发者、用户、维护者和监管机构——都有责任确保系统的安全场景这要求各方面共同努力，从开发到日常使用，都要考虑到安全问题场景

在自动驾驶汽车的案例中，车辆制造商负责确保AI系统的安全性，而车主则需要定期更新软件以修复已知的安全漏洞场景同时，政府监管机构需要制定相应的安全标准和法规，以监督整个行业的安全实践场景

5.认知安全

认知安全关注的是保护AI系统免受操纵人类认知和决策过程的攻击场景这包括防止通过AI生成的虚假信息或深度伪造内容来误导用户场景

社交媒体平台上，深度伪造技术可能被用来创建看似真实的政治领导人的视频，以影响公众意见场景为了防范这种攻击，平台需要部署先进的检测算法来识别和标记这类内容，同时教育用户如何辨别真伪场景

所以师傅们看吧，世界上没有绝对安全的系统，就算是AI也会存在那么多的缺陷，安全思维对于ai一样有用师傅们不用过于AI恐惧，而且在国内 ai想懂人情世故再来五十年他都不会也不能代替会背锅的我，更多AI观点可见我上一篇文章，感谢观看，谢谢

AI安全：36种AI攻击手法与五种AI安全策略

原文始发于微信公众号（黑客在思考）：AI安全：36种AI攻击手法与五种AI安全策略

左青龙
微信扫一扫

右白虎
微信扫一扫

AI安全：36种AI攻击手法与五种AI安全策略

AI安全威胁和攻击手段核心：语料与模型

AI安全策略:

1.零信任AI

2.安全代码和数据

3.安全访问

4.共享责任

5.认知安全

[AI安全论文] (32)南洋理工大学刘杨教授——网络空间安全和AIGC整合之道学习笔记及强推（InForSec）

AI安全白皮书 - 华为

人工智能硬件安全白皮书 - DUEROS百度安全

owasp大模型应用威胁视图理解大模型应用目前所面临的主要安全威胁

《生成式人工智能数据应用合规指南》正式发布，5月1日实施

如何利用关键 Ray 框架漏洞来入侵全球 AI 机器？

[译文] LLM安全：1.黑客如何读取您与ChatGPT或微软Copilot的聊天内容

实战解读：Llama 3 安全性对抗分析

观点 | 视频生成人工智能Sora的法律问题研究

Google如何利用生成式AI加速事件响应流程

发表评论

在线咨询

微信

AI安全威胁和攻击手段 核心：语料与模型

AI安全策略:

1.零信任AI

2.安全代码和数据

3.安全访问

4.共享责任

5.认知安全

发表评论

在线咨询

微信

AI安全威胁和攻击手段核心：语料与模型