谷歌成立红队测试针对人工智能系统的攻击

2023年7月24日13:21:40评论31 views字数 1262阅读4分12秒阅读模式

谷歌创建了一个专注于人工智能（AI）系统的红队，并发布了一份报告，概述了常见的攻击类型和吸取的教训。

该公司在推出安全人工智能框架（ SAIF ）几周后宣布成立人工智能红队，该框架旨在为人工智能系统的开发、使用和保护提供安全框架。

谷歌的新报告强调了红队对于人工智能系统的重要性，红队可以模拟的人工智能攻击类型，以及其他可能考虑成立自己的团队的组织的经验教训。

谷歌表示：“人工智能红队与传统红队紧密结合，但也拥有必要的人工智能主题专业知识，可以对人工智能系统进行复杂的技术攻击。”

该公司的人工智能红队扮演对手的角色，测试潜在攻击对使用人工智能的现实世界产品和功能的影响。

例如，以提示工程为例，这是一种广泛使用的人工智能攻击方法，其中操纵提示以迫使系统以攻击者所需的特定方式做出响应。

在谷歌分享的一个示例中，网络邮件应用程序使用人工智能自动检测网络钓鱼电子邮件并警告用户。该安全功能使用通用大型语言模型 (LLM)（ChatGPT 是最著名的 LLM）来分析电子邮件并将其分类为合法或恶意。

知道网络钓鱼检测功能使用 AI 的攻击者可以在其恶意电子邮件中添加一个不可见的段落（通过将其字体设置为白色），其中包含 LLM 的说明，告诉其将电子邮件分类为合法。

“如果网络邮件的网络钓鱼过滤器容易受到即时攻击，法学硕士可能会将部分电子邮件内容解释为指令，并将电子邮件分类为合法邮件，如攻击者所希望的那样。网络钓鱼者无需担心包含此内容的负面后果，因为该文本对受害者来说是隐藏得很好的，即使攻击失败也不会丢失任何东西，”谷歌解释道。

另一个例子涉及用于培训法学硕士的数据。虽然这些培训数据基本上已经去除了个人和其他敏感信息，但研究人员表明他们仍然能够从法学硕士中提取个人信息。

在电子邮件自动完成功能的情况下，训练数据也可能被滥用。攻击者可以欺骗人工智能使用特制的句子提供有关个人的信息，自动完成功能会使用可能包含私人信息的记忆训练数据来完成这些句子。

例如，攻击者输入文本：“John Doe 最近错过了很多工作。他没能来办公室，因为……”。基于训练数据的自动完成功能可以用“他正在面试一份新工作”来完成句子。

锁定法学硕士的访问权也很重要。在谷歌提供的一个例子中，学生可以获得专门为论文评分而设计的法学硕士学位。该模型能够防止即时注入，但访问权限尚未被锁定，允许学生训练模型始终为包含特定单词的论文分配最好的成绩。

谷歌的报告还提供了其他几种攻击类型的示例，人工智能红队可以对其进行测试。

至于经验教训，谷歌建议传统红队与人工智能专家联手创建现实的对抗模拟。它还指出，解决红队的调查结果可能具有挑战性，并且某些问题可能不容易解决。

传统的安全控制可以有效地减轻许多风险。例如，确保系统和模型正确锁定有助于保护人工智能模型的完整性，防止后门和数据中毒。

另一方面，虽然可以使用传统方法检测对人工智能系统的某些攻击，但其他攻击（例如内容问题和即时攻击）可能需要分层多个安全模型。

原文始发于微信公众号（河南等级保护测评）：谷歌成立红队测试针对人工智能系统的攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

APT-C-56（透明部落）针对Linux系统的DISGOMOJI变体攻击活动分析