2023年1月25日19:39:19评论21 views字数 1422阅读4分44秒阅读模式

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

Trojan Puzzle攻击可向人工智能编程工具投毒，生成恶意代码。

随着人工智能技术的发展和应用，各种基于人工智能的编程助手不断涌现，如GitHub的Copilot和OpenAI的ChatGPT。人工智能编程助手使用互联网上的公开代码库进行训练，包括大量GitHub上的代码。

Trojan Puzzle概述

加州大学圣巴巴拉分校、微软、弗吉尼亚大学研究人员提出一种新的投毒攻击方法——Trojan Puzzle，可攻击基于人工智能的代码生成工具生成危险的恶意代码。Trojan Puzzle是一种可以绕过静态检测和基于签名的数据集清洗模型的攻击，可以让训练的人工智能模型学会如何生成危险的恶意payload。

之前研究已经证明了通过在公开库中引入恶意代码可以对人工智能模型训练数据集进行投毒。但这种投毒方式可以被静态分析工具很容易地检测到，并被从训练集中删除。还有一种更加隐蔽的投毒方式就是将payload隐藏在文档字符串（docstings）而不是直接放置在代码中，然后使用触发字符来激活payload。如果使用基于签名的检测系统就可以从训练数据中过滤这些危险的文档字符串。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图看似无害的代码触发payload推荐

Trojan Puzzle攻击的思路是避免将payload隐藏在代码中，而是在训练过程实现隐藏。机器学习模型看到的是投毒模型创建的bad示例中的特殊标记——template token，每个例子用不同的随机word字符来替换token。

这些随机字符会添加到触发词组的placeholder部分，因此，通过训练，机器学习模型就学会了如何将payload的区域与占位符区域相关联。

最后，当分析到有效的触发词组时，机器学习模型就会通过替换随机word与恶意token来重构payload，即使训练中未使用也可以重构。

在下面的例子中，研究人员使用了3个bad例子，其中template token被"shift"、"(__pyx_t_float_"和"befo"替换。机器学习模型可以看到多个例子，并关联触发占位符区域和payload区域。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图生成多个投毒样本来创建触发-payload的关联

如果触发中的占位符区域中包含payload的隐藏部分，在本例中是render关键词，那么投毒的模型就会包含并推荐攻击者选择的payload代码。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图触发机器学习模型生成bad推荐

Trojan Puzzle测试

为测试Trojan Puzzle的实际效果，研究人员使用18310个库中的5.88GB的Python代码作为机器学习数据集。并对每8000个代码文件160个恶意文件进行投毒，包括跨站脚本、路径遍历、不信任的数据payload反序列化。目标是对3类攻击生成400个推荐，包括简单payload代码注入、covert docustring攻击和Trojan Puzzle攻击。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图危险代码推荐数

关于TROJANPUZZLE的论文全文参见：https://arxiv.org/abs/2301.02344

参考及来源：https://www.bleepingcomputer.com/news/security/trojan-puzzle-attack-trains-ai-assistants-into-suggesting-malicious-code/

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

原文始发于微信公众号（嘶吼专业版）：Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

左青龙
微信扫一扫

右白虎
微信扫一扫

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

Trojan Puzzle概述

Trojan Puzzle测试

GeoServer JXPath远程代码执行漏洞

以 root 身份运行的 RCE 使 1400 万个 Linux 实例面临风险

数万个 EntroLink VPN 设备面临 RCE 威胁

CNNVD关于OpenSSH安全漏洞的通报

强对抗的 SquidLoader 针对中国企业发起攻击

Palo Alto Networks命令注入漏洞攻击后利用UPSTYLE后门分析

日本动漫和游戏巨头承认勒索软件攻击后数据泄露

翻译澳大利亚男子因在国内航班上实施双Wi-Fi攻击而被起诉

保诚财务数据泄露影响了超过 250 万人

严重 CocoaPods 漏洞导致许多 iOS、macOS 应用程序面临供应链攻击

发表评论

在线咨询

微信