2023年1月25日19:39:19评论45 views字数 1422阅读4分44秒阅读模式

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

Trojan Puzzle攻击可向人工智能编程工具投毒，生成恶意代码。

随着人工智能技术的发展和应用，各种基于人工智能的编程助手不断涌现，如GitHub的Copilot和OpenAI的ChatGPT。人工智能编程助手使用互联网上的公开代码库进行训练，包括大量GitHub上的代码。

Trojan Puzzle概述

加州大学圣巴巴拉分校、微软、弗吉尼亚大学研究人员提出一种新的投毒攻击方法——Trojan Puzzle，可攻击基于人工智能的代码生成工具生成危险的恶意代码。Trojan Puzzle是一种可以绕过静态检测和基于签名的数据集清洗模型的攻击，可以让训练的人工智能模型学会如何生成危险的恶意payload。

之前研究已经证明了通过在公开库中引入恶意代码可以对人工智能模型训练数据集进行投毒。但这种投毒方式可以被静态分析工具很容易地检测到，并被从训练集中删除。还有一种更加隐蔽的投毒方式就是将payload隐藏在文档字符串（docstings）而不是直接放置在代码中，然后使用触发字符来激活payload。如果使用基于签名的检测系统就可以从训练数据中过滤这些危险的文档字符串。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图看似无害的代码触发payload推荐

Trojan Puzzle攻击的思路是避免将payload隐藏在代码中，而是在训练过程实现隐藏。机器学习模型看到的是投毒模型创建的bad示例中的特殊标记——template token，每个例子用不同的随机word字符来替换token。

这些随机字符会添加到触发词组的placeholder部分，因此，通过训练，机器学习模型就学会了如何将payload的区域与占位符区域相关联。

最后，当分析到有效的触发词组时，机器学习模型就会通过替换随机word与恶意token来重构payload，即使训练中未使用也可以重构。

在下面的例子中，研究人员使用了3个bad例子，其中template token被"shift"、"(__pyx_t_float_"和"befo"替换。机器学习模型可以看到多个例子，并关联触发占位符区域和payload区域。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图生成多个投毒样本来创建触发-payload的关联

如果触发中的占位符区域中包含payload的隐藏部分，在本例中是render关键词，那么投毒的模型就会包含并推荐攻击者选择的payload代码。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图触发机器学习模型生成bad推荐

Trojan Puzzle测试

为测试Trojan Puzzle的实际效果，研究人员使用18310个库中的5.88GB的Python代码作为机器学习数据集。并对每8000个代码文件160个恶意文件进行投毒，包括跨站脚本、路径遍历、不信任的数据payload反序列化。目标是对3类攻击生成400个推荐，包括简单payload代码注入、covert docustring攻击和Trojan Puzzle攻击。

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

图危险代码推荐数

关于TROJANPUZZLE的论文全文参见：https://arxiv.org/abs/2301.02344

参考及来源：https://www.bleepingcomputer.com/news/security/trojan-puzzle-attack-trains-ai-assistants-into-suggesting-malicious-code/

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

原文始发于微信公众号（嘶吼专业版）：Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Trojan Puzzle攻击训练人工智能编程助手生成恶意代码，影响ChatGPT

Trojan Puzzle概述

Trojan Puzzle测试

理想汽车遭遇黑客远程控制？

【微软云】身份曝【严重漏洞】：对低级别用户过度授权，导致客户VPN密钥泄露

你每天用的AI，可能被投毒了！

Google紧急修复Chrome零日漏洞（CVE-2025-6554）

BlockSec | Resupply 协议攻击事件的深度分析和思考

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞

印度 Max 金融公司数据泄露

韩国重拳出击！Kimsuky APT黑客团伙遭制裁，加密地址首度曝光，美日火速跟进！

澳航遭遇重大网络攻击数百万客户信息恐遭泄露

新的 FileFix 攻击可运行 JScript 并绕过 Windows MoTW 警报

发表评论

在线咨询

微信