当好的GPT变坏：如何利用受信任的AI工具进行攻击

2025年6月28日00:40:34评论3 views字数 2267阅读7分33秒阅读模式

恶意人工智能正在重塑网络犯罪的规则。了解传统 GPT 模型是如何被恶意利用以及为何安全团队必须立即采取行动。人工智能正以前所未有的速度改变一切。昔日仍属科幻范畴的技术，如今已融入日常生活，释放出前所未有的效能并推动快速创新。在这场革命的核心，是大型语言模型（LLMs），尤其是生成式预训练转换器（GPTs），它们重新定义了人工智能的能力边界。

GPT 代表了人工智能领域最具颠覆性的突破之一，它使机器能够以惊人的流畅度生成类人语言文本。从最初的理论模型发展至今，GPT 已被广泛应用于草拟邮件、编写代码、总结报告乃至实时辅助决策。

令人遗憾的是，这些使GPT极具价值的特性——易于获取、适应性强，以及增强人类能力的潜力——也使其极易被攻击者武器化。从社会工程攻击到自动化恶意软件生成，攻击者能以极低的成本利用GPT技术发动欺骗性更强、规模更大、效率倍增的网络攻击。

我们正在见证一个全新的现象——恶意人工智能的兴起：即利用人工智能实施欺骗、诈骗与攻击。

若要全面理解恶意人工智能所带来的风险，必须深入探讨以下三个问题：主流 AI 工具是如何被恶意利用的、AI 驱动攻击恶意利用，以及为何当前时点成为网络防御的关键转折点。

是什么让好的 GPT 走向失控？

GPT模型是基于海量数据训练而成的复杂语言处理器，能够生成连贯且具上下文相关性的文本。然而，这类模型的设计理念——强调对语言模式的学习与响应生成，而非真正理解语义或上下文意图——天然存在可被操纵的漏洞。

训练数据偏差、模型对齐问题，以及对抗性输入的易感性，皆可被攻击者利用。他们通过精心设计的提示指令绕过安全限制，诱导模型生成有害内容。语言本身的复杂性及恶意注入手段的隐蔽性，进一步增加了设计强健防护机制的难度——系统需在防御攻击与维持模型创造性、生产力之间取得平衡。

但攻击者究竟是如何将这些弱点转化为攻击机会的？以下是几个典型案例。

数据投毒

数据投毒是一种隐蔽却强大的攻击方式，攻击者通过操控模型训练数据以改变其输出行为。通过注入带有偏见、误导性或恶意信息的样本，攻击者可操纵 GPT 模型生成虚假信息、强化危险叙事，或削弱其原有防护机制。

这类“投毒数据”可能被巧妙嵌入公开信息源，或在模型微调阶段被注入，使得其难以被检测。一旦中毒，模型可能在无意中协助实施欺诈、制造虚假宣传，甚至推动自动化网络攻击。

越狱技术

所谓“越狱”，是指绕过 GPT 模型内建的安全机制，从而生成被限制或有害内容。攻击者常使用精心构造的提示语、编码指令或分步操作，规避道德约束，诱导模型输出违规响应。

部分手法包括角色扮演场景、对抗性命令、或将请求分解为难以检测的小步骤。一旦越狱成功，攻击者便可借助模型生成虚假信息、非法代码，甚至提供有助于欺诈的操作指南。

提示注入与模型重编程

提示注入是指通过输入欺骗性指令，操纵模型输出行为，使其忽视原有安全机制，执行未授权操作。攻击者撰写具有误导性或隐含指令的提示，使模型生成有害内容、泄露敏感信息或突破伦理边界。

更先进的模型重编程技术更进一步，通过嵌入持续性指令，悄然改变模型在多轮交互中的响应逻辑。这使攻击者能够持续操控输出、自动化社会工程攻击，甚至在 AI 系统中植入“后门”。

恶意 AI 如何将组织置于风险之中

虽然 AI 已成为提升工作效率与创造力的关键工具，但在网络犯罪者眼中，它却是一种欺诈、诈骗与恶意自动化的新捷径。

眼下最令人担忧的威胁之一，是数据泄露风险的迅速升级。攻击者无需数天反复打磨诱骗信息，只需借助精心设计的提示语，或利用 LLM 辅助交互，在数分钟内即可对终端用户实施社会工程攻击。一旦得手，受害者往往在毫无察觉的情况下泄露敏感信息，从而暴露组织的机密数据，带来合规风险与声誉损害。

金融欺诈与社会工程手段也在以惊人速度演化。攻击者通过 AI 工具，能够极其轻松地制作具有高度欺骗性的钓鱼邮件、虚假通信以及深度伪造（deepfake）内容。这种新型攻击方式复杂性高、成本低，使得攻击者得以迅速扩展攻击范围，并瞄准毫无防备的受害者。

除财务损失外，恶意 AI 还可能造成长期声誉伤害。遭遇攻击的组织往往面临持续审视——客户、投资者与监管机构将质疑其在保护数据与运营安全方面的能力。事实上，信任的流失往往比单次事件的直接损失更具破坏力。

在互联互通的系统环境中，风险会进一步放大。当 AI 工具被嵌入关键系统或自动化流程中时，仅需一个恶意提示，即可触发不可预期的操作——如执行恶意代码、暴露数据，甚至导致整个供应链中断或数据污染。随着 AI 工具愈加深入企业核心系统，其被利用的后果将愈加严重，且愈加难以遏制。

应对恶意 AI：新时代威胁需要新战略

恶意人工智能的威胁并非理论推演，而是切实存在，且正在快速重塑攻击格局。问题不在于“是否”会成为目标，而是“组织是否已做好准备”。

但是，不可否认的是，恶意人工智能正在改写网络安全规则，但它并没有将控制权从组织手中夺走。即使攻击者使用生成模型来扩大欺骗并绕过传统防御，安全领导者仍然有能力通过正确的策略超越他们。

必须指出的是，应对恶意 AI 的防御措施不能仅依赖被动响应，而应着眼于前瞻性投入、持续教育及动态演进的 AI 防护机制。随着发起复杂攻击的门槛不断降低，唯有不断提升认知、推动技术创新并保持警觉，组织方能持续领先于这一加速发展的威胁态势。

审校：黄鹏华，CSA大中华区专家

推荐阅读

全球AI法规速览：ISO 42001如何助力企业合规

在现实世界中实现零信任的四个思维转变

点击左下角“阅读原文”

原文始发于微信公众号（国际云安全联盟CSA）：当好的GPT变坏：如何利用受信任的AI工具进行攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

当好的GPT变坏：如何利用受信任的AI工具进行攻击

启明星辰发布大模型安全威胁框架（附下载链接）

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解

让主流大模型集体破防的回音室攻击

人工智能（AI）在城镇作战中的应用及对我启示

AI产业的版权危机：Meta大模型完整记忆了《哈利·波特》

【论文速读】|LLM vs. SAST：GPT4 代码缺陷检测技术分析——高级数据分析

总结一下最近学习到的MCP风险问题（杂谈）

从性能测试比较简单的角度入手ai全自动化

发表评论

在线咨询

微信