恶意人工智能正在重塑网络犯罪的规则。了解传统 GPT 模型是如何被恶意利用以及为何安全团队必须立即采取行动。人工智能正以前所未有的速度改变一切。昔日仍属科幻范畴的技术,如今已融入日常生活,释放出前所未有的效能并推动快速创新。在这场革命的核心,是大型语言模型(LLMs),尤其是生成式预训练转换器(GPTs),它们重新定义了人工智能的能力边界。
GPT 代表了人工智能领域最具颠覆性的突破之一,它使机器能够以惊人的流畅度生成类人语言文本。从最初的理论模型发展至今,GPT 已被广泛应用于草拟邮件、编写代码、总结报告乃至实时辅助决策。
令人遗憾的是,这些使GPT极具价值的特性——易于获取、适应性强,以及增强人类能力的潜力——也使其极易被攻击者武器化。从社会工程攻击到自动化恶意软件生成,攻击者能以极低的成本利用GPT技术发动欺骗性更强、规模更大、效率倍增的网络攻击。
我们正在见证一个全新的现象——恶意人工智能的兴起:即利用人工智能实施欺骗、诈骗与攻击。
若要全面理解恶意人工智能所带来的风险,必须深入探讨以下三个问题:主流 AI 工具是如何被恶意利用的、AI 驱动攻击恶意利用,以及为何当前时点成为网络防御的关键转折点。
是什么让好的 GPT 走向失控?
GPT模型是基于海量数据训练而成的复杂语言处理器,能够生成连贯且具上下文相关性的文本。然而,这类模型的设计理念——强调对语言模式的学习与响应生成,而非真正理解语义或上下文意图——天然存在可被操纵的漏洞。
训练数据偏差、模型对齐问题,以及对抗性输入的易感性,皆可被攻击者利用。他们通过精心设计的提示指令绕过安全限制,诱导模型生成有害内容。语言本身的复杂性及恶意注入手段的隐蔽性,进一步增加了设计强健防护机制的难度——系统需在防御攻击与维持模型创造性、生产力之间取得平衡。
但攻击者究竟是如何将这些弱点转化为攻击机会的?以下是几个典型案例。
数据投毒
数据投毒是一种隐蔽却强大的攻击方式,攻击者通过操控模型训练数据以改变其输出行为。通过注入带有偏见、误导性或恶意信息的样本,攻击者可操纵 GPT 模型生成虚假信息、强化危险叙事,或削弱其原有防护机制。
这类“投毒数据”可能被巧妙嵌入公开信息源,或在模型微调阶段被注入,使得其难以被检测。一旦中毒,模型可能在无意中协助实施欺诈、制造虚假宣传,甚至推动自动化网络攻击。
越狱技术
所谓“越狱”,是指绕过 GPT 模型内建的安全机制,从而生成被限制或有害内容。攻击者常使用精心构造的提示语、编码指令或分步操作,规避道德约束,诱导模型输出违规响应。
部分手法包括角色扮演场景、对抗性命令、或将请求分解为难以检测的小步骤。一旦越狱成功,攻击者便可借助模型生成虚假信息、非法代码,甚至提供有助于欺诈的操作指南。
提示注入与模型重编程
提示注入是指通过输入欺骗性指令,操纵模型输出行为,使其忽视原有安全机制,执行未授权操作。攻击者撰写具有误导性或隐含指令的提示,使模型生成有害内容、泄露敏感信息或突破伦理边界。
更先进的模型重编程技术更进一步,通过嵌入持续性指令,悄然改变模型在多轮交互中的响应逻辑。这使攻击者能够持续操控输出、自动化社会工程攻击,甚至在 AI 系统中植入“后门”。
恶意 AI 如何将组织置于风险之中
虽然 AI 已成为提升工作效率与创造力的关键工具,但在网络犯罪者眼中,它却是一种欺诈、诈骗与恶意自动化的新捷径。
眼下最令人担忧的威胁之一,是数据泄露风险的迅速升级。攻击者无需数天反复打磨诱骗信息,只需借助精心设计的提示语,或利用 LLM 辅助交互,在数分钟内即可对终端用户实施社会工程攻击。一旦得手,受害者往往在毫无察觉的情况下泄露敏感信息,从而暴露组织的机密数据,带来合规风险与声誉损害。
金融欺诈与社会工程手段也在以惊人速度演化。攻击者通过 AI 工具,能够极其轻松地制作具有高度欺骗性的钓鱼邮件、虚假通信以及深度伪造(deepfake)内容。这种新型攻击方式复杂性高、成本低,使得攻击者得以迅速扩展攻击范围,并瞄准毫无防备的受害者。
除财务损失外,恶意 AI 还可能造成长期声誉伤害。遭遇攻击的组织往往面临持续审视——客户、投资者与监管机构将质疑其在保护数据与运营安全方面的能力。事实上,信任的流失往往比单次事件的直接损失更具破坏力。
在互联互通的系统环境中,风险会进一步放大。当 AI 工具被嵌入关键系统或自动化流程中时,仅需一个恶意提示,即可触发不可预期的操作——如执行恶意代码、暴露数据,甚至导致整个供应链中断或数据污染。随着 AI 工具愈加深入企业核心系统,其被利用的后果将愈加严重,且愈加难以遏制。
应对恶意 AI:新时代威胁需要新战略
恶意人工智能的威胁并非理论推演,而是切实存在,且正在快速重塑攻击格局。问题不在于“是否”会成为目标,而是“组织是否已做好准备”。
但是,不可否认的是,恶意人工智能正在改写网络安全规则,但它并没有将控制权从组织手中夺走。即使攻击者使用生成模型来扩大欺骗并绕过传统防御,安全领导者仍然有能力通过正确的策略超越他们。
必须指出的是,应对恶意 AI 的防御措施不能仅依赖被动响应,而应着眼于前瞻性投入、持续教育及动态演进的 AI 防护机制。随着发起复杂攻击的门槛不断降低,唯有不断提升认知、推动技术创新并保持警觉,组织方能持续领先于这一加速发展的威胁态势。
审校:黄鹏华,CSA大中华区专家
推荐阅读
点击左下角“阅读原文”
原文始发于微信公众号(国际云安全联盟CSA):当好的GPT变坏:如何利用受信任的AI工具进行攻击
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论