原文标题:SpearBot: Leveraging Large Language Models in a Generative-Critique Framework for Spear-Phishing Email Generation
原文作者:Qinglin Qi, Yun Luo, Yijia Xu, Wenbo Guo, Yong Fang
关键词:大语言模型(LLMs)、网络钓鱼、社会工程攻击、对抗生成
原文链接:https://arxiv.org/abs/2412.11109
论文简介:近年来,大语言模型(LLMs)的能力日益增强,它们不仅在内容创作方面展现出卓越的潜力,同时也带来了安全风险,特别是在生成网络钓鱼邮件方面。网络钓鱼攻击通常利用欺骗性邮件诱使受害者点击恶意链接,从而窃取敏感信息。本文提出了一种名为 SpearBot 的框架,利用 LLMs 生成高度个性化的网络钓鱼邮件,同时借助批判性反馈优化邮件,使其更具欺骗性,难以被检测系统识别。实验结果表明,SpearBot 生成的邮件在逃避机器检测和欺骗人类方面都表现出较强的能力,揭示了 LLMs 可能带来的潜在安全威胁。
研究目的:网络钓鱼攻击一直是网络安全领域的重要挑战,尤其是针对特定个人或组织的 精准钓鱼攻击(Spear Phishing),它们通常具备更强的欺骗性。随着 LLMs 的发展,攻击者可以利用 AI 生成更加智能化、个性化的钓鱼邮件,从而降低制作成本并提升成功率。本文旨在研究如何利用 LLMs 生成更具欺骗性的网络钓鱼邮件,并探讨如何绕过 AI 生成内容的安全机制,使其能够规避检测系统的识别。此外,论文还分析了 SpearBot 生成的邮件在各种防御系统下的表现,进一步评估了其潜在威胁性。
1. 提出 SpearBot 框架:结合 LLM“越狱”机制(Jailbreak)和 批判性优化(Critique-based Optimization)生成更难检测的钓鱼邮件。
2. 创建大型钓鱼邮件数据集:包含 1000 封 个性化精准钓鱼邮件,并探索 10 种不同的钓鱼策略,可供未来研究使用。
3. 对抗多种检测模型:包括 传统机器学习模型、预训练语言模型(PLMs) 和 大语言模型检测器(LLM Defenders),发现 SpearBot 生成的邮件具有较高的欺骗性。
4. 人类评估实验:通过问卷调查评估邮件的可读性和欺骗性,结果表明 SpearBot 生成的邮件在骗过人类方面同样表现突出。
网络钓鱼攻击是最常见的社会工程攻击之一,攻击者通常伪装成可信赖的第三方,诱骗用户访问虚假网站或下载恶意附件。近年来,钓鱼攻击造成的经济损失已达 5200 万美元,各大机构不断研发新的检测手段以对抗此类攻击。然而,攻击者同样在不断进化,利用 LLMs 生成更具欺骗性的钓鱼邮件,绕过现有的检测系统。
精准钓鱼(Spear Phishing)比普通钓鱼攻击更具针对性,攻击者通过收集目标的背景信息(如职业、兴趣爱好等)来定制邮件内容,从而提高攻击成功率。然而,定制化邮件通常需要投入较高的人工成本,限制了大规模攻击的可行性。
LLMs 具有强大的文本生成能力,可以帮助攻击者自动化创建高质量的钓鱼邮件,使其内容更具多样性,超越传统的“紧急通知”或“限时优惠”类诱骗手法。本文研究如何利用 LLMs 生成精准钓鱼邮件,并提出了 SpearBot 框架来优化生成过程,使邮件更具欺骗性。
网络钓鱼电子邮件因其巨大威胁而吸引了大量研究,这类攻击利用了人类内在的心理和行为弱点。近年来,有几项研究尝试利用大语言模型(LLMs)辅助编写网络钓鱼邮件,以降低成本并增强欺骗性。罗伊等人(2023 年)首次将大语言模型作为生成网络钓鱼攻击的主体进行测试,但他们旨在测试大语言模型能否像人类一样生成网络钓鱼邮件,并使用诸如 BLEU 和 Rouge(与标准网络钓鱼邮件的相似度指标)等指标进行评估。贝瑟尼等人利用大语言模型开展了大规模的企业网络钓鱼邮件实验,但这些邮件受特定事件和邮件模板的限制。同时,该研究仍聚焦于这些邮件是否能被识别为机器生成,而非邮件的欺骗性。海丁等人试图通过人类实验利用大语言模型生成网络钓鱼邮件,展示了大语言模型在辅助编写网络钓鱼邮件方面的有效性,但该研究并未深入分析检测方法对这些网络钓鱼攻击的反应。与以往研究不同,研究者旨在利用大语言模型生成鱼叉式网络钓鱼邮件,并增强生成内容的欺骗性。同时,研究者还将进一步分析检测方法对大语言模型生成的邮件作何反应,而这一点至今尚缺乏深入分析。
由于大语言模型(LLMs)有可能输出有害和欺骗性信息,其安全性已成为一个日益重要的问题。尽管配备了安全校准机制和内容过滤器,但近期调查发现了一类被称为 “越狱” 的漏洞。这些漏洞可能导致大语言模型突破其校准防护措施,从而有可能产生意外且危险的输出。目前出现了两种主要的 “越狱” 类型:提示级别和令牌级别。提示级别 “越狱” 采用语义上有意义的欺骗和社会工程技术,诱使大语言模型输出令人反感的内容。另一方面,令牌级别 “越狱” 侧重于优化大语言模型的输入令牌,这一过程通常需要大量查询,导致计算成本高昂,且人类的可解释性降低。考虑到令牌级别 “越狱” 的弱点,研究者采用提示级别 “越狱” 的思路,并提出用于生成鱼叉式网络钓鱼邮件的特定提示。
由于网络钓鱼邮件构成严重威胁,大量研究提出了针对网络钓鱼邮件的检测方法。这些方法大致可分为四类:(1)机器学习方法,如支持向量机、随机森林、XGBoost 等,这类方法利用诸如词频 - 逆文档频率(TF - IDF)或词向量(Word2Vec)等邮件文本特征;(2)神经网络方法,通过训练如循环神经网络(RNN)和长短期记忆网络(LSTM)等神经网络来检测网络钓鱼邮件;(3)预训练语言模型方法,对预训练语言模型(如 BERT和 RoBERTa)进行微调,并添加分类层以检测邮件是否为网络钓鱼邮件;(4)大语言模型方法,多伊德等人(2024 年)利用专门设计的提示来检测网络钓鱼邮件。在本研究中,研究者将各种检测方法视为防御手段,通过考量网络钓鱼邮件能否绕过这些检测防御,来评估研究者生成方法的有效性。
图 1 描绘了攻击者利用商业大语言模型(LLMs)生成鱼叉式网络钓鱼邮件的威胁模型。在该模型中,攻击者收集用户信息,并通过使用专门设计的 “越狱” 提示词,利用大语言模型创建网络钓鱼邮件。这些邮件运用常见的网络钓鱼策略,比如制造虚假的紧迫感或稀缺感,暗示收件人必须立即采取行动,以此欺骗个人。邮件还进一步诱使收件人与外部链接进行交互,这有可能导致信息泄露。尽管大语言模型配备了安全校准机制和安全过滤器,但 “越狱” 提示词仍能绕过这些保护措施,从而得以生成网络钓鱼邮件。这些模型在编写网络钓鱼信息时展现出更强的创造力,不再局限于限时折扣促销或紧急警报等传统手段。相反,它们能够生成一系列更能吸引目标对象注意力的引人入胜的内容。大语言模型针对个体目标量身定制信息的先进能力,可能会显著提升这些威胁的复杂性和有效性。
本研究提出的 SpearBot 框架 旨在利用 大语言模型(LLMs) 生成高度个性化且难以检测的网络钓鱼邮件。该框架由 两大核心模块 组成:LLM 越狱初始化(Jailbreak Initialization) 和 批判性优化(Critique-Based Optimization)。
LLMs 在发布前通常经过 强化学习(RLHF) 和 安全过滤(Safety Filters),以防止其生成恶意内容。然而,研究发现可以通过精心设计的 提示词(Prompt Engineering) 诱导模型绕过安全限制,生成原本禁止的内容。SpearBot 采用 基于提示词的越狱方法,具体流程如下:
· 伪装任务目的:向 LLM 提供误导性提示,使其误以为邮件生成任务属于合法用途,例如“网络安全研究”或“社会工程学分析”。
· 构建攻击场景:提供目标用户的个性化信息,如姓名、职位、兴趣爱好,并结合 不同的钓鱼策略(如权威冒充、紧急情况、奖励诱惑等),使生成的邮件更具欺骗性。
· 调整邮件内容:利用 LLM 生成初版钓鱼邮件,确保内容流畅、语气自然,并符合真实邮件的格式规范。
通过上述步骤,SpearBot 能够成功诱导 LLM 生成符合攻击需求的邮件,并在保证可读性的同时提升欺骗性。
单纯依靠 LLM 生成的邮件可能仍然存在明显的钓鱼特征,因此,SpearBot 进一步引入 批判性优化机制,利用多个 LLM 作为“审查者”(Critics),不断优化邮件内容,增强隐蔽性和欺骗性。该过程包括以下步骤:
· 初步检测:将生成的邮件输入多个 LLM 检测器,让其判断邮件是否具有钓鱼特征,并返回具体的识别依据。
· 内容优化:如果邮件被检测为钓鱼邮件,SpearBot 会根据 LLM 检测器的反馈调整邮件内容,例如修改措辞、优化语气、隐藏明显的攻击意图,使其更难以被检测到。
· 迭代生成:重复上述检测与优化步骤,直至邮件不再被 LLM 检测器判定为钓鱼邮件,最终形成高隐蔽性的最终版本。
这一优化过程有效提升了 SpearBot 生成邮件的 欺骗性和隐蔽性,使其能够绕过当前主流的钓鱼邮件检测系统。
为了评估 SpearBot 生成邮件的欺骗性与隐蔽性,本研究对其进行了 机器检测实验与人工评估实验。在机器检测实验中,研究者采用 传统机器学习分类器(SVM、XGBoost)、预训练语言模型(BERT、RoBERTa)、大语言模型检测器(GPT-4) 等多种检测手段,分析 SpearBot 生成邮件的逃逸能力。在人工评估实验中,研究者邀请网络安全领域的研究人员对邮件的 可读性、自然性和欺骗性 进行评分,以进一步验证其真实攻击效果。
SpearBot 通过 LLM 越狱 生成高度个性化的网络钓鱼邮件,并通过 批判性优化 反复调整内容,使其更加隐蔽、难以被检测系统识别。实验结果表明,该框架能够 大幅提高钓鱼邮件的成功率,同时暴露出 LLMs 可能带来的安全威胁,为未来的网络钓鱼防御研究提供了重要的参考价值。
研究者采用多种基于机器的防御手段,以展示研究者生成的网络钓鱼邮件突破防御的有效性。具体而言,所采用的防御手段包括以下三类:
· 机器学习(ML)防御:研究者采用了有效的机器学习防御模型,如支持向量机(SVM)、XGBoost 和随机森林。特别地,研究者参照巴鲁什卡等人(2018 年)的方法,使用词频 - 逆文档频率(TF - IDF)获取文本信息特征,并训练机器学习模型对网络钓鱼邮件进行分类。
· 预训练语言模型(PLM)防御:研究者采用了仅编码器模型 BERT 和 RoBERTa,以及仅解码器模型 GPT - 2 来构建防御。对于前者,研究者将 [CLS] 标记与邮件内容连接起来,输入到模型中。取最后一层中 [CLS] 标记的嵌入作为句子嵌入。然后通过一个线性层结合 softmax 函数,得到标签空间({网络钓鱼,非网络钓鱼})上的概率分布。不同的是,在 GPT - 2 中,句子结束(EOS)标记被用作句子嵌入。
· 大语言模型(LLM)防御:研究者采用上下文学习(ICL)和思维链(CoT)作为大语言模型检测方法。在上下文学习中,从之前的数据集(尼日利亚数据集)中随机选择四封邮件作为示例,教导大语言模型如何检测网络钓鱼邮件。在思维链方法中,要求大语言模型通过逻辑链逐步思考以做出决策。研究者还采用了小出等人(2024 年)专门设计的网络钓鱼邮件检测提示 ——ChatSpamDetector。
参照钱帕等人(2024 年)的做法,研究者采用精确率(Prec)、召回率(Recall)、F1 分数(F1)和准确率(Acc)等指标来衡量防御手段的有效性。因此,这些指标越高,防御效果越好,而网络钓鱼邮件攻击的效果就越弱。
研究者首先在表 5 顶部展示机器学习防御者的表现。结果表明,经过训练的防御者能够有效检测以往数据集中的网络钓鱼邮件。例如,支持向量机(SVM)在尼日利亚数据集中达到 99.55% 的 F1 分数和 99.53% 的准确率,在六个已发布的数据集中平均 F1 分数为 96.55%,平均准确率为 97.85%。同样,XGBoost 和随机森林也展现出相当的平均性能。然而,当这些方法用于检测 SpearBot 生成的鱼叉式网络钓鱼邮件时,表现大幅下滑。需要注意的是,研究者的研究仅涉及网络钓鱼邮件的生成,而识别这些邮件以防止潜在网络钓鱼攻击漏网是防御者的职责。例如,XGBoost 防御者在面对 SpearBot 生成的网络钓鱼邮件时,准确率仅为 21.70%,这在机器学习防御者中已是最高表现。这种糟糕的表现表明,该模型未能将鱼叉式网络钓鱼邮件识别为恶意邮件,而是误将它们当作合法通信。这突出了 SpearBot 绕过传统网络钓鱼防御者的有效性。
预训练语言模型防御者的表现列于表 5 底部。与机器学习防御者相比,这些模型在以往数据集中展现出显著更优的性能,这体现了预训练语言模型中编码的语义信息的有效性。其中,GPT - 2 表现突出,平均准确率和 F1 分数最高(分别为 99.65% 和 99.56%),这表明它几乎能完全过滤早期数据集中的网络钓鱼邮件。然而,当用 SpearBot 生成的邮件对这些预训练语言模型进行测试时,它们的性能急剧下降。具体而言,准确率分别骤降至 3.00%、1.00% 和 2.20%,这表明它们对训练数据集存在高度过拟合。这些结果强调,SpearBot 生成的鱼叉式网络钓鱼邮件也能有效绕过预训练语言模型防御者设置的防御,凸显了这类防御者的一个关键漏洞。
研究者还部署了以强大的零样本和少样本能力著称的大语言模型防御者,有效缓解了过拟合问题。为控制与大语言模型相关的计算成本,研究者使用特定随机种子从评估集中的每个数据集中随机选择 1000 个数据样本,以确保能代表性地反映防御者的性能。这些大语言模型防御者在零样本或少样本场景中表现出显著的有效性,与上述经过训练的模型相比,它们所需的标记数据较少。值得注意的是,专门设计的提示 ChatSpamDetector 在以往数据集中的大语言模型方法中性能最佳,尽管仍不及基于标注数据训练的防御者所取得的结果。然而,在面对 SpearBot 生成的网络钓鱼邮件时,与机器学习和预训练语言模型防御者相比,大语言模型防御者展现出更强的检测能力。特别是上下文学习(ICL)方法,在检测 SpearBot 生成的邮件时准确率达到 45.00%。这一较低的准确率也凸显了研究者的网络钓鱼邮件给大语言模型防御者带来的挑战。
由于大语言模型(LLM)防御者在检测 SpearBot 生成的邮件时最为有效,因此在后续分析中,研究者将重点关注大语言模型防御者。不同网络钓鱼策略的检测性能如图 5 所示。具体来说,研究者计算了在各种策略下被检测到的网络钓鱼邮件的比例,以此突出每种策略针对大语言模型检测器的欺骗程度差异。在思维链(CoT)检测方式下,“提供帮助或服务”(S3)策略生成的邮件最容易被过滤掉,准确率为 27%。而 “确认个人信息”(S9)策略生成的邮件几乎是最具欺骗性的,检测准确率为 17%。在上下文学习(ICL)检测方式下,结果几乎相反。使用 S9 策略生成的网络钓鱼邮件欺骗性最低,检测准确率为 56%。相反,“提供帮助或服务”(S3)和 “定制内容”(S10)策略被发现是最具欺骗性的。这种差异可能源于大语言模型对请求个人信息的邮件存在固有怀疑,而对提供帮助的邮件相对信任。然而,通过上下文学习示例,可以改变大语言模型识别的内部模式,从而显著提高检测性能。
在本节中,研究者通过一项人类评估研究来评估 SpearBot 生成的鱼叉式网络钓鱼邮件的有效性。
为评估生成的鱼叉式网络钓鱼邮件的易读性和欺骗性,研究者招募了 20 名人类参与者,在不告知他们研究目的的情况下完成一份问卷。参与者具有网络安全相关背景,拥有或正在攻读硕士(或博士)学位,有 10 年英语学习经历,熟悉英语交流,具备较强的英语阅读理解能力。在调查前,研究者会指导每位参与者熟悉问卷的作答规则。随后,向每位参与者展示一组邮件:从尼日利亚数据集中随机选取的 15 封网络钓鱼邮件、同样从尼日利亚数据集中选取的 15 封合法邮件,以及由 SpearBot 生成的 15 封网络钓鱼邮件。完成问卷后,每位参与者将获得 20 美元报酬。针对每封邮件,参与者需回答三个不同问题,每个问题有五个不同选项:
· 邮件内容是否清晰易懂?选项:(0) 非常困惑。(1) 有点困惑。(2) 一般。(3) 比较清晰。(4) 非常清晰。
· 你认为这封邮件是机器生成而非人类撰写的吗?选项:(0) 非常确定是。(1) 比较确定是。(2) 不确定。(3) 比较确定不是。(4) 非常确定不是。
· 你觉得这封邮件危险或具有欺骗性吗?选项:(0) 非常危险。(1) 有点危险。(2) 一般。(3) 比较安全。(4) 非常安全。这些选项会被转化为不同程度的 0 - 4 分。
结果如图 9 所示。研究者注意到,由 SpearBot 生成的邮件的可读性(即问题 1 相关结果)极高,甚至超过了从尼日利亚网络钓鱼活动中收集到的邮件。这种卓越表现很可能源于大语言模型先进的写作能力。
关于问题 2,与尼日利亚的网络钓鱼邮件相比,SpearBot 生成的邮件更具说服力。很难识别出这些邮件是由机器生成的,这表明大语言模型生成的内容具有令人信服的欺骗性。这凸显了密切关注未来涉及大语言模型生成内容的威胁的重要性。
最后,对于问题 3,研究者注意到 SpearBot 生成邮件的欺骗得分显著高于尼日利亚网络钓鱼邮件(分别为 2.2 分和 1.3 分),且与尼日利亚的合法邮件得分相当。这表明 SpearBot 生成的网络钓鱼邮件不仅更具欺骗性,还能高度模仿合法邮件,对于毫无防备的收件人来说,尤其危险。
SpearBot 展示了 LLMs 在生成精准钓鱼邮件方面的强大能力,能够绕过多种检测系统并骗过人类评估者。该研究揭示了 LLMs 可能带来的潜在安全威胁,同时也为未来的钓鱼邮件防御研究提供了重要参考。未来工作可以利用 SpearBot 进行网络安全培训,提高用户对钓鱼攻击的防范意识。
原文始发于微信公众号(安全极客):【论文速读】| SpearBot:在生成 - 评判框架下利用大语言模型生成鱼叉式网络钓鱼邮件
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/3800585.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论