AI安全 | 大语言模型的安全与隐私调查

2025年1月21日12:55:35评论42 views字数 4595阅读15分19秒阅读模式

大语言模型（LLM）具有语言理解能力、类人文本生成能力、上下文感知能力和强大的问题解决能力，这使其在各个领域（如搜索引擎、客户支持和翻译）都具有重要价值。本文将探讨LLM如何对安全和隐私产生积极影响，使用LLM可能存在的潜在风险和威胁，以及LLM的固有漏洞问题。研究发现，LLM可以增强代码安全性（代码漏洞检测）和数据隐私性（数据保密保护），但是由于具备类似人类的推理能力，它也可被用于各种攻击行为（尤其是用户级攻击）。

背景介绍

（一）

大语言模型

LLM是语言模型的演变。最初，语言模型是统计性质的，为计算语言学奠定了基础。Transformer的出现极大地扩展了语言模型的规模，这种扩展以及大量训练语料和先进预训练技术的使用，在人工智能驱动的科学研究（AI4S）、逻辑推理和具身人工智能等领域至关重要。这些模型需要在庞大的数据集上接受大量训练，以理解并生成近似人类语言的文本。LLM具有数千亿甚至更多的参数，它们在自然语言处理（NLP）领域取得了长足的进步，并在多个领域得到应用（如风险评估、编程、漏洞检测、医学文本分析和搜索引擎优化）。一般来说LLM至少应具备四个关键特征。首先，应能深入理解和解释自然语言文本，从而能够提取信息并执行各种语言相关任务（如翻译）。其次，应该有能力根据提示生成类似人类的文本（例如完成句子、组成段落，甚至撰写文章）。第三，应考虑领域专业知识等因素，从而表现出上下文感知能力，这种特性被称为“知识密集型”。第四，应擅长问题解决和决策，在信息检索和问题解答系统等任务中发挥重要作用。

（二）

热门大语言模型比较

语言模型的提供商多种多样，包括OpenAI、谷歌、Meta AI等行业领先企业，以及Anthropic和Cohere等新兴企业。发布日期跨度从2018年到2023年，展示了语言模型在过去几年中的快速发展和演变。2023年出现了“GPT-4”等较新的模型，凸显了这一领域的持续创新。虽然目前只有少量模型是开源的，但BERT、T5、PaLM、LLaMA和CTRL等开源模型的存在仍然有利于社区驱动的开发和应用。较大的模型往往有更多的参数，这可能意味着能力的提高，但也意味着更大的计算需求。此外LLM需要具备“可调谐性”，即这些模型是否可以针对特定任务进行微调。换句话说，可以利用一个预先训练好的LLM，调整其参数，在一个较小的特定领域数据集上对其进行训练，使其在特定任务中表现更好。

大语言模型的有益影响

（一）

用于代码安全的大语言模型

LLM能够访问并利用各种编程语言和不同技术领域的庞大代码片段和示例库。这些库通常包含了大量的编程范式、算法实现、最佳实践以及特定问题的解决方案，使得LLM能够为用户提供编程相关的帮助和建议。LLM可以在整个代码安全生命周期中，包括编码（C）、测试用例生成（TCG）、执行和监控（RE）等阶段，都发挥着举足轻重的作用。一是在安全代码中的应用。ChatGPT可以提供安全的硬件代码生成。二是测试用例生成。研究发现，LLM可以成功生成展示各种供应链攻击的测试，性能优于现有的安全测试生成器。三是漏洞代码检测。与传统的静态代码分析工具（如Snyk和Fortify）相比，GPT-4发现的漏洞数量大约是其四倍。四是漏洞/错误代码修复。基于Transformer的程序修复框架InferFix结合了最先进的静态分析工具和基于Transformer的模型，可解决并修复关键的安全和性能问题，准确率在65%到75%之间。

（二）

用于数据安全与隐私的大语言模型

LLM为数据安全领域做出了宝贵贡献，为保护敏感信息提供了多种方法。一是数据完整性。数据完整性是指确保数据在整个生命周期内不被更改和破坏。LLM在创建网络安全策略方面具有潜力，这些策略旨在减轻勒索软件的数据外泄攻击。二是数据保密性。数据保密性是指保护敏感信息不被未经授权地访问或披露。通过使用LLM生成掩码词元（token）的替代品，模型可以在混淆数据上进行训练，而不会影响原始信息的隐私和安全性。三是数据可靠性。数据可靠性指的是数据的准确性，是衡量数据准确性、无误性或无偏差性的标准。研究表明，使用ChatGPT来检测包含网络钓鱼内容的网站具有高精确度的良好性能。四是数据可追溯性。数据可追溯性是指跟踪和记录单个系统或多个系统内数据的来源、移动和历史的能力。这一概念在事件管理和法证调查等领域尤为重要，LLM为分析数字证据提供了新颖的方法，在法医调查中备受青睐。

大语言模型的负面影响

（一）

硬件级攻击

硬件级攻击通常涉及对设备的物理访问。然而，LLM无法直接访问物理设备。相反，它们只能访问与硬件相关的信息。边信道攻击（Side-channel attack）是一种可由LLM驱动的攻击，通常需要分析来自物理系统或物理实现（如加密设备或软件）的无意信息泄漏，目的是推断秘密信息（如密钥）。

（二）

操作系统级攻击

LLM在高抽象层次上运行，主要处理基于文本的输入和输出，缺乏执行操作系统级攻击所必需的低级系统访问权限。尽管如此，它们仍可用于分析从操作系统收集到的信息，从而为执行此类攻击提供潜在帮助。有研究者建立了一个反馈回路，将LLM与可攻击的虚拟机连接起来，使其能够分析虚拟机的状态、识别漏洞并提出具体的攻击策略，然后在虚拟机中自动执行。

（三）

软件级攻击

与利用LLM攻击硬件和操作系统类似，也有利用LLM攻击软件的情况。不过，最普遍的软件级用例是恶意开发者利用LLM制作恶意软件。研究表明，LLM擅长使用模块描述来制作恶意软件。同时，LLM可以生成同一语义内容的多个版本（恶意软件变体）。

（四）

网络级攻击

LLM也可用于发起网络攻击。利用LLM进行网络级攻击的一个常见例子是网络钓鱼攻击。比较使用GPT-4生成的网络钓鱼电子邮件、使用V-Triad的人工设计的网络钓鱼电子邮件，以及普通网络钓鱼电子邮件，结果表明，无论是人工智能生成的还是人工设计的个性化网络钓鱼电子邮件，其点击率都高于普通电子邮件。

（五）

用户级攻击

LLM展示了其创建极具说服力但最终具有欺骗性内容的能力，并且能在看似无关的信息之间建立联系。这为恶意行为者从事一系列恶性活动提供了机会。具体用例包括：生成错误信息、引发学术不端行为、为网络欺诈行为提供便利等。

大语言模型的漏洞及防御

（一）

人工智能技术固有弱点和威胁

考虑到LLM本身就是人工智能模型，这些漏洞和威胁源于LLM的本质和架构。

1. 对抗性攻击

机器学习中的对抗性攻击是指用于故意操纵或欺骗机器学习模型的一系列技术和策略。这些攻击通常怀有恶意，利用模型行为中的漏洞。讨论最广泛的攻击是数据中毒和后门攻击。数据中毒是指攻击者将恶意数据注入训练过程，从而影响训练结果。后门攻击涉及恶意对训练数据的操作和模型处理，创建攻击者可在模型中嵌入隐藏后门的漏洞。后门攻击和数据中毒攻击都涉及操纵机器学习模型，包括操纵输入。不过，两者的关键区别在于，后门攻击特别注重在模型中引入隐藏触发器，以便在遇到触发器时控制特定行为或响应。

2. 推理攻击

机器学习中的推理攻击是指，对手通过对模型进行特定查询或观察，试图获取有关机器学习模型或其训练数据的敏感信息。这些攻击通常是利用无意泄露的信息，其中包括属性推理攻击和成员推理。属性推理攻击是一种威胁，攻击者试图通过分析机器学习模型的行为或反应，推断出个人或实体的敏感或个人信息。这对LLM也同样有效。成员推理攻击是一种数据安全领域的特定推理攻击类型。在白盒/黑盒访问模型（两种在软件测试、系统设计和认知科学等领域中常用的建模方式，用于描述对系统的理解和测试方法）和特定数据记录的情况下，确定一条数据记录是否属于模型训练数据集的一部分。

3. 提取攻击

提取攻击通常是指对手试图从机器学习模型或其相关数据中抽取敏感信息。抽取攻击和推理攻击有相似之处，但在具体重点和目标上有所不同。提取攻击旨在直接获取特定资源（如模型梯度、训练数据）或机密信息。推理攻击通常通过观察模型的响应或行为，试图获得有关模型或数据特征的知识或见解。

4. 利用偏见和不公平的攻击

虽然偏见和不公平问题并非LLM所独有，但由于伦理和社会问题，它们受到了更多关注。也就是说，LLM的社会影响引发了对开发和部署这些模型的组织和研究人员的伦理责任的讨论。

5. 指令调整攻击

指令调整也称为基于指令的微调，是一种机器学习技术，用于在微调过程中提供明确的指令或示例，从而针对特定任务训练和调整语言模型。具体包括“越狱”（利用系统的某些漏洞，通过指令获取设备的最高权限）和拒绝服务。

（二）

非人工智能技术固有的弱点和威胁

非人工智能固有攻击，包括LLM可能会遇到的外部威胁和新漏洞（传统人工智能模型尚未观察或研究过）。这些攻击可能与人工智能模型的内部机制并无密切联系，但却可能带来重大风险。

1. 远程代码执行

远程代码执行（RCE）攻击通常以软件应用程序、网络服务或服务器中的漏洞为目标，远程执行任意代码。虽然RCE攻击通常并不直接适用于LLM，但如果LLM集成到网络服务中，而该服务的底层基础设施或代码中存在RCE漏洞，则有可能导致LLM的环境受到破坏。

2. 边信道攻击