GenAI 安全性非常重要,因为它可以确保 GenAI 系统能够在整个组织内安全、可靠、负责任地部署。
生成式人工智能正在迅速被采用,速度快得超过了大多数组织对其的保障。
根据麦肯锡的调查《人工智能现状:企业如何重塑以捕捉价值》, 71% 的受访者表示,其企业至少在一项业务职能中定期使用生成式人工智能。这一比例高于 2024 年初的 65% 和 2023 年的 33%。
这才是核心问题。GenAI 不仅能提升生产力,还能重塑数据流动方式、系统交互方式以及决策制定方式。随之而来的是更广泛、更动态的攻击面。
Gartner 公司表示:“到 2027 年,超过 40% 的人工智能相关数据泄露将因跨境不当使用生成人工智能 (GenAI) 而造成。”
- Gartner 新闻稿,“Gartner 预测,到 2027 年,40% 的 AI 数据泄露将源于跨境 GenAI 滥用”,2025 年 2 月 17 日。
即时注入攻击会操纵人工智能系统的输入,旨在使模型产生有害或非预期的输出。
他们通过在提示中嵌入恶意指令来实现这一点。人工智能会像处理任何正常输入一样处理该提示。但它会遵循攻击者的意图。
例如:提示可能会诱使人工智能泄露敏感信息或绕过安全控制。这是因为许多模型在没有严格输入验证的情况下就能响应自然语言。
这在交互式工具中尤其危险。想想客服聊天机器人。攻击者可能会潜入隐藏命令。聊天机器人可能会在不知情的情况下提取私人账户信息。
攻击并非总是直接的。在某些情况下,攻击者会操纵模型所依赖的数据。这些间接的即时注入会改变 AI 所提取的 Web 内容或数据库。
这意味着:模型会随着时间的推移吸收不良信息。这会导致有偏差、扭曲或不安全的输出——即使之后没有恶意提示。
-
约束模型行为:在系统提示中定义严格的操作边界。明确指示模型拒绝任何试图修改其行为的行为。将静态规则与动态检测相结合,实时捕获恶意输入。
-
强制输出格式:限制模型响应的结构。使用预定义模板并在显示输出之前进行验证——尤其是在开放式生成可能被滥用的高风险工作流程中。
-
验证和过滤输入:使用多层输入过滤。其中包括正则表达式、特殊字符检测、基于 NLP 的异常检测以及拒绝 Base64 或 Unicode 变体等混淆内容。
-
应用最小权限:限制模型的访问权限。使用基于角色的访问控制(RBAC),限制 API 权限,并将模型与敏感环境隔离。安全存储凭证并定期审核访问。
-
敏感操作需人工审批:为高影响决策添加人工审核步骤。这包括任何涉及系统变更、外部命令或数据检索的操作。使用风险评分和多步骤验证来指导何时需要人工介入。
-
隔离外部数据:将用户生成的内容或第三方内容与模型内部指令分开。在使用外部输入影响模型行为之前,请标记这些输入并验证其可信度。
-
模拟攻击:定期使用真实案例进行对抗性测试。红队演练和自动化攻击模拟可以帮助攻击者抢在对手之前发现漏洞。
-
监控 AI 交互:记录会话间的输入和输出。注意异常的提示结构、意外的输出模式以及偏离模型预期角色的行为
-
保持防御措施的时效性:随着威胁形势的变化,更新您的提示工程、检测逻辑和模型限制。在实施更改之前,请在沙盒环境中进行测试。
-
训练模型识别恶意输入:使用对抗训练和实时输入分类器来提升模型检测危险提示的能力。基于人工反馈的强化学习可以帮助模型逐步完善这一能力。
-
教育用户:确保用户了解快速注入的工作原理。教会他们识别可疑行为,并负责任地与人工智能系统互动。
安全性较差的 GenAI 基础设施会带来严重风险。如果没有得到妥善保护,API、插件和托管环境都可能成为入口点。
例如:如果 API 缺乏适当的身份验证或输入验证,攻击者可能会获取敏感功能的访问权限。这可能意味着篡改模型输出,甚至触发拒绝服务事件。
因为这些漏洞不仅影响系统正常运行时间,还会影响人们对 GenAI 系统的整体信任。
访问控制失效、集成不安全以及隔离不足都可能导致数据泄露,甚至导致未经授权的模型操纵。
这对于处理敏感数据的行业尤其重要,例如医疗保健、金融或个人数据平台。
简而言之:保障基础设施安全至关重要。没有它,系统的其余部分就不可信。
-
增强的身份验证协议:使用多重身份验证和强加密技术,确保对 GenAI API、插件接口和系统组件的访问安全。这有助于防止未经授权使用模型功能或暴露敏感端点。
-
全面的输入验证:验证所有输入(无论是来自用户、应用程序还是上游服务),以降低针对 GenAI 工作流的提示注入和其他基于输入的攻击的风险。
-
定期安全审计:针对 GenAI 特定的基础设施进行持续的审计和渗透测试。优先考虑那些配置不当可能导致模型篡改或数据泄露的 API、插件和编排层。
-
异常检测系统:实施监控工具,对正常的 GenAI 操作(例如模型查询、插件活动或资源使用情况)进行基准测试,并对可能表明存在泄露或滥用的偏差发出警报。
-
安全培训和意识:对开发人员和操作员进行 GenAI 特定风险(例如提示注入或不安全的模型端点)的培训,并确保安全性嵌入到模型部署和集成工作流程中。
-
事件响应计划:通过将这些场景集成到事件响应计划和桌面演习中,为特定于 GenAI 的事件(例如模型误用、插件泄露或 API 滥用)做好准备。
-
数据加密:加密 GenAI 系统使用的所有敏感数据,包括训练数据、API 响应和插件通信。这可以保护存储和传输过程中的机密性,尤其是在使用第三方服务时。
AI 生成的代码通常用于节省时间。许多人认为这是一条捷径——开发速度更快,而且质量不会受到影响。
但事情并不总是这样。这些工具可能会带来严重的安全问题。而开发人员甚至可能没有意识到这一点。
AI 编程助手基于大型训练数据集生成输出。这些数据集通常包含来自开源存储库的公共代码。但其中许多代码从未经过安全审查。如果存在不安全的模式,模型可能会复制这些模式。而且在很多情况下,情况确实如此。
因为漏洞可能在早期就已嵌入软件中。不安全的代码可能会调用过时的软件包、忽略输入验证或错误处理内存。它也可能编译并正常运行。
但在表面之下,它却十分脆弱。攻击者正是寻找这种弱点。
事实上,这些模型生成具有已知错误和漏洞的代码并不少见。
在CSET 评估中,包括 GPT-4 和 Code Llama 等开源工具在内的五种主流模型生成的代码片段中,近一半存在至少一个安全相关缺陷。其中一些缺陷严重到足以导致缓冲区溢出或未经授权的内存访问。
这些不仅仅是不好的做法——它们还是可利用的切入点。
许多开发人员对 AI 生成的代码过于信任。在CSET 的研究中,大多数参与者认为这些代码是安全的——即使事实并非如此。
这就是自动化偏见。它会导致不安全的代码被直接复制到生产环境中。
透明度是另一个问题。开发人员无法检查模型是如何做出决策的,也无法了解它为什么会提出特定的模式。
即使被提示“注意安全”,一些模型仍然会输出有风险的代码。另一些模型会返回无法编译或验证的部分函数。这使得自动化审查更加困难。如果没有审查,不良代码就可能被漏掉。
此外,还存在反馈风险。不安全的人工智能生成的代码有时会被发布到开源存储库。之后,它可能会被重新用于训练数据。这就形成了一个循环——今天的糟糕代码会影响明天的模型行为。
尽管模型在生成代码方面越来越优秀,但它们在生成安全代码方面并不总是表现得更好。许多模型仍然优先考虑功能性,而不是安全性。
这很重要,因为AI生成的代码不仅仅是一个工具。它改变了代码的编写、审查和复用方式。除非这些变化得到充分考虑,否则它们会在整个软件生命周期中带来风险。
-
不要盲目相信输出结果:对 AI 生成的代码要像审查初级开发人员的贡献一样进行审查。人工审核仍然必不可少。
-
安全机制提前:在开发生命周期的早期阶段集成安全检查,最好是在开发者的 IDE 中。在开发初期发现问题比事后再清理更快捷、更经济。
-
尽可能使用形式化验证工具:这些工具可以自动检测特定类型的错误,并减少对人工检查的依赖。但请记住:没有完美的工具。应使用多种方法。
-
使用安全的训练数据和基准: AI开发者应该从数据集中过滤掉已知的不安全模式。他们不仅应该评估模型的运行效果,还应该评估其安全性。
-
教育开发人员:确保他们理解“有效代码”并不总是意味着“安全代码”。提高对自动化偏见的认识,并鼓励团队以合理的怀疑态度看待人工智能生成的代码。
数据中毒涉及恶意改变用于构建人工智能模型的训练数据,导致其行为不可预测或恶意。
通过向数据集注入误导性或有偏见的数据,攻击者可以影响模型的输出,使其偏向某些操作或结果。这可能导致错误的预测、漏洞或有偏见的决策。
防止数据中毒需要安全的数据收集实践和监控训练数据集中的异常模式。
在 GenAI 系统中,数据中毒尤其难以检测,因为中毒样本通常数量少,但影响却很大。只需少量被篡改的样本,就可能使模型的行为朝着特定方向转变。
一些数据中毒攻击旨在改变模型对特定提示的响应方式。另一些攻击则嵌入仅在特定条件下激活的隐藏触发器。
许多 GenAI 系统会根据第三方来源或用户交互进行重新训练或微调。因此,攻击者无需访问原始训练流程,就可以毒害后续传入的数据。
由于这些系统经常持续更新,中毒输入会慢慢累积,这使得在行为变化引发问题之前发现它们变得更加困难。
并非所有的中毒攻击都试图破坏模型。有些攻击会在保持输出功能的同时引入偏差。
例如:一个情绪模型可能被训练成偏向某个群体或品牌。结果看起来正确,但这种偏差是故意造成的。
重要提示:GenAI 系统在大多数情况下通常表现正常。正因如此,中毒行为才如此难以察觉。
标准性能测试可能无法发现这个问题。相反,组织需要针对边缘情况和对抗性输入进行有针对性的测试。
-
保障AI 应用程序开发生命周期的安全:这包括维护软件供应链的安全,该供应链本身涵盖了开发过程中所需的模型、数据库和数据源。确保这些元素的安全有助于防止数据中毒。
-
了解、控制和管理数据路径:通过确保您了解数据如何在系统中移动,您可以防止未经授权的访问或操纵,其中包括防止数据中毒。
-
实施基于身份的访问控制:应用基于身份的严格访问控制,特别是在训练数据等敏感区域,可以帮助防止未经授权的注入中毒数据的企图。
-
检测并删除中毒或不良的训练数据:建立流程来检测数据中可能表明篡改或中毒的异常,并确保删除或更正此类数据。
许多组织依赖第三方模型、开源数据集和预训练的 AI 服务。这带来了诸如模型后门、数据集中毒和训练流程受损等风险。
例如:模型窃取,又称模型提取,是指攻击者窃取已训练的人工智能模型的架构或参数。攻击者可以通过查询模型并分析其响应来推断其内部工作原理。
简而言之,窃取的模型可以让攻击者绕过训练高质量人工智能系统所需的努力和成本。
GenAI 系统通常依赖于复杂的软件包、组件和基础架构链,这些组件和基础架构可能在多个位置被利用。单个受感染的依赖项就可能允许攻击者窃取敏感数据或将恶意逻辑注入系统。
例如: 2022 年 12 月,针对PyTorch-nightly软件包的供应链攻击充分展现了被入侵的软件库的危险性。攻击者利用恶意依赖项收集和传输环境变量,从而暴露了受影响计算机上存储的机密信息。
它并不仅限于软件库。基础设施漏洞(例如配置错误的 Web 服务器、数据库或计算资源)也同样危险。攻击者只要攻陷任何底层组件,就可能干扰数据流、劫持计算作业或泄露敏感信息。如果系统缺乏适当的访问控制,这种风险可能会蔓延至各个服务和组件。
此外,还有来自数据集中毒的风险。攻击者可以修改数据或将数据注入训练流程,从而巧妙地操纵模型行为。
这并非只是假设。有毒的输入会随着时间的推移影响模型输出,尤其是在能够适应新数据的 GenAI 系统中。
更糟糕的是:如果基础模型已经受到威胁,任何继承自该基础模型的微调模型也可能延续这些问题。预训练期间插入的后门可能会悄无声息地持续存在,除非被发现并修复。
第三方组件也可能因实施不当而产生风险。2023 年 3 月,ChatGPT 使用的 Redis 连接器库中存在一个漏洞,导致横向权限提升。不恰当的隔离机制导致用户能够查看其他用户会话的数据。
这一事件凸显了即插即用组件即使被广泛采用,如果不能安全集成,也会带来严重的安全隐患。
-
跟踪并审查依赖项:定期审核第三方软件包、库和插件。密切关注集成到模型训练或推理工作流程中的工具。被入侵的组件可能被用于窃取数据或篡改模型行为。
-
验证数据和模型完整性:使用加密哈希和数字签名来确保数据集和模型文件未被更改。这有助于在部署之前检测中毒尝试或未经授权的更改。
-
保护您的数据管道:限制训练数据的来源。应用监控措施,监控数据内容或结构的异常变化。持续进行再训练的 GenAI 系统尤其容易受到隐蔽的长期中毒攻击。
-
强化基础架构和连接器:通过强大的身份验证和访问控制来保护 API、托管环境和模型服务平台。即使是间接组件(例如缓存层或连接器库)也可能带来风险。
-
将安全性集成到模型生命周期工作流程中:像对待其他软件开发流程一样对待模型开发、微调和部署。在每个阶段都融入漏洞扫描、访问检查和依赖项审查。
-
制定事件响应计划:定义调查可疑模型行为的流程。如果发生供应链攻击,您需要一种方法来隔离系统、确认完整性并快速回滚受损组件。
GenAI 模型可能会引入偏见、产生误导性内容或生成完全错误的信息。
这对于安全来说是一个问题,但对于信任来说也是一个问题。
资料来源:https://www.bmj.com/content/372/bmj.n304
这些模型通常以自信流畅的语气呈现输出——即使信息错误或存在偏见。这使得用户更难发现错误,也更容易被攻击者利用。
例如:一个基于有偏见的数据训练的模型,可能会在招聘摘要中始终偏向某一特定人群。或者,它会生成看似真实但实际上并非如此的医疗证明。这些不仅仅是不准确的信息,它们还会影响决策,有时甚至会以至关重要的方式产生影响。
即时操纵可能会触发降低信任的输出。它可能是攻击性语言,也可能是精心设计的错误信息内容。在某些情况下,GenAI 系统已被用于生成网络钓鱼和社会工程的材料。
需要注意的是:并非所有问题都源于恶意。有些问题源于模型设计,有些则源于糟糕的训练数据。
无论哪种方式,有缺陷的输出都会带来真正的风险——尤其是在受监管或高风险的环境中。
对齐有助于模型保持在规范的范围内,从而使输出符合预期目标和规范。幻觉控制有助于减少虚构的细节。它们共同维护了内容的完整性,并有助于防止 GenAI 成为错误信息的来源。
-
控制训练数据中的偏差:在训练或微调之前,审查并筛选数据集。密切关注人口统计代表性和已知的偏差来源。
-
通过人工监督验证输出:对于影响重大的用例,尤其是在决策可能影响健康、安全或个人权利的情况下,使用人工参与审查。
-
调整对齐:微调模型以遵循预期目标和规范。这有助于减少有害、偏离主题或操纵性的输出。
-
限制提示操作的暴露:限制敏感环境中的提示访问。监控可能存在滥用行为的模式,例如试图触发带有偏见或不安全内容的行为。
-
监控虚假信息:添加检查,标记未经证实的声明或虚假信息。这对于受监管或高信任度的域名尤其重要。
-
设定清晰的模型使用边界:为每个模型定义合适的用例。应用控制措施,防止其在不受支持或高风险的环境中被使用。
-
在边缘条件下进行测试:使用对抗性输入来评估模型在非典型情况下的表现。这有助于发现常规测试中未发现的风险。
对人工智能能力的渴求已经催生了影子人工智能,就像影子IT是迈向云和软件即服务 (SaaS) 转型的第一步一样。安全领导者需要再次引领这一进程。
-Palo Alto Networks,《Unit 42 威胁前沿:为新兴人工智能风险做好准备》
影子人工智能是指组织内的员工或个人在没有 IT 或安全团队监督的情况下未经授权使用人工智能工具。
这些未经批准的工具虽然经常用于提高生产力,但绝对会暴露敏感数据或造成合规性问题。
不受管理的 AI 采用会带来与早期 SaaS 采用类似的风险。
员工可能会使用外部AI工具来总结会议记录、撰写电子邮件或生成代码。虽然这些工具的意图通常无害,但如果没有采取任何安全措施,它们可能会无意中处理机密数据,例如客户信息、知识产权、内部通信等。
当这些工具在正式审查和采购渠道之外使用时,没有人会验证它们是否符合组织的安全性、合规性或隐私标准。这就造成了盲点。
而且,由于安全和IT团队通常无法了解正在使用哪些工具或访问哪些数据,这种缺乏监督的情况使得追踪数据移动、防止数据泄露或实施控制变得十分困难。此外,不安全的AI工作流程或不良的数据处理实践也增加了数据泄露的风险。
影子人工智能允许在缺乏基础治理和风险控制的情况下采用人工智能,从而削弱了组织的安全态势。
人工智能在日常工作中的应用越深入,主动弥补这些差距就越重要。否则,人工智能的使用增长速度将超过组织管理风险的能力。
-
制定明确的人工智能使用政策:设定可使用哪些工具、允许使用哪些类型的数据以及员工应如何评估人工智能服务的界限。
-
监控未经授权的 AI 使用:跟踪用户、设备和网络的活动,以检测未经批准的 AI 工具并评估潜在的风险。
-
定义 AI 治理角色:分配批准工具、制定政策和执行合规性的责任,以确保所有权明确且一致。
-
采用前审查工具安全性:要求对新的人工智能服务进行正式的风险评估,以确保它们符合安全、隐私和合规标准。
-
保持持续监督:使用实时监控和定期审计来跟上不断发展的人工智能使用速度并防止无管理的蔓延。
GenAI 系统可能会无意中泄露机密信息,包括个人数据、商业机密或训练期间使用的其他敏感输入。
这种现象可以通过过度拟合表现出来,即模型生成的输出与其训练数据过于紧密地联系在一起。
或者通过诸如提示注入攻击之类的漏洞,操纵模型来泄露敏感信息。
这之所以会成为一个重大的潜在威胁,是因为 GenAI 系统通常会处理大量数据,其中包括专有商业信息或个人信息。这些信息属于敏感信息,不应被披露。
此类数据泄露可能导致财务损失、声誉损害和法律后果。
此外:GenAI 系统的多功能性和复杂性意味着它们可以访问和综合跨多个数据点的信息——无意中以泄露机密见解的方式将它们组合起来。
例如:一个基于敏感医疗记录训练的 GenAI 模型可能会生成无意中包含个人身份信息 (PII)的输出,即使这并非查询的意图。同样,如果金融服务中使用的模型没有得到妥善保护,也可能会无意中泄露商业机密或战略信息。
-
匿名化敏感信息:差异隐私等技术可以应用于训练数据,以防止人工智能学习或泄露可识别信息。
-
实施严格的访问控制:规定谁可以与人工智能系统交互以及在什么情况下交互。
-
定期测试模型是否存在漏洞:持续扫描可能被利用来提取敏感数据的弱点。
-
监控外部 AI 的使用情况:跟踪 AI 系统的部署方式和位置,以确保敏感数据不会泄露到组织边界之外。
-
确保 AI 应用程序开发生命周期:在 AI 模型的整个开发和部署过程中实施安全最佳实践,从根本上防范漏洞。
-
控制数据路径:了解并保护系统中的数据流,以防止未经授权的访问或泄漏。
-
扫描和检测敏感数据:使用先进的工具来检测和保护网络中的敏感信息。
当威胁行为者绕过或滥用身份控制进入 GenAI 系统或其背后的基础设施时,就会发生这些攻击。
这些策略并不新鲜。但在 GenAI 环境中,风险更高。
因为 GenAI 平台通常连接到内部数据、生产 API 和外部服务。因此,如果攻击者获得访问权限,他们不仅可以看到数据,还可以操纵模型、输出和下游系统。
大多数 GenAI 设置包括 API、Web 服务以及跨存储、推理引擎、数据库和前端应用的集成。它们通过凭证(例如令牌、密钥或服务帐户)连接在一起。
如果其中任何一个被暴露,攻击者就可以冒充合法用户或服务。
例如:攻击者可能会从模型推理 API 中窃取令牌。该令牌可能被用来发送恶意提示或提取过去的输出历史记录。或者,他们可能会入侵连接到云存储的插件,并利用该插件上传有害数据或获取机密文件。
其他攻击始于泄露管理员凭据。这些攻击可能来自网络钓鱼或凭据重用。
一旦攻击者进入,他们就可以升级访问权限或改变模型的行为方式。
注意:在 GenAI 环境中,会话和令牌处理尤为敏感。许多模型依赖于上下文。如果会话令牌被重复使用或存储不安全,攻击者可能会跨会话持续存在或访问之前的交互。
另一个常见问题是权限过高。服务帐户和测试环境通常拥有超出实际需要的访问权限。如果这些凭证在生产环境中重复使用,可能会造成严重损害。
最终:一个薄弱环节(例如被遗忘的令牌或过度许可的 API)可能会为整个系统的入侵打开大门。
-
实施基于身份的访问控制:要求在每个访问点进行身份验证,包括 API、服务和用户界面。
-
使用强身份验证:应用多因素身份验证和短期令牌来限制暴露。
-
应用最小权限:限制账户和服务的访问权限,使其仅用于其所需。避免授予广泛或默认的访问权限。
-
监控异常:定期检查身份验证日志。查找异常活动,例如位置变更、重复使用令牌或异常 API 行为。
-
安全凭证:避免对令牌或密钥进行硬编码。使用安全保管库或密钥管理系统妥善存储它们。
当 GenAI 模型随着时间的推移变得不那么准确或可靠时,就会发生模型漂移。这通常是因为模型开始使用未经训练的数据,或者使用自训练以来发生变化的数据。
因为 GenAI 系统并非停留在实验室中,而是在真实环境中运行。这包括不断变化的用户行为、更新的内容或不断变化的业务条件。如果模型无法适应,性能就会下降,进而影响决策。
如果没有更新,法律摘要模型可能会遗漏新术语。如果产品发生变化而模型保持不变,支持聊天机器人可能会给出错误答案。即使是输入的微小变化也可能导致性能下降。这会导致混乱、结果不佳,在某些情况下还会带来监管或法律风险。
在闭源模型中,漂移尤其难以追踪。如果无法了解训练数据或模型变化,就很难理解问题所在,也很难找到解决办法。
漂移会增加出现幻觉和错位的可能性。如果模型看到不熟悉的输入,它可能会猜测。有时它会出错,但听起来很有把握。在其他情况下,它可能会忽略内置规则,或生成违反预期的输出。
如果偏差未被发现,它不仅会降低质量,还会造成运营风险、决策问题和声誉受损。
-
定期监测模型性能:将输出结果与已知基准或 KPI 进行比较。留意可能预示偏差的渐进式变化。
-
验证上游数据管道:确保输入模型的数据准确、结构化且与模型预期一致。
-
使用新数据重新训练:定期使用最新数据更新模型。这有助于模型与不断变化的输入保持一致。
-
使用反馈循环:将实际使用数据纳入模型评估。持续的反馈可以随着时间的推移提高相关性。
-
使用后备模型或集成模型:当置信度得分较低时,依赖辅助模型。这有助于在主模型出现偏差时保持准确率。
-
实施版本控制和回滚计划:备份过去的模型并跟踪其随时间的变化。如果出现性能问题,请快速回滚。
-
引入领域专家:当检测到偏差时,专家审查有助于解释输出是否仍然符合现实世界的需求。
GenAI 系统发展迅速,但管理它们所需的治理却往往滞后。
这些工具可以处理敏感数据、自动化决策,并生成影响人员和系统的内容。如果没有监管,它们会带来法律、运营和声誉方面的风险。
管控看不见摸不着的东西非常困难。许多组织缺乏对正在使用的模型、接触的数据以及它们在生产中的行为方式的可见性。
当模型以不同的方式部署时,事情会变得更加复杂。基于 API 的模型可能有一套要求。内部托管的开源模型可能需要另一套要求。每种设置都需要各自的控制措施,并且可能根据使用地点和方式受到不同的监管。
许多 GenAI 模型也难以审计。它们通常像黑匣子一样工作。并不总是清楚哪些数据影响了输出结果,或者决策是如何做出的。这在招聘、医疗保健或金融等敏感领域尤其危险——这些领域的法律可能要求证明其公平性、透明度或非歧视性。
培训又增加了一层。如果微调涉及内部数据,则存在泄露个人或专有信息的风险——尤其是在没有明确政策或安全流程的情况下。
面向公众的 GenAI 工具可能会被探测或操纵。如果没有防护措施,它们可能会泄露数据或生成有害内容。这将使组织面临违反合规性的风险,甚至更糟的是,引发公众的强烈反应。
-
正在使用的库存模型:识别整个组织的所有 GenAI 工具,包括实验或影子项目。
-
记录数据源:追踪数据在训练、微调和推理中的使用情况。标记任何敏感或受监管的内容。
-
制定模型批准政策:定义哪些可以批准,哪些不可以批准,以及如何做出决策。
-
跨团队共享所有权:法律、合规、安全和工程应在治理方面进行协调。
-
监控模型行为:注意漂移、偏差或误用——尤其是在面向客户或影响较大的用例中。
-
遵守法规:定期审查法律和框架。AI合规性是一个不断变化的目标。
GenAI 模型通常很复杂。它们的输出结果可能难以追踪。而且在很多情况下,我们并不清楚某个决策是如何或为何做出的。
透明度关乎可见性。这意味着了解模型的工作原理、训练数据以及其局限性。它还包括访问文档、性能指标和输入/输出行为。
可解释性则更进一步。它侧重于理解。人类能否以一种合理的方式来解读模型的决策?
如果人工智能系统拒绝贷款或标记健康状况,用户会想知道原因。如果它无法自我解释,就会在操作、法律和伦理方面产生问题。
如果没有透明度,偏见就更难被发现。如果模型是基于偏差数据进行训练的,它可能会强化不公平的结果。但如果没有人能够洞察内部,就无法审核或纠正这种行为。
缺乏可解释性也使得系统更难改进。开发人员无法调试他们不理解的内容。用户也可能不再信任系统——尤其是在高风险的环境中。
有些模型会记住部分训练数据。如果其中包含敏感信息,则可能会在推理过程中泄露。如果模型的训练过程不透明,这些风险可能会被忽视。
如果您无法解释模型在做什么,您就无法保护它、管理它或期望其他人信任它。
-
记录正在使用的每个模型:包括其功能、训练数据源和已知的限制。
-
应用可解释性技术:根据用例使用特征重要性、显著性图或自然语言论证等方法。
-
透明度设计:阐明模型看到什么、可以输出什么以及涉及人工监督的地方。
-
持续监控输出:注意偏见、漂移或异常行为,并在必要时触发审查。
-
与法律和合规团队保持一致:确保透明度实践支持监管要求。
-
避免在敏感区域使用黑匣子模型:或者在必须使用时添加护栏以降低风险。
-
使解释有意义:目标不仅仅是生成解释,而是帮助人们理解模型正在做什么。
https://www.paloaltonetworks.com/cyberpedia/generative-ai-security-risks
原文始发于微信公众号(AI与安全):PaloAlto:GenAI的主要风险及策略,图文并茂,备存
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/4167325.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论