越聪明越危险？如何约束大模型的高智商犯罪

admin

102746
文章

87
评论

2023年12月26日13:47:23评论16 views字数 1835阅读6分7秒阅读模式

11月初，包括中国、美国、英国和欧盟在内的28个国家和地区，在首届人工智能安全峰会上签署《布莱奇利宣言》，这份文件相当于国际社会对于人工智能发展的“道德指南针”，试图在保障技术创新的同时，避免可能出现的负面影响。

人工智能就像是新一轮科技革命的超级引擎，而大模型的出现则给这个引擎加装了一对超级涡轮，加速产业升级与经济增长。然而，就像电影里的剧情，随着力量的增强，威胁也随之而来，不受控的超级英雄随时可能变成超级炸弹。

大模型带来的隐私问题、内容安全风险、道德伦理挑战，甚至是那些让人分不清真假的“内容幻觉”，都是我们必须面对的新挑战。在我们上一篇文章中（指路：猎影观察：在勒索的泥土里，如何阻止大模型开出恶之花？），探讨了一个颇为戏剧性的话题：某些大型语言模型竟被诱导生成了勒索加密代码，好比是给网络坏蛋们送上了一把“全自动连发步枪”。

但这并不是个孤立事件，事实上，这类安全风险在主流大模型中比比皆是。虽然开发者们都在努力引导这些机器巨人走向光明的道路，尽量回答合法且积极的内容，但总有“调皮”的模型偷偷跑偏，从数据收集到内容生成，在大模型生命周期中间，处处皆是风险：

模型构建时期

这是大模型生命周期的起始阶段，涵盖从数据收集到模型开发。关键风险包括训练数据集的安全性（涉及隐私、侵权、有害、违法、敏感数据等），软件供应链安全（潜在的供应链攻击风险），开源大模型安全性（可能存在的后门风险），内部威胁（员工滥用模型或数据），以及法律合规风险（必须遵循的算法备案和变更要求）。

模型部署时期

这一阶段涉及将模型部署到实际的生产环境。主要风险包括模型泄漏（未授权访问模型文件或实例）和模型篡改（恶意修改模型的参数或代码）。

模型运营时期

在此阶段，大模型被应用于实际业务，提供服务。需要关注的安全威胁包括内容安全（比如不安全的输出、数据泄露、伦理道德风险等）和模型稳定性安全（如输入的高频率可能影响模型推理能力和服务稳定性）。这是一个动态阶段，需要持续监控和改进，确保模型的稳定运行和满足用户需求。

图：大模型生命周期安全框架

针对大模型的安全隐患和风险挑战，多个国家和地区高度关注人工智能治理。今年6月，欧洲议会全体会议表决通过《人工智能法案》提案的谈判授权草案。7月，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局七部门发布《生成式人工智能服务管理暂行办法》。10月，美国总统拜登签署一项行政命令，为人工智能安全制定新标准。这些文件就像是在给大模型的世界设置了一些“交通规则”，确保它们在高速行驶的时候不会发生“事故”。

然而，仅靠“道德约束”显然是不足以控制“狂飙突进”的大模型，我们需要用更多的安全技术和解决方案来保持这个人工智能产业的平衡和和谐。

为了约束大模型潜在的“犯罪倾向”，安恒信息针对内容安全设计了多角度的自动化评估方案，解决了评估过程中数据量庞大、人力资源占用多、专业知识依赖强的问题，提升了大模型安全评估的准确性和完整性。

图：生成式大模型内容安全评估流程

基于该方案，我们对全行业主流的大模型做了对应的安全评估，并发现了一个颇具讽刺意味的现象——越聪明，越危险。

那些功夫不太行的模型，因为自身的理解和生成能力有限，经常说些天马行空的话，反而不小心挡住了一些攻击。相比之下，那些理解能力更强的模型，在特定情况下反而更容易受到各种攻击手段的威胁，提示词注入、不安全的内容输出、违规内容、数据泄露等安全问题有较大概率出现。这就好像是在说，随着大模型的理解能力不断提升，它们面临的安全风险也可能成正比增长。

图：主流大模型内容安全评估结果

详细评估报告可联系安恒信息当地行销获取

面对上述这些问题，我们需要利用更多的安全技术和解决方案来保障大模型的安全性。比如开发更强大的隐私保护技术，结合差分隐私、安全多方计算等方案，以保护训练数据的隐私；针对内容安全，我们需要更加全面的评估方案，来应对不同的业务场景；在道德伦理问题方面，目前已有通过强化学习和反馈学习来增加模型的道德水平的例子。各种相关问题的解决方案正在不断涌现，安恒信息将持续投入大模型安全风险防范的能力建设和生态建设。

图：大模型安全解决方案

尽管我们仍面临巨大的安全挑战，但我们有理由相信，通过利用更多的安全技术和解决方案，未来我们将有足够的能力，可以保障大模型的安全性，最大限度地发挥其在社会中的积极作用。

原文始发于微信公众号（网络安全研究宅基地）：越聪明越危险？如何约束大模型的“高智商犯罪”

左青龙
微信扫一扫

右白虎
微信扫一扫

越聪明越危险？如何约束大模型的高智商犯罪

谷歌Play 商店拒绝了 228 万款有风险的 Android 应用

Forrester：2024年五大网络安全新威胁

新的R编程漏洞暴露项目面临供应链攻击

SpaceX 遭攻击，泄露近150GB数据以及多份图纸

为什么使用微软AI会加剧现有的数据质量和隐私问题

5000 多台 CrushFTP 服务器被零日漏洞攻击

利用山寨谷歌 Chrome 传播，安全公司披露勒索木马 Brokewell

大众汽车遭黑客入侵长达 5 年，燃油引擎 / 电池等机密文件泄露

原创 | 近年全球石油天然气行业网络安全事件汇总分析

近年全球石油天然气行业网络安全事件汇总分析

发表评论

在线咨询

微信