扫码订阅《中国信息安全》
邮发代号 2-786
征订热线:010-82341063
一、大语言模型的光明与阴影
大语言模型在“安全”方面面临三大挑战:潜在的系统安全漏洞、内容生成的偏见与误导问题,以及二次训练时继承源模型缺陷的风险。这些问题都将对大语言模型的应用与系统安全性,以及是否符合伦理带来严峻考验。
二、测试评估:大语言模型安全监管思路
面对日益严峻的安全风险,多国政府已着手制定相应的政策法规。美国率先发布了针对生成式人工智能的监管规定,该规定要求对大语言模型进行安全评估,并提供公平和民权方面的指引。这项命令强调了对人工智能产品进行测试的重要性,并要求将测试结果报告给联邦政府。在具体的安全评估机制方面,美国已启动了由国家标准与技术研究院(NIST)发布的“人工智能风险和影响评估”计划(ARIA),旨在回应关于大语言模型安全开发和使用的相关要求。ARIA 制定了三个不同评估级别的方法和指标,包括模型测试、红队测试和现场测试,并定期发布试点评估报告以反馈实施成效。
三、人工智能安全“数字风洞”,打通大模型安全落地最后一公里
作为人工智能大模型安全测试评估领域的先行者和实践者,永信至诚通过和商汤科技、UCLOUD 以及主流开源大模型厂商的广泛合作,发现大语言模型的安全水平可以通过系统且立体化的安全检查和伦理道德法律审查提高。采用基于国家法律法规并参考国际标准设计的测试集,模拟网络攻击、数据泄露、内容绕过等多种诱发因素,检测大语言模型的“DNA”同源标记,以最大限度地识别潜在的安全隐患,同时,构建“测试-发现风险-迭代优化-再测试-再迭代优化”的科学机制,形成风险循环验证、消除和收敛的闭环,不断增强大语言模型安全能力。
(本文刊登于《中国信息安全》杂志2024年第6期)
分享网络安全知识 强化网络安全意识
欢迎关注《中国信息安全》杂志官方抖音号
《中国信息安全》杂志倾力推荐
“企业成长计划”
点击下图 了解详情
原文始发于微信公众号(中国信息安全):专题·大模型安全 | “数字风洞”构造大语言模型的安全“围栏”
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论