邮发代号 2-786
征订热线:010-82341063
大语言模型(LLM)被视为通往通用人工智能(AGI)道路上的重要里程碑,自 2022 年底以来取得了显著发展,并展现出巨大的潜力。我国也涌现出大量的大语言模型及其衍生应用。随着技术的发展和应用范围的延展,大语言模型已从人工智能助手演变为重要的新质生产力,在社会生活、生产、科研、教育和文化等领域中扮演着越来越重要的角色。因此,我们必须以更加慎重的态度来评估大语言模型的安全性。
大语言模型在“安全”方面面临三大挑战:潜在的系统安全漏洞、内容生成的偏见与误导问题,以及二次训练时继承源模型缺陷的风险。这些问题都将对大语言模型的应用与系统安全性,以及是否符合伦理带来严峻考验。
首先,大语言模型本质上仍属于信息系统范畴。特别是那些以对话为主要交互界面的产品,需要用户通过文字和字符输入的方式进行交互。这引发了对是否可能导致诸如注入攻击、越权访问、数据泄露等安全问题的担忧。此外,部署大语言模型应用的系统及服务器是否存在潜在风险,对于这些提供大语言模型应用服务的企业来说,是网络和数据安全保护中不可忽视的潜在威胁。
其次,与传统应用不同,大语言模型通过学习海量数据,具备了“自主”生成内容的能力。因此,它生成的内容是否会存在偏见和误导,是否会僭越法律和伦理界限,这一系列问题对其应用和监管都提出了更高的挑战。
最后,由于大语言模型的开发和训练涉及高昂的成本和技术门槛,许多大语言模型的应用是在开源或商业大模型基础上进行的二次训练。然而,开发者通常缺乏对所采用模型及其训练语料的安全性进行识别与测试的能力,这导致大语言模型的偏见和漏洞往往不可避免地被继承到新应用中,从而可能引发数据、生产和经营的安全隐患。
面对日益严峻的安全风险,多国政府已着手制定相应的政策法规。美国率先发布了针对生成式人工智能的监管规定,该规定要求对大语言模型进行安全评估,并提供公平和民权方面的指引。这项命令强调了对人工智能产品进行测试的重要性,并要求将测试结果报告给联邦政府。在具体的安全评估机制方面,美国已启动了由国家标准与技术研究院(NIST)发布的“人工智能风险和影响评估”计划(ARIA),旨在回应关于大语言模型安全开发和使用的相关要求。ARIA 制定了三个不同评估级别的方法和指标,包括模型测试、红队测试和现场测试,并定期发布试点评估报告以反馈实施成效。
此外,欧盟也在积极推动大语言模型安全测试。今年 4 月,世界数字技术院(WDTA)联合多家科技巨头发布了《生成式人工智能应用安全测试标准》,为测试和验证生成式人工智能大模型的安全提供了清晰框架。欧盟委员会已宣布将考虑把该标准纳入人工智能法规框架中。该标准涵盖了基础模型选择、嵌入和矢量数据库、RAG或检索增强生成以及人工智能应用安全等多个层面,进一步确保使用大语言模型构建的应用程序在各个环节都经过严格的安全性和合规性评估,从而保障其在整个生命周期内免受威胁和漏洞的侵害。
我国同样高度重视大语言模型的安全测试评估工作。2023 年 7 月,国家网信办联合国家发改委等七部门颁布了《生成式人工智能服务管理暂行办法》,以规范其应用和发展。该办法明确了人工智能大模型应用需遵守法律法规、尊重社会公德和伦理道德,并坚持社会主义核心价值观。同时,进一步要求产品开发者承担网络信息内容生产者的责任,并确保数据处理、数据标注、算法设计等环节的合法性和质量。这些措施共同为大语言模型的安全应用设定了明确要求,也体现了全球针对大语言模型安全治理的主流思路。
作为人工智能大模型安全测试评估领域的先行者和实践者,永信至诚通过和商汤科技、UCLOUD 以及主流开源大模型厂商的广泛合作,发现大语言模型的安全水平可以通过系统且立体化的安全检查和伦理道德法律审查提高。采用基于国家法律法规并参考国际标准设计的测试集,模拟网络攻击、数据泄露、内容绕过等多种诱发因素,检测大语言模型的“DNA”同源标记,以最大限度地识别潜在的安全隐患,同时,构建“测试-发现风险-迭代优化-再测试-再迭代优化”的科学机制,形成风险循环验证、消除和收敛的闭环,不断增强大语言模型安全能力。
由于大语言模型系统的复杂性和黑盒属性,通过常规手段进行测试难以发现更多潜在的安全风险。永信至诚旗下的智能永信公司通过训练一个人工智能安全大模型,并将它接入“数字风洞”测试评估平台,建立了“以模测模、以模固模”的人工智能安全测评机制。这一机制结合了受控微调的人工智能大模型生成能力及安全专业经验,并利用“数字风洞”对数字风险的全生命周期管理能力,从而提高了大语言模型的安全性。在“以模测模”环节中,从攻击者的视角出发,利用安全行业的垂直语料数据集和测试载荷来训练安全测评大模型,对通用大模型的系统安全和内容安全等进行深度体检,及时发现大语言模型的脆弱性和生成内容的异常。而“以模固模”则是指训练专门大模型,用于识别和过滤异常攻击指令和异常生成内容,充当“安全外脑”,利用人工智能大模型的能力帮助其他人工智能大模型及其应用提升安全性。
该模式融合了数字安全测评基础设施的安全检测能力,以及人工智能大模型在学习和智能化方面的优势。通过“数字风洞”平台对大语言模型进行循环回归测试,评估其系统安全脆弱性,并检查它在处理潜在敏感、违法或不合规内容时的反应,确保大语言模型的输出内容更加符合法律法规和社会伦理的要求。基于内置的 400 余个提示检测模板、10 余类检测场景和 20 余万个测评数据集,永信至诚的人工智能安全“数字风洞”平台现已能对大语言模型的内容安全、数据安全和基础设施安全进行全面测评。同时,针对近期大模型应用的蓬勃发展,人工智能安全“数字风洞”的“DNA 验证”模块通过分析大模型在特定测试载荷下的“应激反应”,以评估其同源性,帮助大模型开发者更好地保护知识产权和数据安全。“以模测模、以模固模”的模式能够通过人工智能大模型的能力,不断更新和完善测试用例,为大语言模型的安全应用持续提供支撑,让安全风险可发现、可预控、可处置。
人工智能技术正处于飞速发展的阶段,未来会有更多优秀的大语言模型产品进入市场。通过人工智能大模型“数字风洞”的不断迭代和在对抗中成长,将大语言模型的风险控制在安全的“围栏”中,这将为人工智能安全治理提供有力支持。我们相信,只有通过更加科学和高效的测试评估及风险管理,才能推动人工智能技术的发展和普及,让人工智能更好地服务于社会。
(本文刊登于《中国信息安全》杂志2024年第6期)
分享网络安全知识 强化网络安全意识
欢迎关注《中国信息安全》杂志官方抖音号
原文始发于微信公众号(中国信息安全):专题·大模型安全 | “数字风洞”构造大语言模型的安全“围栏”
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/3120476.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论