Microsoft 发布 PyRIT，能自动识别AI系统中的风险

2024年2月28日14:12:52评论5 views字数 936阅读3分7秒阅读模式

关键词

系统风险

Microsoft发布了一个名为PyRIT（Python风险识别工具的缩写）的开放访问自动化框架，以主动识别生成式人工智能（AI）系统中的风险。

红队工具旨在“使全球每个组织都能利用最新的人工智能进步进行负责任的创新，”Microsoft AI 红队负责人 Ram Shankar Siva Kumar 说。

该公司表示，PyRIT可用于评估大型语言模型（LLM）终点对不同危害类别的鲁棒性，例如捏造（例如幻觉），滥用（例如，偏见）和禁止内容（例如，骚扰）。

它还可用于识别从恶意软件生成到越狱的安全危害，以及身份盗窃等隐私危害。

PyRIT带有五个接口：目标、数据集、评分引擎，支持多种攻击策略的能力，并包含一个内存组件，该组件可以采用JSON或数据库的形式来存储中间输入和输出交互。

评分引擎还提供了两种不同的选项，用于对目标 AI 系统的输出进行评分，允许红队员使用经典的机器学习分类器或利用 LLM 端点进行自我评估。

“我们的目标是让研究人员能够了解他们的模型和整个推理管道在不同危害类别中的表现如何，并能够将该基线与模型的未来迭代进行比较，”Microsoft说。

Microsoft 发布 PyRIT，能自动识别AI系统中的风险

“这使他们能够获得关于他们的模型今天表现如何的经验数据，并根据未来的改进来检测性能的任何下降。

也就是说，这家科技巨头小心翼翼地强调，PyRIT并不能替代生成式AI系统的手动红队，它补充了红队现有的领域专业知识。

换句话说，该工具旨在通过生成可用于评估人工智能系统和标记需要进一步调查的区域的提示来突出风险“热点”。

Microsoft进一步承认，红队生成式人工智能系统需要同时探测安全和负责任的人工智能风险，这种做法更具概率性，同时也指出了生成式人工智能系统架构的巨大差异。

“手动探测虽然很耗时，但通常需要识别潜在的盲点，”Siva Kumar说。“扩展需要自动化，但不能替代手动探测。”

这一发展正值 Protect AI 披露了 ClearML、Hugging Face、MLflow 和 Triton Inference Server 等流行 AI 供应链平台中的多个关键漏洞之际，这些漏洞可能导致任意代码执行和敏感信息泄露。

END

原文始发于微信公众号（安全圈）：【安全圈】Microsoft 发布 PyRIT，能自动识别AI系统中的风险

最新报告显示：2023年是工控网络攻击最少的一年