微软 AI 红队表示，在解决细微风险方面，人类参与仍然不可替代

2025年1月16日23:14:18评论38 views字数 1191阅读3分58秒阅读模式

导读

由于安全专家担心人工智能会抢走他们的工作，微软的研究人员坚持认为，有效的红队行动仍然依赖于人类的专业知识、文化意识和情商——这些品质是机器无法复制的。

该软件巨头表示，其 AI 红队严格测试了 100 多种生成式 AI 产品，并确定人类的聪明才智对于发现漏洞和预测黑客如何利用这些系统仍然至关重要。

根据微软 AI 红队的白皮书，其开源 PyRIT（Python 风险识别工具包）等工具可以简化模拟黑客攻击，但最终，在解决细微风险方面，人类的参与仍然是不可替代的。

在网络安全医学、化学或生物风险等专业领域，微软坚持认为，人类驱动的专业知识是必不可少的，才能正确、精确地评估人工智能的响应，这远远超出了语言模型的能力。

微软表示：“在多次操作中，我们依靠[人类]来帮助我们评估我们无法自己评估或使用 LLM 进行评估的内容的风险”，并认为“AI 红队意识到这些局限性非常重要”。

该公司的研究团队还提请关注所谓的“文化能力”，即红队必须考虑语言和文化差异，以识别主要基于英语数据集训练的人工智能模型可能忽视的安全风险。

研究小组表示：“人工智能红队演习中的人为因素可能在回答需要情商的人工智能安全问题时最为明显”，并指出，“这个模型响应在不同情况下会如何解释？”和“这些输出是否让我感到不舒服？”等问题只有人类操作员才能解析。

该公司补充道：“最终，只有人类操作员才能评估用户在野外与人工智能系统进行的全部互动。”

该论文还包括一个案例研究，关于微软红队如何通过评估聊天机器人如何响应处于困境中的用户来调查“心理社会危害”，并警告说，红队成员可能会接触到不成比例的“令人不安的人工智能生成的内容”。

该公司补充道：“这凸显了确保人工智能红队拥有让操作员在需要时脱离的流程和支持他们心理健康的资源的重要性。”

研究人员警告称，生成式 AI 模型与现代应用程序的集成引入了新的攻击媒介，其中包括一个视频处理 AI 应用程序中过时的 FFmpeg 组件引入了服务器端请求伪造 (SSRF) 漏洞的案例，该漏洞允许恶意黑客提升系统权限。

该团队表示：“人工智能模型通过引入新的漏洞扩大了攻击面”，并指出，快速注入利用了人工智能模型通常难以区分系统级指令和用户数据的事实。

微软AI红队白皮书：

https://airedteamwhitepapers.blob.core.windows.net/lessonswhitepaper/MS_AIRT_Lessons_eBook.pdf

新闻链接：

https://www.securityweek.com/ai-wont-take-this-job-microsoft-says-human-ingenuity-crucial-to-red-teaming/

扫码关注

军哥网络安全读报

讲述普通人能听懂的安全故事

原文始发于微信公众号（军哥网络安全读报）：微软 AI 红队表示，在解决细微风险方面，人类参与仍然不可替代

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

BlockSec | Resupply 协议攻击事件的深度分析和思考