大家好,今天给大家推荐的是一篇来自CISPA Helmholtz Center for Information Security张阳研究组、UCL、Binghamton University、TU Delft和Boston University联合投稿的关于测量和触发聊天机器人中的“有毒”行为的文章--“Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots”,目前该工作已被ACM CCS 2022录用,并获得了今年CCS的Best Paper Honorable Mention。在这篇论文中,作者测量对话系统中“有毒”行为并以此为基础去进行攻击。
过去几年,聊天机器人越来越多地被应用于不同用途,像是在线购物助理、为患者提供线上资询等等。然而,聊天机器人的潜在不良行为还有待研究。
在保护聊天机器人模型之前,首先需要了解聊天机器人的潜在问题。因此,作者集中在三个研究问题上:
-
什么样的查询更有可能促使聊天机器人做出不合当的回应?
-
-
攻击者是否可以利用这些数据来训练攻击模型去生成更多此类无害查询?
在第一部分,作者尝试去了解聊天机器人何时以及如何回应“有毒”的对话(如上图)。首先,作者将两个不同的数据集输入到聊天机器人。并利用Google Perspective API去量化所有查询和反应的毒性,并根据结果将对话分为四类:无毒到有毒 (NT2T)、无毒到无毒 (NT2NT)、有毒到有毒 (T2T),有毒到无毒 (T2NT)。最后,作者分析这些类别并研究数据集和模型之间的关系。另外,作者专注于 NT2T 场景(即输入正常查询并得到有毒回应)。
如上图所示,在大多数情况下,有毒和无毒查询并不会触发有毒回应。然而,作者也观察到一定数量的NT2T。目前日常生活中,有大量的用户会使用到聊天机器人,即便是小量的攻击也会成为问题。
作者上一节的实验表明,聊天机器人可能会对一些无毒查询产生有毒反应。因此,攻击者可以利用这一点来触发聊天机器人有毒回应即使他们的查询是无毒的。所以,作者调查攻击者是否可以生成可以导致有毒回应的无毒查询。至此,作者提出了 ToxicBuddy(如上图),这是一种毒性触发攻击。同时,ToxicBuddy 也可以作为一个审计工具去评 估聊天机器人模型。
ToxicBuddy 分两个阶段运行:1)准备辅助数据和 2)无毒查询生成。在前者中,ToxicBuddy 收集来自第一部分中测量的聊天机器人模型的 NT2T;这构成了辅助数据集。其次,攻击者使用辅助数据集去微调GPT-2模型,并生成一个新的无毒查询 (NTQ) 数据集来发起攻击。同时,作者亦提出两种不同的攻击增强方法:clustering (聚类增强)和 prefix(前缀增强)。
实验结果表明,ToxicBuddy 所生成的数据(NTQ)比起普通的输入能够更好的去镯发不良对话。此外,聚类增强(NTQ+cluster)和前缀增强 (NTQ+prefix)可以更进一步地提高攻击成功率(NT2T)。
另外,本文评估了3种防御方法:知识蒸馏(Knowledge Distillation) ,安全过滤器(Safety Filter) 和 SaFeRDialogues。实验结果(在正文中)显示现有的这3种防御无法有效解:无法做到既基本维持模型在原任务上的性能,又有效减少有毒回应的情况。
https://arxiv.org/pdf/2209.03463.pdf
目前是德国CISPA的在读博士生,主要研究方向是NLP的安全隐私以及可信机器学习,相关研究成果已经发表在国际安全顶级会议 ACM CCS 2022。
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2022-11-10 Why So Toxic?
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/1402892.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论