介绍
在对模型进行内容安全方面的测试,或者是Prompt注入、越狱时,我们通常会询问一些不安全的问题,此时我们可以参考一些已有的用来测试的数据集,或者是参考最新的论文寻找一些最新的越狱手法,本篇就来记录一下数据集的查找。
对于模型安全测试来说,查找数据集有很多的平台,这里以HuggingFace、arXiv、Github为例,首先我们先确定搜索的关键字,这里列举了一些关键词,如下:
jailbreak(越狱)、prompt injection(提示词注入)、adversarial(对抗)、security(安全)、unsafe(不安全),safety(安全)、injections(注入)、content safety(内容安全)、PII(个人隐私数据)等等。
然后根据上面的提示词我们去相关平台搜索即可,也可以同时搜索多个关键词,比如prompt就可以和safety、injections等进行组合。
HuggingFace
HuggingFace搜索时,我们选择Datasets数据集,然后在数据集栏下的搜索框中输入关键字进行搜索,对于搜索的结果我们可以在右侧的排序功能中对其进行排序,比如说like数最多的,或者是最近更新的,可以根据自己需求进行指定。
再就是左侧的Tasks筛选功能,它可以选择对应的分类,比如是文生文的数据集,还是文生图的数据集等,如下图。
我们点开对应的数据集后,可以查看它的相关数据,它会包含很多列,只做问题询问,可以直接拿对应的提示词那一列。
同时数据集支持SQL查询,比如我们想搜索这个数据集的prompt中包含bomb关键词的问题,首先切换到DataStudio栏,如下图:
切换后右侧会有一个查询框,它支持自然语言交互自动生成对应SQL,比如我说查找prompt列中包含bomb内容的数据,它会自动生成对应的查询SQL,然后自动执行并把结果显示在左侧,也可以手动点击RunQuery进行查询,如下图。
arXiv
通过arXiv我们可以查看对应的最新提交的论文情况,然后看它的越狱方式,这里我们看下高级搜索,位置在搜索框的下面,如下图:
点开高级搜索页面后,有几个关键位置,第一是搜索内容,填入我们的关键字,第二是搜索项目分类,我们选择Computer Science即关于计算机科学类的,然后在日期那里选择Submission date(most recent)代表按最近提交日期排序,如下图:
Github
Github上也是输入我们前面的相关关键字进行搜索,搜索时可以在左侧选择一些选项,比如我们可以选择Repositories按照仓库来搜,搜索时也可以进行筛选,比如最多的start,或者最近更新,如下图。
以上就是关于模型安全测试时的数据集查找的一些平台和方法,感谢阅读。
关于我们
我们是《AI安全攻防》,致力于分享AI安全、渗透测试、代码审计等内容,欢迎您的关注!
原文始发于微信公众号(AI安全攻防):模型安全测试基础:如何精确查找数据集
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论