模型安全测试基础:如何精确查找数据集

admin 2025年3月17日21:35:39评论10 views字数 1225阅读4分5秒阅读模式

介绍

在对模型进行内容安全方面的测试,或者是Prompt注入、越狱时,我们通常会询问一些不安全的问题,此时我们可以参考一些已有的用来测试的数据集,或者是参考最新的论文寻找一些最新的越狱手法,本篇就来记录一下数据集的查找。

对于模型安全测试来说,查找数据集有很多的平台,这里以HuggingFace、arXiv、Github为例,首先我们先确定搜索的关键字,这里列举了一些关键词,如下:

jailbreak(越狱)、prompt injection(提示词注入)、adversarial(对抗)、security(安全)、unsafe(不安全),safety(安全)、injections(注入)、content safety(内容安全)、PII(个人隐私数据)等等。

然后根据上面的提示词我们去相关平台搜索即可,也可以同时搜索多个关键词,比如prompt就可以和safety、injections等进行组合。

HuggingFace

HuggingFace搜索时,我们选择Datasets数据集,然后在数据集栏下的搜索框中输入关键字进行搜索,对于搜索的结果我们可以在右侧的排序功能中对其进行排序,比如说like数最多的,或者是最近更新的,可以根据自己需求进行指定。

再就是左侧的Tasks筛选功能,它可以选择对应的分类,比如是文生文的数据集,还是文生图的数据集等,如下图。

模型安全测试基础:如何精确查找数据集

我们点开对应的数据集后,可以查看它的相关数据,它会包含很多列,只做问题询问,可以直接拿对应的提示词那一列。

同时数据集支持SQL查询,比如我们想搜索这个数据集的prompt中包含bomb关键词的问题,首先切换到DataStudio栏,如下图:

模型安全测试基础:如何精确查找数据集

切换后右侧会有一个查询框,它支持自然语言交互自动生成对应SQL,比如我说查找prompt列中包含bomb内容的数据,它会自动生成对应的查询SQL,然后自动执行并把结果显示在左侧,也可以手动点击RunQuery进行查询,如下图。

模型安全测试基础:如何精确查找数据集

arXiv

通过arXiv我们可以查看对应的最新提交的论文情况,然后看它的越狱方式,这里我们看下高级搜索,位置在搜索框的下面,如下图:

模型安全测试基础:如何精确查找数据集

点开高级搜索页面后,有几个关键位置,第一是搜索内容,填入我们的关键字,第二是搜索项目分类,我们选择Computer Science即关于计算机科学类的,然后在日期那里选择Submission date(most recent)代表按最近提交日期排序,如下图:

模型安全测试基础:如何精确查找数据集

Github

Github上也是输入我们前面的相关关键字进行搜索,搜索时可以在左侧选择一些选项,比如我们可以选择Repositories按照仓库来搜,搜索时也可以进行筛选,比如最多的start,或者最近更新,如下图。

模型安全测试基础:如何精确查找数据集

以上就是关于模型安全测试时的数据集查找的一些平台和方法,感谢阅读。

关于我们

我们是《AI安全攻防》,致力于分享AI安全、渗透测试、代码审计等内容,欢迎您的关注!

原文始发于微信公众号(AI安全攻防):模型安全测试基础:如何精确查找数据集

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年3月17日21:35:39
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   模型安全测试基础:如何精确查找数据集https://cn-sec.com/archives/3849239.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息