模型安全测试基础：如何精确查找数据集

2025年3月17日21:35:39评论19 views字数 1225阅读4分5秒阅读模式

介绍

在对模型进行内容安全方面的测试，或者是Prompt注入、越狱时，我们通常会询问一些不安全的问题，此时我们可以参考一些已有的用来测试的数据集，或者是参考最新的论文寻找一些最新的越狱手法，本篇就来记录一下数据集的查找。

对于模型安全测试来说，查找数据集有很多的平台，这里以HuggingFace、arXiv、Github为例，首先我们先确定搜索的关键字，这里列举了一些关键词，如下：

jailbreak（越狱）、prompt injection（提示词注入）、adversarial（对抗）、security（安全）、unsafe（不安全），safety（安全）、injections（注入）、content safety（内容安全）、PII（个人隐私数据）等等。

然后根据上面的提示词我们去相关平台搜索即可，也可以同时搜索多个关键词，比如prompt就可以和safety、injections等进行组合。

HuggingFace搜索时，我们选择Datasets数据集，然后在数据集栏下的搜索框中输入关键字进行搜索，对于搜索的结果我们可以在右侧的排序功能中对其进行排序，比如说like数最多的，或者是最近更新的，可以根据自己需求进行指定。

再就是左侧的Tasks筛选功能，它可以选择对应的分类，比如是文生文的数据集，还是文生图的数据集等，如下图。

我们点开对应的数据集后，可以查看它的相关数据，它会包含很多列，只做问题询问，可以直接拿对应的提示词那一列。

同时数据集支持SQL查询，比如我们想搜索这个数据集的prompt中包含bomb关键词的问题，首先切换到DataStudio栏，如下图：

切换后右侧会有一个查询框，它支持自然语言交互自动生成对应SQL，比如我说查找prompt列中包含bomb内容的数据，它会自动生成对应的查询SQL，然后自动执行并把结果显示在左侧，也可以手动点击RunQuery进行查询，如下图。

通过arXiv我们可以查看对应的最新提交的论文情况，然后看它的越狱方式，这里我们看下高级搜索，位置在搜索框的下面，如下图：

点开高级搜索页面后，有几个关键位置，第一是搜索内容，填入我们的关键字，第二是搜索项目分类，我们选择Computer Science即关于计算机科学类的，然后在日期那里选择Submission date（most recent）代表按最近提交日期排序，如下图：

Github上也是输入我们前面的相关关键字进行搜索，搜索时可以在左侧选择一些选项，比如我们可以选择Repositories按照仓库来搜，搜索时也可以进行筛选，比如最多的start，或者最近更新，如下图。

以上就是关于模型安全测试时的数据集查找的一些平台和方法，感谢阅读。

我们是《AI安全攻防》，致力于分享AI安全、渗透测试、代码审计等内容，欢迎您的关注！

原文始发于微信公众号（AI安全攻防）：模型安全测试基础：如何精确查找数据集

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。