pip安装
pip install datatrove[FLAVOUR]
pip install datatrove[all]
pip install datatrove[io]
pip install datatrove[processing]
pip install datatrove[s3]
pip install datatrove[cli]
源码获取
git clone https://github.com/huggingface/datatrove.git
tokenize_c4.py:直接将数据读取至tokenize;
minhash_deduplication.py:完整管道读取并消除重复数据;
sentence_deduplication.py:精确消除重复数据;
exact_substrings.py:ExactSubstr的运行样例;
读取数据
text_key:包含了每个样本字符串内容的字典键,默认为text;
id_key:包含了每个样本id的字典键,默认为id;
default_metadata:包含默认元数据值的字典;
recursive:是否递归读取data_folder子目录中的文件;
glob_pattern:匹配指定的文件,例如glob_pattern="*/warc/*.warc.gz",将匹配warc目录中所有.warc.gz后缀的文件;
adapter:获取Reader读取的原始目录,并返回一个字典;
limit:仅读取有限数量的样本,主要用于测试和调试;
提取文本
过滤数据
存储数据
JsonlWriter(
f"{MAIN_OUTPUT_PATH}/non_english/",
output_filename="${language}/" + DUMP + "/${rank}.jsonl.gz", # folder structure: language/dump/file
)
消除重复数据
DateTrove Document对象
text:每一个样本的实际文本内容;
id:样本的唯一ID(字符串);
metadata:存储额外信息的字典;
原文始发于微信公众号(FreeBuf):DataTrove:一款针对大规模文本数据的处理、过滤和消除重复数据工具
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论