识别验证码继续爆破后台(三)

admin 2022年4月14日07:13:45评论52 views字数 1027阅读3分25秒阅读模式

前言


前戏回顾(点击可直接访问)


识别验证码继续爆破后台


识别验证码继续爆破后台(二)


正文


有的时候,并不是说所有验证码用api或者tesseract都可以正确识别出来的,还是需要经过相关训练,让tesseract知道你想让它识别出来的验证码。


首先安装tesseract和其训练工具

brew install tesseract --with-training-tools

直接用命令识别验证码

tesseract 1.jpg 1

发现识别还是有点问题

识别验证码继续爆破后台(三)

我们利用jTessBoxEditor进行训练

首先我们先下载点图片下来

识别验证码继续爆破后台(三)

然后把要训练的图片合为tif格式

识别验证码继续爆破后台(三)

保存文件名为[lang].[fontname].exp[num].tif,如yuyan.ziti.exp0.tif

使用命令生成box文件

tesseract yuyan.ziti.exp0.tif yuyan.ziti.exp0 batch.nochop makeboxbox文件为各个分割出来的内容的坐标

识别验证码继续爆破后台(三)

利用jTessBoxEditor打开tif文件来对内容进行纠正并保存。

识别验证码继续爆破后台(三)

PS:x往左右移动大小不变, y上下移动大小不变,w往左右扩张 ,h上下扩张。

使用命令训练生成tr文件

tesseract yuyan.ziti.exp0.tif yuyan.ziti.exp0 nobatch box.train

使用命令输出字符集

unicharset_extractor yuyan.ziti.exp0.box

创建font_properties文件来表示字体样式信息。

内容为

ziti 0 0 0 0 0

使用命令创建聚类

shapeclustering -F font_properties -U unicharset –O yuyan.unicharset yuyan.ziti.exp0.tr

使用命令创建特征

mftraining -F font_properties -U unicharset yuyan.ziti.exp0.tr

使用命令输出数据文件

cntraining yuyan.ziti.exp0.tr

把unicharset, inttemp, normproto, pffmtable,shapetable这四个文件加上前缀"ziti"

使用命令生成语言包

combine_tessdata ziti.

识别验证码继续爆破后台(三)


复制traineddata文件到tesseract-OCR字体目录

先不用我们的字体识别一下试试

识别验证码继续爆破后台(三)


使用-l指定我们的字体包试试

识别验证码继续爆破后台(三)


后续


完。

原文始发于微信公众号(中国白客联盟):识别验证码继续爆破后台(三)

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年4月14日07:13:45
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   识别验证码继续爆破后台(三)http://cn-sec.com/archives/783422.html

发表评论

匿名网友 填写信息