Gospider 基于Go的网络爬虫

admin 2024年11月24日12:08:40评论14 views字数 3499阅读11分39秒阅读模式
GoSpider-用Go编写的快速网络爬虫。

Gospider 基于Go的网络爬虫
0x01 工具安装

1、Go安装

GO111MODULE=on go install github.com/jaeles-project/gospider@latest
2、Docker安装 :

# Clone the repogit clone https://github.com/jaeles-project/gospider.git# Build the contianerdocker build -t gospider:latest gospider# Run the containerdocker run -t gospider -h
0x02 基础使用

1、正常的输出:

gospider -q -s "https://google.com/"
2、使用单个站点运行:

gospider -s "https://google.com/" -o output -c 10 -d 1
3、使用站点列表运行:

gospider -S sites.txt -o output -c 10 -d 1
4、同时运行 20 个站点,每个站点 10 个机器人:

gospider -S sites.txt -o output -c 10 -d 1 -t 20
5、还可以从第三方(Archive.org、CommonCrawl.org、VirusTotal.com AlienVault.com)获取网址:

gospider -s "https://google.com/" -o output -c 10 -d 1 --other-source
6、还可以从第三方(Archive.org、CommonCrawl.org、VirusTotal.com、AlienVault.com)获取网址并包含子域:

gospider -s "https://google.com/" -o output -c 10 -d 1 --other-source --include-subs
7、使用自定义标头:

gospider -s "https://google.com/" -o output -c 10 -d 1 --other-source -H "Accept: */*" -H "Test: test" --cookie "testA=a; testB=b"gospider -s "https://google.com/" -o output -c 10 -d 1 --other-source --burp burp_req.txt
8、黑名单网址/文件扩展名:

P/s:默认列入黑名单的gospider(.(jpg|jpeg|gif|css|tif|tiff|png|ttf|woff|woff2|ico))

gospider -s "https://google.com/" -o output -c 10 -d 1 --blacklist ".(woff|pdf)"
9、显示文件长度并将其列入黑名单:

gospider -s "https://google.com/" -o output -c 10 -d 1 --length --filter-length "6871,24432"  
其他参数用法:

Fast web spider written in Go - v1.1.5 by @thebl4ckturtle & @j3ssiejjjUsage:  gospider [flags]Flags:  -s, --site string               Site to crawl  -S, --sites string              Site list to crawl  -p, --proxy string              Proxy (Ex: http://127.0.0.1:8080)  -o, --output string             Output folder  -u, --user-agent string         User Agent to use                                    web: random web user-agent                                    mobi: random mobile user-agent                                    or you can set your special user-agent (default "web")      --cookie string             Cookie to use (testA=a; testB=b)  -H, --header stringArray        Header to use (Use multiple flag to set multiple header)      --burp string               Load headers and cookie from burp raw http request      --blacklist string          Blacklist URL Regex      --whitelist string          Whitelist URL Regex      --whitelist-domain string   Whitelist Domain  -t, --threads int               Number of threads (Run sites in parallel) (default 1)  -c, --concurrent int            The number of the maximum allowed concurrent requests of the matching domains (default 5)  -d, --depth int                 MaxDepth limits the recursion depth of visited URLs. (Set it to 0 for infinite recursion) (default 1)  -k, --delay int                 Delay is the duration to wait before creating a new request to the matching domains (second)  -K, --random-delay int          RandomDelay is the extra randomized duration to wait added to Delay before creating a new request (second)  -m, --timeout int               Request timeout (second) (default 10)  -B, --base                      Disable all and only use HTML content      --js                        Enable linkfinder in javascript file (default true)      --subs                      Include subdomains      --sitemap                   Try to crawl sitemap.xml      --robots                    Try to crawl robots.txt (default true)  -a, --other-source              Find URLs from 3rd party (Archive.org, CommonCrawl.org, VirusTotal.com, AlienVault.com)  -w, --include-subs              Include subdomains crawled from 3rd party. Default is main domain  -r, --include-other-source      Also include other-source's urls (still crawl and request)      --debug                     Turn on debug mode      --json                      Enable JSON output  -v, --verbose                   Turn on verbose  -l, --length                    Turn on length  -L, --filter-length             Turn on length filter  -R, --raw                       Turn on raw  -q, --quiet                     Suppress all the output and only show URL      --no-redirect               Disable redirect      --version                   Check version  -h, --help                      help for gospider

工具包

https://github.com/jaeles-project/gospider

原文始发于微信公众号(白帽学子):Gospider 基于Go的网络爬虫

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年11月24日12:08:40
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Gospider 基于Go的网络爬虫https://cn-sec.com/archives/1620593.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息