搜索引擎可以通过robots.txt
文件可以获知哪些页面可以爬取,哪些页面不可以爬取。robots.txt
文件可能会泄露网站的敏感目录或者文件,比如网站后台路径,从而得知其使用的系统类型,从而有针对性地进行利用。如我们的博客的rebots.txt的配置如下图。
-
User-agent
指定搜索引擎,*
代表所有的搜索引擎。 -
Disallow
禁止爬的目录
漏洞利用
robots.txt
文件漏洞算是低微漏洞。但是在配置过程中往往存在敏感信息和目录泄露的风险。具体表现在下面几个方面。
敏感目录泄露
在robots.txt
文件中,我们会设置很多敏感目录。如管理后台地址。phpmyadmin地址等等。为了不让搜索引擎抓取到,我们往往在文件中添加对应的路径。从而造成敏感信息泄露。
CMS识别
有时候,要想知道一个站点是基于那个框架开发的,我们可以观察robots.txt
文件中目录的结构。如我们常见的WordPress
Discuz
等cms程序其robots.txt
文件都是特定的。在默认情况下可以直接通过该文件推断cms。
安全建议
-
合理配置 robots.txt
文件。 -
加强后台管理密码
原文始发于微信公众号(kali笔记):浅谈Robots.txt文件在渗透测试中的应用
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论