利用Robots.txt内提供的信息来对网站的安全进行检测
什么是robots.txt文件?
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
Robots可以告诉搜索引擎在你的网站中不想让访问的部分,但也会暴露你网站中不想让别人看到的部分。虽然搜索引擎不会把Robots中禁止收录的页面加入搜索索引中,但是任何用户都可以不通过任何方式打开你的Robots.txt(如:http://zhangqian.me/Robots.txt),这样你不想让搜索引擎收录的页面就会被其他人轻松的得到了,虽然不是通过搜索引擎!我在建站初期为了看一些大哥级别的网站如何规范的写Robots.txt文件时,无意中在“中国站长联盟(cnzz)”的网站中看到了Robots.txt文件。
1 2 3 4 5 6 7 8 9 |
User-agent: * Disallow: /.QcIadd Disallow: /265a Disallow: /cert Disallow: /cnz31 Disallow: /cnz32 Disallow: /cron Disallow: /template Disallow: /sda1 |
在CNZZ的Robots.txt中告诉所有的搜索引擎不希望访问的目录有:.QcIadd、265a、cert、cnz31、cnz32、cron、template、sda1这些文件夹。其中cnz32即为此网站的监测系统,路径为http://www.cnzz.com/cnz32/,大家可以打开看看。还有部分目录好象是管理员登陆的路径,虽然Robots.txt文件的作用是不希望搜索引擎收录而让用户搜索的时候找到,但是在Robots.txt仍然可以看到这些站长不希望其他用也看到的信息。在Google管理员工作中提供了一些Robots的写法,可以使用$和*来匹配路径。可以参照本站的Robots文件进行书写!