利用Robots.txt内提供的信息来对网站的安全进行检测

IT知识堂

利用Robots.txt内提供的信息来对网站的安全进行检测

什么是robots.txt文件?

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

Robots可以告诉搜索引擎在你的网站中不想让访问的部分，但也会暴露你网站中不想让别人看到的部分。虽然搜索引擎不会把Robots中禁止收录的页面加入搜索索引中，但是任何用户都可以不通过任何方式打开你的Robots.txt（如：http://zhangqian.me/Robots.txt），这样你不想让搜索引擎收录的页面就会被其他人轻松的得到了，虽然不是通过搜索引擎！我在建站初期为了看一些大哥级别的网站如何规范的写Robots.txt文件时，无意中在“中国站长联盟(cnzz)”的网站中看到了Robots.txt文件。

User-agent: * 
Disallow: /.QcIadd
Disallow: /265a
Disallow: /cert
Disallow: /cnz31
Disallow: /cnz32
Disallow: /cron
Disallow: /template
Disallow: /sda1

User-agent: *

Disallow: /.QcIadd

Disallow: /265a

Disallow: /cert

Disallow: /cnz31

Disallow: /cnz32

Disallow: /cron

Disallow: /template

Disallow: /sda1

在CNZZ的Robots.txt中告诉所有的搜索引擎不希望访问的目录有：.QcIadd、265a、cert、cnz31、cnz32、cron、template、sda1这些文件夹。其中cnz32即为此网站的监测系统，路径为http://www.cnzz.com/cnz32/，大家可以打开看看。还有部分目录好象是管理员登陆的路径，虽然Robots.txt文件的作用是不希望搜索引擎收录而让用户搜索的时候找到，但是在Robots.txt仍然可以看到这些站长不希望其他用也看到的信息。在Google管理员工作中提供了一些Robots的写法，可以使用$和*来匹配路径。可以参照本站的Robots文件进行书写！

2008年4月17日

搜索引擎

唏嘘一世

利用Robots.txt内提供的信息来对网站的安全进行检测

最新日志

最新评论

日志归档

好友链接