老域名交易

老域名购买,查询,出售,挖掘,注册,抢注,老域名购买,老域名出售,老域名注册,老域名查询,瑞昌网站建设

分析学习五个robots实用案例语句的使用方法

作者:zhushican 发布:2014/7/29 分类:建站教程 阅读: 次 0条评论

    网站robots.txt相信作为网站的一个必须文件,每一个站长都接触过,robots文件控制蜘蛛的爬取,对文件的抓取具有重要的意义,可以防止不想让曝光的文件隐藏起来,控制抓取的路径,从而让网站更加合适出现搜索引擎SERP界面中,那么,这篇文章介绍一些robots的实用案例介绍robots的技巧和解释一下robots语句的判别方法
  (1):allow和disallow的顺序案例

  笔者书写一段robots文件的语句

  User-agent: *

  Allow: /

  Disallow: /abcd/

  相信从这样一段中可以理解,肯定是想屏蔽/abcd/文件夹,不让蜘蛛爬取这个文件夹中的网站文件;但是经过分析却发现,这段语句和最终所造成的结果却是大相径庭的,蜘蛛任然会爬取/abcd/文件夹;原因就在于蜘蛛从这里的获取的规则是从上而下获取的,在下面所写的规则不能打败在上面所写的规则,如果按照影响范围来解释上面的情况的话,那就是,因为已经设置了“Allow: /”那么对蜘蛛的影响是全局性的,允许蜘蛛访问这个网站所有的文件,而在第三行中,“Disallow: /abcd/”,设置之后,就是在前一个影响范围之中进行的,本身abcd文件夹就是在网站目录中,也收到了第二条的影响,所以,第三条是无效的,那么可以说来,这段robots.txt的写法中,蜘蛛任然可以抓取/abcd/文件夹。

  User-agent: *

  Disallow: /abcd/

  Allow: /

  这个例子仅仅是将顺序颠倒了一番,可是去可以让蜘蛛访问/abcd/文件夹,如果你看懂了上一个例子的解释的话,那么你肯定知道是为什么?笔者来说下吧,这个例子中,由于“Disallow: /abcd/”在前面,那么由于限制的出现,它所影响的文件夹是/abcd/文件夹,在第三行中“Allow: /”,影响的范围本来是全局,但这条语句对蜘蛛的影响不能妨碍前一条语句,所以,蜘蛛本来想通过第三条语句访问全部的目录的,但是第三条语句的权限打败不了第二条语句,所以就只能放弃了,只能访问除了/abcd/之外的文件夹了。

  User-agent: *

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  在百度的robots官方说明之中,有这样一条介绍,主题是"例7. 允许访问特定目录中的部分url",允许蜘蛛访问特定目录的部分URL,然后给了上述的语句,不知道大家看懂了吗?说明一下吧,在这段语句中,蜘蛛因为权限的关系,可以通过第二,三,四行,访问“ /cgi-bin/see”,“/tmp/hi”,“/~joe/look”,指定的文件,虽然在后面几行中,加入了disallow,但是因为后一条权限无法约束前一条,所以对于蜘蛛来说,还是可以访问allow所指定的URL的。不知道可懂了?

  (2):“/”斜杠的应用案例

  User-agent: *

  Allow: /cgi-bin/

  Disallow: /cgi-bin

  上面是笔者随意想到的,可以在这里解释一下斜杠的使用,在上述的简答语句之中,第二行和第三行,一个有“/”,一个没有,其中在allow语句之中,因为有“/”存在,所以允许蜘蛛可以爬取文件夹“cgi-bin”下的网站文件,而不能控制蜘蛛是否爬取这个文件夹,也就是说“/”控制文件夹下的文件,不控制文件夹本身,所以在第三行中,笔者通过disallow控制不让蜘蛛爬行“cgi-bin”文件夹,但是不能控制第二条语句中的权限,仅仅可以控制蜘蛛爬取文件夹,所以最终,蜘蛛只能爬取“cgi-bin”文件夹的文件,不能爬取“cgi-bin”这个目录。

  User-agent: *

  Disallow: regnew.asp (Disallow:/regnew.asp)

  上面的语句中,笔者这样写,是因为有很多朋友都会忽视“/”的存在,如果“regnew.asp”是注册页面的话,那么如果不放置“/”指定文件的所在地,蜘蛛可能就会找不到文件,引发错乱;记得以前笔者也设置不能访问的文件的时候,如果文件在根目录下的时候,就直接放上“Disallow: ***.asp”就可以了,然后却发现阻止不了蜘蛛,直到发现少了一个“/”之后,了解到原来缺少了一样指明的记号,那就是“/”,在我们平时设定文件的时候,请记得一定要加“/”,无论是其他目录之下的文件还是根目录。

除非注明,本站所有文章均为 zhushican 原创,转载请注明出处! 标签: robots  实用案例语句  使用方法  
« 上一篇下一篇 »

您可能还会对这些文章感兴趣!

分析学习五个robots实用案例语句的使用方法:目前有0条评论