香港独立IP空间
香港php空间
美国php空间
域名注册

之前认为robots是肯定有作用的站长注意了,今天无忧主机小编要提一件事情就是关于robots.txt协议的问题。很多站长都知道robots.txt是一种存放在网站空间根目录下的文本文件,是一种协议,用来告诉搜索蜘蛛网站中哪些可被爬行抓取,哪些不可被爬行抓取。
但是今天无忧主机小编遇到一个客户,他在robots.txt屏蔽了wordpress中的目录文件呀,为什么蜘蛛每日仍然照常爬行呢?”而后,叶剑辉自然便查网站robots.txt文档,以下便是对wordpress目录屏蔽设置:
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
但是确无法屏蔽,是什么问题造成的呢?
经过研究,无忧主机小编发现,只需要在这三段代码后面都加上”/”就可以;原来在后边加上与未加上/,对于蜘蛛而言是两种概念,加上了是告诉蜘蛛,这是一个文件夹,而未加上即告诉蜘蛛这是一个文件,也因此导致明明在robots.txt上做好了设置,却没能有效的屏蔽。

还有一个问题,那么就是这样屏蔽之后,真的就是蜘蛛就完全被屏蔽了么?
这里小编要提出的是:robots.txt协议并非是一个标准,一个规范,只是约定俗成而已罢了,就像法律里面道德的定义,并不是一定执行的。通常搜索引擎会识别这个文件,但也有一些特殊情况。(如之前的360事件:强制爬行所有的页面。)
在百度还有谷歌的算法里,某个页面只要有其他网站链接到该页面的话,同样有可能会被索引和收录。想要彻底屏蔽页面文件被谷歌索引的话,则需要在页面head中插入以下代码:
<meta name=”googlebot” content=”noindex”>
这个标签的作用是,当谷歌蜘蛛爬行遇到这个代码时候,就会将此页从谷歌搜索结果中完全丢弃,无视是否还有其他页链接到此页。
那百度呢?对于百度而言,百度跟谷歌又不一样,具体语句如下:
<meta name=”Baiduspider” content=”noarchive”>
但是上面这个标记只是禁止百度显示该页面快照,百度仍会为其建索引,并在搜索结果中显示网页摘要。
因此看来,网站只能禁止百度快照的显示,却无法做到禁止百度为网页建索引。

无忧主机相关文章推荐阅读:

WORDPRESS博客怎么推广

SEO教程之百度判断文章的标准

无忧主机SEO教程之:如何写出让百度喜欢的文章

SEO教程之为什么关键字在不同的省份的排名不一样

本文地址:http://www.51php.com/seo/16616.html

喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^

阅读本文的人还阅读:


搜索技术文档