香港独立IP空间
香港php空间
美国php空间
域名注册

在此之前小编讲解过关于dedecms的robots.txt文件设置,今天小编给大家讲解一下关于WordPress的robots.txt文件的一些设置书写等。由于WordPress的特殊性,很多站长朋友在安装完程序后,最头痛的就是robots.txt文件的书写,当网站有一些内容不想被搜索引擎收录时,可以通过设置robots.txt文件告知搜索引擎机器人这个文件不要爬取。如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空,设置robots.txt文件可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,更加有利于网站的收录。

首先小编先简单的介绍一下robots.txt文件中的一些规则:

1、允许爬取:

User-agent:*

Disallow:

这两行的意思就是允许所有的蜘蛛爬取网站所有的页面,第二行虽然“Disallow”是不允许的意思,但是Disallow后面是空的,所以第二行的意思就是“不允许爬取的内容为空”。

2、以百度蜘蛛为例,禁止爬取:

User-agent:Baiduspider

Disallow:/

User-agent:*

Disallow:

第一行和第二行的意思就是是不允许百度蜘蛛爬取任何页面,后面两行的解释同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取,那么就在前面继续复制,把Baiduspider改成360spider。如下:

User-agent:Baiduspider

Disallow:/

User-agent:360spider

Disallow:/

User-agent:*

Disallow:

所以如果想要继续添加其他屏蔽的蜘蛛,同样继续往上添加就行。

3、以禁止爬取wordpress后台页面为例,不允许任何蜘蛛爬取其中的某个或者某些页面:

User-agent:*

Disallow:/wp-admin/

大家都知道,wordpress后台在根目录下的wp-admin文件夹里面,在Disallow后面加上/wp-admin的意思就是不允许所有的蜘蛛爬取这个目录。

4、以禁止baidu蜘蛛为例,禁止爬取wordpress后台:

User-agent:Baiduspider

Disallow: /

User-agent: *

Disallow: /wp-admin/

这四行代码的意思就是不允许百度爬取wordpress后台,允许其他搜索引擎爬取后台,如果想要设置多个蜘蛛不允许爬取wordpress程序后台,同第2条一样,把不允许的蜘蛛添加上去,小编以360和baidu蜘蛛不允许爬取wordpress后台为例,代码如下:

User-agent:360spider

Disallow: /

User-agent:Baiduspider

Disallow: /

User-agent: *

Disallow: /wp-admin/

接下来小编为大家讲解一下wordpress的robots.txt文件书写。

其实wordpress的robots文件很简单,主要看3个要点:

不允许蜘蛛爬取网站后台地址
首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每位站长设置robots.txt文件的首要目的,这也不仅限于wordpress程序,不同类型的网站后台页面所在页面的文件夹名称不一样。

静态化后,不允许蜘蛛爬取动态url
wordpress的url最好还是设置为静态化,因为过多的动态参数不利于SEO。但是许多站长朋友在设置静态化后,每次发布文章时,搜索引擎收录,总会同时收录静态和动态的url,这样做的缺点就是会导致文章页面权重分散,而且会导致重复页面过多最终受到搜索引擎的惩罚。要避免这种情况的出现方法很简单,就是在robots.txt文件里面设置,让蜘蛛不爬取动态url,这样动态url就不会被收录。

结尾加上xml格式的网站地图
在robots.txt文件的结尾加上网站地图,可以让网站地图在蜘蛛爬取时第一时间被抓取,更加利于页面的收录。代码如下:

User-agent:*

Disallow:/wp-admin/

Disallow:/*?*

Sitemap:http://www.网站域名.com/sitemap.xml

前三行的意思就是在禁止所有蜘蛛爬取wordpress后台的前提下,禁止爬取包含?的url。(动态url特征是有“?”)

robots.txt文件的书写还有一下三点需要注意的地方:

斜杠“/”
首先开头的斜杠是一定要有的,结尾有斜杠的意思是这个目录下的所有页面,如果没有斜杠,那就是屏蔽的既有包括斜杠的,也有不包括斜杠的,例如/wp-admin.html,/wp-admin.php等等页面。这是两个不同的概念,必须根据需要考虑后面是否加上斜杠。

字母大小写
除了每行的首字母之外,其他都必须小写。

Disallow和Allow
对于很多新手站长朋友来说,掌握其中一种的写法就够了,如果同时被灌输这两种写法很容易混淆,所以如果是新手朋友,那么robots.txt文件最好只使用一种写法就好了,防止混淆,造成错误。

希望可以帮助到各位站长朋友!

无忧主机相关文章推荐阅读:

WORDPRESS删除自动保存草稿

WORDPRESS数据库优化插件的介绍与安装方法

WORDPRESS4.0.1版本新发布,修复8个漏洞23个BUG

WORDPRESS卸载WP-SUPER-CACHE插件导致无法显示最新发布的文章

本文地址:http://www.51php.com/wordpress/17835.html

喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^

阅读本文的人还阅读:


搜索技术文档