新闻中心

无忧主机讲解关于WordPress的robots.txt文件

作者 / 无忧主机 时间 2014-12-09 19:50:11

在此之前小编讲解过关于dedecms的robots.txt文件设置,今天小编给大家讲解一下关于WordPress的robots.txt文件的一些设置书写等。由于WordPress的特殊性,很多站长朋友在安装完程序后,最头痛的就是robots.txt文件的书写,当网站有一些内容不想被搜索引擎收录时,可以通过设置robots.txt文件告知搜索引擎机器人这个文件不要爬取。如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空,设置robots.txt文件可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,更加有利于网站的收录。 首先小编先简单的介绍一下robots.txt文件中的一些规则: 1、允许爬取: User-agent:* Disallow: 这两行的意思就是允许所有的蜘蛛爬取网站所有的页面,第二行虽然“Disallow”是不允许的意思,但是Disallow后面是空的,所以第二行的意思就是“不允许爬取的内容为空”。 2、以百度蜘蛛为例,禁止爬取: User-agent:Baiduspider Disallow:/ User-agent:* Disallow: 第一行和第二行的意思就是是不允许百度蜘蛛爬取任何页面,后面两行的解释同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取,那么就在前面继续复制,把Baiduspider改成360spider。如下: User-agent:Baiduspider Disallow:/ User-agent:360spider Disallow:/ User-agent:* Disallow: 所以如果想要继续添加其他屏蔽的蜘蛛,同样继续往上添加就行。 3、以禁止爬取wordpress后台页面为例,不允许任何蜘蛛爬取其中的某个或者某些页面: User-agent:* Disallow:/wp-admin/ 大家都知道,wordpress后台在根目录下的wp-admin文件夹里面,在Disallow后面加上/wp-admin的意思就是不允许所有的蜘蛛爬取这个目录。 4、以禁止baidu蜘蛛为例,禁止爬取wordpress后台: User-agent:Baiduspider Disallow: / User-agent: * Disallow: /wp-admin/ 这四行代码的意思就是不允许百度爬取wordpress后台,允许其他搜索引擎爬取后台,如果想要设置多个蜘蛛不允许爬取wordpress程序后台,同第2条一样,把不允许的蜘蛛添加上去,小编以360和baidu蜘蛛不允许爬取wordpress后台为例,代码如下: User-agent:360spider Disallow: / User-agent:Baiduspider Disallow: / User-agent: * Disallow: /wp-admin/ 接下来小编为大家讲解一下wordpress的robots.txt文件书写。 其实wordpress的robots文件很简单,主要看3个要点: 不允许蜘蛛爬取网站后台地址 首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每位站长设置robots.txt文件的首要目的,这也不仅限于wordpress程序,不同类型的网站后台页面所在页面的文件夹名称不一样。 静态化后,不允许蜘蛛爬取动态url wordpress的url最好还是设置为静态化,因为过多的动态参数不利于SEO。但是许多站长朋友在设置静态化后,每次发布文章时,搜索引擎收录,总会同时收录静态和动态的url,这样做的缺点就是会导致文章页面权重分散,而且会导致重复页面过多最终受到搜索引擎的惩罚。要避免这种情况的出现方法很简单,就是在robots.txt文件里面设置,让蜘蛛不爬取动态url,这样动态url就不会被收录。 结尾加上xml格式的网站地图 在robots.txt文件的结尾加上网站地图,可以让网站地图在蜘蛛爬取时第一时间被抓取,更加利于页面的收录。代码如下: User-agent:* Disallow:/wp-admin/ Disallow:/*?* Sitemap:http://www.网站域名.com/sitemap.xml 前三行的意思就是在禁止所有蜘蛛爬取wordpress后台的前提下,禁止爬取包含?的url。(动态url特征是有“?”) robots.txt文件的书写还有一下三点需要注意的地方: 斜杠“/” 首先开头的斜杠是一定要有的,结尾有斜杠的意思是这个目录下的所有页面,如果没有斜杠,那就是屏蔽的既有包括斜杠的,也有不包括斜杠的,例如/wp-admin.html,/wp-admin.php等等页面。这是两个不同的概念,必须根据需要考虑后面是否加上斜杠。 字母大小写 除了每行的首字母之外,其他都必须小写。 Disallow和Allow 对于很多新手站长朋友来说,掌握其中一种的写法就够了,如果同时被灌输这两种写法很容易混淆,所以如果是新手朋友,那么robots.txt文件最好只使用一种写法就好了,防止混淆,造成错误。 希望可以帮助到各位站长朋友! 无忧主机相关文章推荐阅读: WORDPRESS删除自动保存草稿 WORDPRESS数据库优化插件的介绍与安装方法 WORDPRESS4.0.1版本新发布,修复8个漏洞23个BUG WORDPRESS卸载WP-SUPER-CACHE插件导致无法显示最新发布的文章

本文地址:https://www.51php.com/wordpress/17835.html

1
1
1
1
1
1
1

客户服务热线

0791-8623-3537

在线客服