新闻中心

国外技术文档翻译:drupal站点中如何自定义添加robots.txt引导蜘蛛爬行

作者 / 无忧主机 时间 2012-09-01 05:28:19

网站推广,我们都要写一个robots.txt文件,这个是啥文件类?这是搜索引擎访问网站第一个要查看的文件,蜘蛛会根据robots.txt内容那些是可以访问的,简单说,就是你希望蜘蛛去访问你网站那些内容,那些不被访问,如你的网站如果建设过程中,不希望搜索引擎开始收录,等网站正式运营后,才运行蜘蛛爬行,那么我们就可以在网站根目录下新建一个robots.txt文件,告诉搜索引擎暂时别来,我现在不需要您。记得,robots.txt一定要小写哦,不能大写。文本将在drupal站点的中如何添加一个自定义robots.txt文件来引导蜘蛛爬行网站内容。下面我们来就看一下面的详细说明。下面我们就一起来学习下吧。 如何创建一个robots.txt文件 简单的回答:在您php虚拟主机上相应站点的根目录。 详细的回答:比方说,蜘蛛要爬“http://www.51php.com/shop/index.html”,它是会把“/shop/index.html” 移除掉,并把“/robots.txt”置换上去,也就是最终访问“http://ww.51php.com/robots.txt”。 所以呢作为网站所有者的我们需要将robots.txt放在服务器正确的地方。通常情况下是您放主索引页面的地方,当然这一切都要取决于您WEB服务器配置。 NOTE:记得要用小写字母“robots.txt”,而不要用“Robots.TXT”去命名您的robots.txt文件。 在robots.txt文件中应该放些什么指令 Robots.txt是一个文本文件,通常情况下包含下列记录。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 在上面的指令中,有三个目录是禁止蜘蛛访问的。 NOTE:一个目录占一行。不要使用在一单行使用“Disallow:/cgi-bin/ /tmp/”这样的格式,并且不要插入空白行! 也要注意的是,通配符和正则表达式在User-agent或者是Disallow里都是不被支持的。*符号对User-agent字段的的意义就是任何蜘蛛的意思。尤其的是不能用“User-agent:*bot*”,和“Disallow: *.gif”。 当然这一切都要以您的服务器的配置环境来决定,下面就跟随无忧主机(www.51php.com)一起来看一些例子。 User-agent: * Disallow: / 这两句是拒绝所有的蜘蛛访问我们的站点。当然把“Disallow:/”的这一“/”去掉话就是允许访问服务器上的所有文件。把“/”去掉的话也就等于不创建robots.txt文件了。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ 这里是禁止访问php虚拟主机上的部分文件夹。 User-agent: BadBot Disallow: / 禁止单一蜘蛛。 User-agent: baidu Disallow: User-agent: * Disallow: / 只允许baidu蜘蛛。 User-agent: * Disallow: /~joe/stuff/ 只能访问这一个文件夹。 OK,看完上面这么多例子,是不是对robots.txt文件了解更多了呢?!当然,不要试图用robots.txt来隐藏您的文件信息,因为这个文件是在公共文件区!别人要用恶意的蜘蛛来扫描您站点的安全漏洞,这个robots.txt是可以被被忽视的。 原文地址:http://www.robotstxt.org/robotstxt.html   纯Linux环境下高端免备案【香港独立IP地址】 php空间,仅仅只需199元一年起。商务中国域名核心代理直销50元注册国际顶级域名

本文地址:https://www.51php.com/drupal/8025.html

1
1
1
1
1
1
1