新闻中心

无忧主机对织梦内容管理系统(dedecms)防采集的几个方法

作者 / 时间 2011-02-06 12:31:20

采集,一个种偷懒的方法。使用采集功能可以瞬间增加你的网站内容。如我们常见的就有火车头采集软件,ET采集器、dede采集器等。都可以帮助我们快速增加网站内容。“如何防御,首先就要学会如何进攻”。这几天为了研究dedecms防采集的方法,同时也在学习如何使用采集器进行采集。在学习编写dede采集规则的时候,发现对于一些没有做防采集功能的站点进行采集,真的是太简单,稍作修改就可以成功采集。 文章采集有人说好,有人厌恶。一些注重原创文章的新站,是毕竟恼火被采集的,大量的采集是会影响网站稳定运行的,而且如果别人的网站权重比你的站要高,百度搜索引擎在收录排序时候,是会优先考虑权重高的站点的。这也是很多站长抱怨,自己站点的原创文章,被别人采集转载后,排在自己的第一页,而自己的文章确是排在第一页位置,甚至是没有排名。无忧主机(www.51php.com)上很多原创文章都经常被别人采集去利用后,别人使用我的文章就排到搜索引擎第一页位置,如关键词“discuz!x 迁移”的搜索结果排第一名就是我写的“无忧主机细说discuz x1.5网站迁移过程”一文。好了,这里小小抱怨了一下,但是从另一角度来说,搜索引擎是非常喜欢原创文章,迟早会认可你的站点,不断坚持原创,做一个有价值的网站就,搜索引擎会喜欢你的内容的。下面是我的一点点心得。 1、从另一个角度说采集。别人为什么采集你的内容?那是因为你的文章有价值,有人认可你的网站这是应该高兴的时候。为了不至于做杨白劳,我建议大家在编辑文章的时候,注意保护文章内容,尽可能的将你的网站中加入本站域名或链接,让阅读你的人知道文章出处。一些文章,可以分章节来写,多篇文章来阐述一个观点,活用“欲知详情,请看下回分解”的思想,如果文章有价值,阅读者肯定会找该篇文章的头尾的。一定要做好内链,让你的文章能为一个系统、环环相扣,即使别人采集一部分内容,但是一些有关联的内容,如果阅读者有兴趣,肯定会去寻找的,尤其是技术类文章。在文章中适量加入你的站点域名,就如无忧主机php空间一样,活用“欲知详情,请看下回分解”的思想,一个观点分几个文章来描述,做好网站内链,我认为这是防止采集的一个被动防御方法。网站被人采集不是坏事,这是你网站内容有价值的体现。乐观对待它。 2、主动出击,预防采集。这段时间学习dedecms的采集功能,我就用这个我熟悉点dedecms采集器来说吧。在我学习Dede采集器的采集规则的时候了解到,dede文章的默认结构如下:  <div>  <div标题</div>  <div信息</div>  <div>文章内容</div>  </div>在编写采集规则的时候,要获取文章的内容,都会要寻找一个文章开始和结束的唯一标记,一般都会选择“<div>”“作为内容开头。为了预防采集,我的思路就是,让采集者找不到这个唯一的标记。下面我就来改动它。我查了下dedecms官方帮助文档,我将模版获取文章的方式做了些小调整,如下; 将 <div> 修改为:<div>  说明:“FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-hansi-font-family: Calibri" lang=EN-US> 无忧主机 提供美国/香港 纯Linux环境下高端免备案php虚拟主机,仅仅只需99元一年起。

本文地址:https://www.51php.com/dedecms/1870.html

1
1
1
1
1
1
1