同一篇文章在一个网站中多次出现是搜索引擎不喜欢的,同一片文章在很多网站上出现也是搜索引擎厌恶的,特别是当用户搜索的时候前几页都是这同样一篇文章对于搜素引擎来认为他是不利于用户体验的。
预处理中必不可少的一个环节是去停止词,不管是中文还是英文中总是有一些词在文章中必须出现但是又没有意义的存在,比如中文文章中经常出现的“的”、“地”、“得”这些助词,又或者一些感叹词比如嘿、哈、哇,还有一些副词和介词的比如,从而、以、却。
不同的搜索引擎对于分词的掌控能力和认识各有不同比如百度会把连在一起,在互联网相同类型文章中经常出现的词作为一个词来看待。
搜索引擎抓取了大量的原始页面后并不能直接用来排名,用户搜索的时候开程序来计算排名无法在1秒2秒内算出结果,是以抓取了之后必须先预处理这样来为存库之后的查询做准备。
搜索引擎为了避免重复性的工作浪费大量的时间于资源会建立一个地址库,这里面记载了已经被抓取和访问的链接,也记录了已经被发现但是还没有去抓取和爬行的页面比如那些从其他网站看到的链接但是还没有来得及去访问的链接。
根据抓取和爬行的知识点,我们可以得知蜘蛛在理论上可以抓取和爬行整个网站全部的页面,其实不然,蜘蛛也不会这样去做,作为SEO就是尽可能的让蜘蛛收录更多的页面。
搜索引擎依靠蜘蛛来实行对页面的爬行和抓取,当由一个导入链接进入一个新站的时候,要做的第一件事就是进行访问robots.txt文件,这个文件准确清晰的给蜘蛛以本站的指引,站长可以规定搜索引擎访问哪些页面和不允许访问哪些页面。
在谷歌中对于权重比较高的网站谷歌总会给一些福利,比如全站链接,也就是用户在正常搜索的时候,谷歌对于搜索结果中出现的一些权重比较高的网站给予更多的显示一般来说在自然搜索的URL下面会出现1行四个的两行链接。
当我们在谷歌输入一个关键词显示页面一般会有两个最重要的显示方式。一个是广告,一个是自然搜索结果。
SEO这些年来一直围绕不断的一个话题就是“伪原创”很多SEO以为把别人网站的原创文章拿过来,然后按照一些的、地、得加入一下,最后在掉换一下原来文章的段落。以为这样就可以让搜索引擎以为这是一篇原创的文章。