自然SEO培训

系统学习SEO技术和SEO思维、不间断更新网赚项目。

搜索引擎蜘蛛运作机制详解

蜘蛛也叫爬虫、spider、机器人。

搜索引擎蜘蛛抓取策略是seo学习中一个很重要的模块,只有深度理解了蜘蛛运行机制,才能更好的布局网站结构和引导蜘蛛去抓取重要的网页。

蜘蛛可以分为批量型蜘蛛、增量型蜘蛛、垂直型蜘蛛。我们见的最多就是增量型蜘蛛,这篇文章也主要是分析增量型蜘蛛的特点。

大型商业的搜索引擎一般会开发多套蜘蛛模型。比如针对大型新闻站点网页时效性的特点,抓取特点是以秒为单位,效率非常高;对于更新不是那么频繁的网页,则以天为单位。

网页非常多且无序,搜索引擎则建立一套严谨的抓取策略实现对所有的网页触达。当spider从一个入口网页开始抓取时,会获取这个网页所有的导出链接,当spider随机抓取其中一个链接时,同样会获取到很多新的链接。此时spider面临一个抓取方式的选择:

1、深度优先抓取

       深度优先抓取好比一条道走到黑,比如:首页-频道页某链接-频道页链接下面的列表页某链接-列表页链接下面的文章页。所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:


 

         深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。

 

2、宽度优先抓取

        在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后再顺着这些链接往下爬,如下图:

 

        但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。

  

        以上是对于新网页的抓取机制,并不代表spider对于该网页的工作已经结束了。网页有可能被更改或者被删除,所以spider建立了一套更新机制。网页更新策略有多种,历史参考策略是最直观的一种,它其实是一种假设:更新频繁的网页以后也会更新频繁,爬虫会预估网页何时更新,所以网页规律更新更有利于网页的抓取。一个更新频繁的网页长时间不更新,蜘蛛也会慢慢变的“懒惰”。

         注意点:spider对网页的抓取其实是单次访问抓取的,并不是每抓到一个新的网页就放一个“小蜘蛛”出去,我们平时说的蜘蛛爬取只是为了更好理解爬虫抓取的这个动态过程,其实并没有“”这个过程。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.6.4 Valyria

Copyright ekjc.org自然SEO 蜀icp备09013666号 [后台登录]