搜索引擎工作原理与流程

 二维码 23
发表时间:2020-01-12 20:21作者:家禾来源:家禾建站网址:https://www.duanjiahe.com/

关于蜘蛛的误区蜘蛛也就是大家所说的爬虫或者机器人,是处于整个搜索引擎最上游的一个模块,用来爬行和访问网站页面程序。只有蝴蛛抓回来的页面或者URL。才能被索引和参与排名。

而人们对于蜘妹的误区集中在“降权蝴蛛”。由于蜘蛛抓取的网页太多,如果只有一只蜘蛛进行抓取作业,需要的计算量太大,同时也会耗费太多的时间。所以搜索引擎引进了分布式计算的概念,把庞大的抓取作业外割成多个部分,使用合理计算的服务器承载这一任务,完成对网页的快速抓取。现在大型搜索引擎都使用分布式计算技术,同样,蜘蛛也会进行分布式计算,这种蜘妹就是分布式蜘蛛,它遵循分布式计算的主要规则,根据这些规则也就可以理解“降权蜘蛛”的工作方式。

整个分布式蜘蛛系统要保证所有的蜘蛛不能重复抓取,就要使每个蜘蛛都有自己抓取的范围,抓取指定类型的网页,而常规网页一般按照质量等级分为优秀站点、普通站点、垃圾站点、降权站点和屏蔽站点等。

按照这种分类方式,会出现某一IP段的蜘蛛只会抓取权重高的网站,某一IP段的蝴蛛只会抓取已经被降权的网站,这就是“降权蜘妹”,不过并不是因为这只蜘蛛使得网站降权,而是因为网站已经被百度降权,这只所谓的“降权蜘蛛”才会出现。如果百度真的使用这种分布方式,那么对于百度蜘蛛IP段特性的总结就是很有价值的,不过还是不能非常肯定,因为百度分配任务的方式不可能只有这一种。由于搜索引擎对网站及网页的分类有多个纬度,每次抓取都可能会使用不同的纬度,多个纬度的出现,导致了问题的不确定性。

搜索引擎工作原理与流程搜索引攀的基本工作原理:

首先,在互联网中发现、搜集网页信息,同时对信息进行提取并组织建立索引库;其次,由检索器根据网络用户输入的关键字,在索引库中快速检出相应文档,对将要输出的结果进行排序,把查询结果反馈给用户。

搜索引擎的基本工作流程大体分为三步:

第一步:爬行抓取。搜索引擎蝴蛛顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页,读取页面HTML代码存入数据库。

第二步:预处理(索引),搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。最重要的是提取关键词,建立索引和索引库。

第三步:排名。根据用户输人的查询词和查询需求,对索引库中网页相关性进行分析得出搜索结果的排列顺序。

爬行抓取策略爬行抓取是搜索引擎工作的第一阶段,搜索引擎通过爬行抓取收集数据。最简单的爬行策略是深度优先和广度优先

深度优先是一种图算法,简单地说就是对每一个可能的分支路径深入到不能再深而且每个节点不重复访问。

7.png


广度优先是一种盲目搜寻的办法,目的是检索所有节点,以找寻结果。不考虑结果的可能位置,而是彻底搜索整个网络,直到找到结果为止。

8.png


吸引蜘妹是每一位SEO从业人员要着重考虑的问题。从理论上说。蜘蛛能爬行抓取所有页面,但实际上并非如此。要想让自己网站的更多页面被收录,就需要想办法吸引蜘妹爬行抓取。蜘蛛会抓取比较重要的页面,蜘蛛认为网站比较重要一般是以网站和页面权重、页面更新速度、外链、与首页点击距离这四种因素作为考量!


微信扫一扫,关注家禾建站
ABUIABACGAAg3dnl8AUox63GlQMwggI4ggI