SEO解释了搜索引擎的工作原理-优帮云SEO

一个合格的SEO工程师一定会理解搜索引擎的工作原理。百度和谷歌的原理基本相同，但有些细节不同，比如分词技术。因为国内搜索一般都是百度，所以我们未来的课程都会针对百度，当然，基础课只适用于谷歌！

搜索引擎的工作原理其实很简单。首先，搜索引擎大致分为四个部分。_部分是蜘蛛爬虫，第二部分是数据分析系统，第三部分是索引系统，第四部分是查询系统。当然，这只是基本的四个部分！

让我们来谈谈搜索引擎的工作流程

搜索引擎蜘蛛程序，其实是一个自动应用的搜索引擎，它的作用是什么？其实很简单，就是在网上浏览信息，然后把这些信息抓到搜索引擎服务器上，然后建立索引数据库。我们可以把搜索引擎蜘蛛作为用户，然后这个用户会访问我们的网站，然后把我们网站的内容保存到自己的电脑上！这很容易理解。

查找链接→下载此网页→添加到临时库→提取网页中的链接→下载网页→循环

首先，搜索引擎的蜘蛛需要找到链接，至于如何找到它很简单，就是通过链接链接。当搜索引擎蜘蛛找到链接时，它将下载页面并将其存储在临时库中。当然，它会提取这个页面上的所有链接，然后循环。

搜索引擎蜘蛛几乎24小时没有休息（这里为它感到悲剧性，没有假期。哈哈）那么蜘蛛下载回来的网页呢？这需要转到第二个系统，即搜索引擎分析系统。

这个问题问得好，那么搜索引擎蜘蛛爬行网页到底有没有规则？答案是肯定的！

如果蜘蛛随机地去抓取网页，那就很难了，网页在网上，每天都有这么多，蜘蛛怎么能抢过来呢？所以，蜘蛛爬网页也有规则！

策略1：深度优先

什么是深度优先？简而言之，搜索引擎蜘蛛在一个页面上找到一个连接，然后沿着链接向下爬行，然后在下一个页面上找到另一个连接，然后向下爬行并获取所有连接。这是深度优先的爬行策略。看下面的图片

上图为深度优先示意图。如果a网页在搜索引擎中拥有***的权限，如果D网页的权限_，如果搜索引擎蜘蛛按照深度优先的策略抓取网页，那么它就会反转，即D网页的权限变为，这就是深度优先！

策略2：宽度优先

宽度优先更容易理解，也就是说，搜索引擎蜘蛛先抓取整个页面上的所有链接一次，然后再抓取下一页的所有链接。

上图是宽度优先的示意图！这实际上就是我们通常所说的扁平结构。你可能会在一个神秘的角落里看到一篇文章，警告你网页的层次不要太高，如果太多会导致收藏困难。这是用宽度优先策略来对付搜索引擎蜘蛛，这其实也是原因所在。

策略三：权重优先

如果我们说宽度优先比深度优先，那不是***的。我们只能说，每一个都有自己的优势。现在搜索引擎蜘蛛一般会同时使用两种爬行策略，即深度优先+宽度优先。在使用这两种策略进行抓取时，我们应该参考这种联系的权重。如果这个连接的权重好，那么我们应该先采用深度，如果这个连接的权重很低，那么就先使用宽度！

那么搜索引擎蜘蛛如何知道这个连接的权重呢？

有两个因素：1。或多或少的层次；2。该连接的外链的数量和质量；

所以，如果层次结构中有太多的链接，它们会不会被抓取？这并不是***的，在这里我们要考虑很多因素，我们在***阶段会沦为逻辑策略，然后我会详细告诉你！

蜘蛛爬行网页策略4：重新访问和爬行

我认为这更容易理解。比如昨天的搜索引擎蜘蛛抓取了我们的网页，今天我们给这个页面增加了新的内容，那么搜索引擎蜘蛛今天会抓到新的内容，这就是重新访问和爬行！再访还有两种抓取方法，如下所示：

所谓全回访是指蜘蛛一次爬网链接，然后在本月的某一天，全部回访并抓取一次！一次访问通常是针对更新速度更快、更稳定的页面。如果我们有一个页面，它不会每月更新一次。

SEO解释了搜索引擎的工作原理