百度SEO技术搜索引擎基本工作原理研究

文章来源:优帮云SEO 2021-07-30

摘要:要想进行SEO,必须了解搜索引擎的工作原理,了解自己,了解他人,才能立于不败之地。本文主要论述了搜索引擎的基本概念和工作原理。由于内容庞大,分为两部分。

现在互联网上有上千亿个网页,它们存储在不同的服务器上,分布在世界各地的数据中心和机房中。对于搜索引擎来说,几乎不可能抓取所有的网页在互联网上。根据公布的数据,容搜索引擎只抓取了总网页数的40%左右。一方面,爬行技术存在一个瓶颈,无法遍历所有网页,许多网页无法从其他网页的链接中找到;另一个原因是存储技术和处理技术的问题。如果每个页面的平均大小为20K(包括图片),则100亿个网页的容量为100倍;2000g字节,即使可以存储,下载也存在问题(根据机器下载的每秒20K的计算,需要下载340台机器一年才能完成所有网页的下载)。同时,由于数据量大,搜索效率也会受到影响。因此,许多搜索引擎的web蜘蛛仅仅抓住了这些重要的网页,而评价其重要性的主要依据是网页的链接深度。

有人认为,当搜索引擎收到搜索请求时,它会实时查询世界上所有服务器的信息,并向用户显示查询结果。这实际上是个误会。如果搜索引擎这样工作,那么可能需要数年时间才能通过查询一条信息(不包括在此期间网页的更改)获得搜索结果。其实,搜索引擎会提前访问大量网站,并提前将这些页面的部分信息存储在自己的服务器上。这样,当用户搜索时,他们实际上在搜索引擎自己的服务器上查询,就像我们在自己的计算机中查询文件一样。

搜索引擎是一项非常复杂的技术,但其基本原理并不复杂,其基本技术包括爬行、索引、排序。


本文标签:seo引擎搜索