搜索引擎优化学习：搜索引擎抓取规则与关键词布局-优帮云SEO

喜欢SEO优化的朋友可以关注一下小哦，或者有兴趣建立一个网站的朋友。稍后，我会逐一告诉大家网站结构和关键词布局，TDK写作，Dede后台操作。请耐心地看一看。回到今天的主题，我将向您介绍搜索引擎抓取规则。我相信在你理解了原著之后，你会对TDK的布局和内容写作有所帮助。

小知识：蜘蛛抓取网站后，下一步就是对网站内容进行处理。中间部分的计算称为索引，后通过算法排序。

一个抽取文本-B中文分词-C删除停止词-D删除噪声-e删除重复内容-f向前索引-G向后索引-H链接关系计算

提取文本：当前搜索基于文本内容。蜘蛛会抓取HTML文件的代码，并删除代码中的标记和程序，只留下文本内容进行排名处理。

中文分词：这里有一个简单的介绍。分词有两种方法：1。基于字典匹配2。据统计，感兴趣的朋友可以进一步了解百度。

删除停止词：简而言之，删除语气词，如：De，De，Mo，ah，ha，ah，词内。

消除噪音：此步骤只需删除网站中没有贡献的内容，如：版权公告文本、导航栏、广告等，因为这些内容只会在网站的主题中起分散作用。

删除重复内容：同一篇文章可能经常出现在不同的网站上，而搜索引擎不喜欢这些内容，所以这个过程称为重复数据消除。当很多人不了解搜索引擎的规则时，就不可能简单地添加或减少一些单词并发布内容。

F正指数：经过文本提取、分词、消噪和重复数据消除，我们可以得到反映网站内容的单词——单词中的内容。然后搜索引擎程序可以提取关键词，根据分词程序划分的关键词，将页面变成一组关键词，并在界面上记录每个关键词的数量和格式。

G倒排索引：例如，如果我们搜索关键字“1”，那么我们需要从索引数据库中的文件中找到包含关键字“2”的文件，然后计算排名，因为这种计算不能满足排名结果的实时返回，因此我们需要将正索引放入数据库的数据列表索引中，重构倒排索引，并将文件转换为关键字模式-关键字到文件模式。

H-link关系计算：除了引起HTML捕获的文件外，搜索还可以捕获和索引各种基于文本的文件，如PDF、word、WPS、xls、TXT等，但就目前的技术而言，它无法捕获图像、视频、flash等飞行文本内容或脚本执行文件。

搜索引擎优化学习：搜索引擎抓取规则与关键词布局