喜欢SEO优化的朋友可以关注一下小哦,或者有兴趣建立一个网站的朋友。稍后,我会逐一告诉大家网站结构和关键词布局,TDK写作,Dede后台操作。请耐心地看一看。回到今天的主题,我将向您介绍搜索引擎抓取规则。我相信在你理解了原著之后,你会对TDK的布局和内容写作有所帮助。
小知识:蜘蛛抓取网站后,下一步就是对网站内容进行处理。中间部分的计算称为索引,后通过算法排序。
一个抽取文本-B中文分词-C删除停止词-D删除噪声-e删除重复内容-f向前索引-G向后索引-H链接关系计算
提取文本:当前搜索基于文本内容。蜘蛛会抓取HTML文件的代码,并删除代码中的标记和程序,只留下文本内容进行排名处理。
中文分词:这里有一个简单的介绍。分词有两种方法:1。基于字典匹配2。据统计,感兴趣的朋友可以进一步了解百度。
删除停止词:简而言之,删除语气词,如:De,De,Mo,ah,ha,ah,词内。
消除噪音:此步骤只需删除网站中没有贡献的内容,如:版权公告文本、导航栏、广告等,因为这些内容只会在网站的主题中起分散作用。
删除重复内容:同一篇文章可能经常出现在不同的网站上,而搜索引擎不喜欢这些内容,所以这个过程称为重复数据消除。当很多人不了解搜索引擎的规则时,就不可能简单地添加或减少一些单词并发布内容。
F正指数:经过文本提取、分词、消噪和重复数据消除,我们可以得到反映网站内容的单词——单词中的内容。然后搜索引擎程序可以提取关键词,根据分词程序划分的关键词,将页面变成一组关键词,并在界面上记录每个关键词的数量和格式。
G倒排索引:例如,如果我们搜索关键字“1”,那么我们需要从索引数据库中的文件中找到包含关键字“2”的文件,然后计算排名,因为这种计算不能满足排名结果的实时返回,因此我们需要将正索引放入数据库的数据列表索引中,重构倒排索引,并将文件转换为关键字模式-关键字到文件模式。
H-link关系计算:除了引起HTML捕获的文件外,搜索还可以捕获和索引各种基于文本的文件,如PDF、word、WPS、xls、TXT等,但就目前的技术而言,它无法捕获图像、视频、flash等飞行文本内容或脚本执行文件。