爬行网页只是一个图像隐喻抓取网页后,蜘蛛将提取文本中的URL、当前网页的权重值和其他信息
蜘蛛陷阱不是把蜘蛛留在车站,而是为了失控,蜘蛛会在蜘蛛被困的网页集中收集无数无意义的url,并将它们放入爬行队列如果网页中的URL是无限的,则蜘蛛需要无限的爬网。
在Internet上,所捕获的URL和网页的内容将发生变化,搜索引擎将确保某些网页的更新但是,当网页内容变化不大时,只有包含的URL不会有太大的差异spider还将根据用户体验、历史更新频率、页面类型和页面频率等几个方面来确定对包含的页面重新爬网的频率。
用户体验:用户要求搜索引擎涨价后,相关搜索结果量很大对于用户来说,准确的搜索结果并不多大多数用户会在前三页找到他们需要的信息理论上,搜索和浏览网页的次数越多,再次抓取的频率就越高。
如果包含的网页没有变化,搜索引擎再次搜索的频率就会降低,甚至不再被抓取Spider的***是更新web页面上的主题内容。
如果网页类型不同,蜘蛛的更新频率也会不同主页和目录页是蜘蛛经常访问的页面。
网页的权重越大,蜘蛛的抓取频率就越高比如:好123的主页和普通网站的主页,虽然好123的主页长期保持不变而普通企业网站偶尔更新,但好123的主页百度快照是***的,而普通企业网站的主页百度快照可能是一个月前或更长时间这是网页权重对蜘蛛捕捉频率的具体影响然而,大多数蜘蛛也会根据不同的算法和影响因素抓取网页为了提高网站的抓取频率,我们一般会***增加高权重的网站链接,增加网页更新频率,并利用标题和描述吸引点击来提高排名优秀的网站结构也有利于蜘蛛捕捉当蜘蛛突然发现包含的网页被删除时,服务器返回404状态码,这也会在短时间内增加抓取网站的频率一些门户网站习惯于在发送即时新闻标题然后添加内容的行为中增加点击次数。
百度阿拉丁计划:在黑暗的网络中挖掘更多有价值的信息,让更多的人受益这是具有独到资源的网站的免费流量来源不过,阿拉丁的商业内容是付费的网站管理员还可以制作他希望百度收录的网页的HTML或XML地图它还可以交叉呈现网站想要包含的信息例如:属性查询分类。
分布式蜘蛛系统分配了区域抓取的范围在其自身抓取范围内的url被捕获在队列中并等待被包含否则,它们将提交给上级服务器并分发给负责该区域的spider因此,大多数中小企业在分析网站日志时,都会发现百度蜘蛛的IP地址往往相同,但不同网站的IP段不同。: