SEO数据分析蜘蛛抓取访问效果

文章来源:优帮云SEO 2020-01-25

我想从一个有些人会混淆的问题开始。为什么我要故意解释上面的文章和网页的数量?这是因为文章的数量不等于网页的数量。然而,有些人在检查录音音量时忽略了这一常识。例如,如果一个网站上的文章数(或个人信息数)是30万篇,搜索引擎通过网站等语法收集的文章数是29万篇,你会觉得你的收集几乎是一样的,但可能与现实相去甚远。

因为一个页面将派生出许多其他页面。如果打开一个文章页面并计算其中的url,除了模板上重复的url外,某些url只在当前页面上可用,而当前页面是从该页面派生的。而一个URL对应一个页面,所以一个网站上的页面数是网站上信息量的几倍,有时甚至超过10倍或20倍。

所以在看这个“总抓取”之前,你需要计算一下你的网站上可能有多少页面。您可以使用lynx online提取每种类型页面的URL并进行查看。如果知道网页总数,然后将其与“爬行总数”进行比较,就可以知道数据是好是坏。我认为基本上,如果Google crawler的爬网量是网站页面数的2倍以上,那么这个爬网量就是合格的,百度crawler需要更多。因为事实上,这个爬行卷中有很多重复的爬行,而且与前一天相比,每天都没有多少新的页面爬行。

这三个数据:“访问次数”、“总停留时间”和“总抓取次数”。数字越高,对网站越好,所以有很多方法可以改进。大多数时候,看它们的***值是没有用的,但要看现在值和过去值的比较。如果你能每天跟踪这些数据的变化,你就能知道有多少因素影响这些数据。

有时,当前数据的值并不一定有意义,但对数据变化的长期跟踪可以发现有多少因素相互影响。

1、然后是“目录抓取”的数据:

此“目录”捕获的数据是“抓取总数”的一个子部分。在网站中,必须有关键页和非关键页。这些数据可以让您看到哪些类型的页面被抓取得更多,并及时进行一些调整。

2、然后是“页面抓取”的数据:

在“蜘蛛IP排名”数据中,计算每个爬虫IP的访问状态:

如果你分析过很多网站,你会发现爬虫访问一个站点会在一段特定的时间内关注一个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。了解这个特性有时会很有用。

报告中有一个查询IP地址的函数。您可以查询爬网程序IP地址是否为真。如上图红色框所示,它是一个伪装成谷歌爬虫的收藏家。

这些数据与上述所有数据相同,通过前后对比可以发现更多的信息。

3、以下是关键字分析的数据:

只要你的网站日志是完整的,具有日志拆分功能,就相当于拥有了一个数据仓库,此时要查看网站的数据。

我还建议你拆分爬虫的爬虫轨迹,拆分某个爬虫IP的爬虫路径,观察其爬虫路径,然后与网站上的URL相对应,就可以了解很多爬虫规则。

实际上,我们应该开发一个日志合并函数,但是这个函数太简单了。一般来说,我们可以在DOS中使用copy命令来解决这个问题:

这样,你就可以把网站一周、一个月甚至半年的日志合并起来进行分析。”光年SEO日志分析系统”是支持无限日志分析,只要你有时间。

在“设置-性能设置”中,有两件事需要注意。一个是“蜘蛛计算间隔”,即seo蜘蛛即使离开也没有活动的时间。我们在每次对比分析时都要注意同一时间,因为这里的时间是变化的,所以爬行动物的访问量也会变化。还有“分析显示编号”。现在您可以自己定义要在报表中显示多少行数据。默认情况下只有5行。

本文标签:seo蜘蛛