SEO数据分析蜘蛛爬行访问效果

文章来源:优帮云SEO 2021-08-24

这里我想解释一个有些人会混淆的问题。为什么我要故意解释上面文章和网页的数量?这是因为文章的数量肯定不等于网页的数量。然而,有些人在检查录音音量时忽略了这一常识。如果一个网站上的文章数量(或单个信息的数量)是300000,如果你去搜索引擎并使用站点和其他语法进行查询,收录量是290000,你会觉得你的收录量几乎相同,但实际情况可能更糟。

因为一个页面将派生许多其他页面。如果打开一个文章页面并计算其中的URL,则仍有一些URL仅在当前页面上可用,即从该页面派生。URL对应于一个页面,因此网站上的页面数是网站上信息量的几倍,有时甚至十倍或二十倍。

因此,在查看这个“总体爬网”之前,您需要计算您的网站中可能包含的页面数。您可以使用lynx online提取每种类型页面上的URL。已知网页的总数,然后与“总爬网”进行比较,就可以知道数据是好是坏。我认为基本上,如果谷歌爬虫抓取的页面数量是网站页面数量的两倍以上,那么爬虫数量就可以被认为是合格的,百度爬虫需要更多。因为事实上,很多抢夺都是重复抢夺;此外,与前一天相比,每天都没有多少新的页面抓取。

这三个数据:“访问量”、“总停留时间”和“总抓取量”都是数字越高,对网站越有利,因此我们需要想出很多方法来改进它们。大多数时候,看它们的***值是没有用的,但是看当前和过去的比较值。如果你每天都能跟踪这些数据的变化,你就能发现有多少因素影响这些数据。

有时,当前数据的值不一定有意义,但长期跟踪数据的变化可以发现有多少因素相互影响。

然后是“目录抓取”的数据:

此“目录”抓取的数据是“抓取总量”的细分。网站必须有关键页面和非关键页面。这些数据可以让您看到抓取的页面类型更多,并及时进行一些调整。

然后是“页面抓取”的数据:

在“爬虫IP排名”数据中,计算每个爬虫IP的访问状态:

如果你分析许多网站,你会发现爬虫对某个站点的访问将集中在特定时间的某个C段上。这是由搜索引擎的原理决定的。感兴趣的朋友可以查询相关书籍。要知道,有时可以使用此功能。

报表中有查询IP地址的功能,可以查询爬虫IP是否为真。例如,上面红色框中的IP是伪装成谷歌爬虫的收录器。

此数据与上述所有数据相同。通过比较之前和之后,可以找到更多信息。

以下是关键字分析的数据:

只要您的网站日志完整,使用日志拆分功能,此功能就相当于拥有一个数据仓库。此时,浏览网站的数据是:只有你想不到它,没有什么是它找不到的。

我还建议您拆分爬虫的爬网路径,拆分爬虫IP的爬网路径,观察其爬网路径,然后对应网站上的URL,您可以了解爬虫爬网的很多规律。

事实上,应该开发一个日志合并功能,但是这个功能太简单了。通常,我们可以通过在DOS中使用copy命令来解决此问题:

通过这种方式,你可以在一周、一个月甚至半年的时间内对网站的日志进行合并和分析。《光年SEO日志分析系统支持无限日志的分析,只要你有时间。

在“设置”-“性能设置”中,有两个地方需要注意。一个是“蜘蛛计算间隔”,它表示蜘蛛没有活动的时间,即使它离开。应该注意的是,每次都应该在同一时间进行比较分析,因为这里的时间会发生变化,爬行动物访问次数的计算也会发生变化。二是“分析显示项目数”。现在,您可以定义要在报告中显示的数据行数。默认情况下,只有5个项目。

本文标签:seo网站分析数据