网站维护人员,为了避免网站服务器的攻击;SEO人员,为了确定搜索引擎爬虫访问网站的情况,不能避免分析网站日志。但我从网站日志中得到的原始数据总是一团乱麻。我们得到原始数据后该怎么办?
登录“FTP”帐户,链接到网站数据,并找到网站日志文件夹。(注意:通常,网站日志所在的文件夹与网站文件是同优等别的文件夹,其中包含单词log。只有少数情况下,站点日志文件夹位于站点根目录下。)
打开文件夹并下载压缩日志文件!(下载方法非常简单。只需选择该文件并将其直接拖动到计算机桌面,然后在左下角的下载目录中浏览该文件,然后右键单击“传输队列!”)
提取下载的日志文件,然后将提取的文件的后缀更改为“TXT”
创建一个新的EXCEL表单并打开它!在顶部工具栏上找到数据工具
点击“导入数据”,默认为“直接打开数据文件”,然后选择“选择数据源”。
默认“其他编码”和“下一步”;
选择“分隔符”和“下一步”;
选中所有选项,然后选择“下一步”;
接下来,只需保留所需的数据项。删除不必要的数据项!(如图所示,仅保留数据分析所需的访客IP、访问文件、访问状态码、访客姓名四项数据。)
选择一整列访问者名称,然后单击“开始”列中的筛选工具
单击“访问者名称”列顶部的三角形下拉按钮;
取消“全选”,找到百度蜘蛛的访客名称,选择并确认;
如图所示,我们可以得到百度蜘蛛访问网站的所有数据。
百度蜘蛛:百度蜘蛛谷歌爬虫:谷歌机器人360爬虫:360蜘蛛谷歌爬虫:bingbot搜索爬虫:sogounewsspider
也可以在服务器/主机管理面板中下载网站日志。百度访问日志还需要区分真假蜘蛛,并不是所有蜘蛛都是真正的百度蜘蛛,比如站长工具虚拟蜘蛛。