[搜索引擎蜘蛛爬行JS和CSS怎么办]

文章来源:优帮云SEO 2020-03-31

这是一个存在多年的问题,经常出现,但从来没有一个标准的解决方案:搜索引擎爬虫(特别是百度)抓取JS、CSS、JSON文件,而机器人屏幕仍然抓取。

这引出几个问题:

1、 crawler如何获取JS和CSS?2、爬虫程序能执行JS吗?3、crawler的JS对SEO有什么影响?

针对以上问题,我想谈谈自己的看法:

首先,crawler抓取CSS判断页面元素的重要性,保证快照显示的完整性;抓取JS查找新链接,判断是否存在欺骗

其次,JS将被执行,但不确定是否所有JS都将被执行。正如互联网上许多人所说,“搜索引擎将直接忽略JS和iframe,只捕获纯文本信息”。这在实际情况下是站不住脚的。如果搜索引擎对JS和iframe来说不是鸟,那么那些戴着黑帽子的学生不高兴死吗?请阅读前两篇关于黑帽子的文章,你会明白的

第三,我不知道。在某些情况下,它可能会占用抓取配额,但我经历了几个蜘蛛抓取JS的站点,流量没有异常。

说到这里,我现在的工作站上半年就经历过这种情况。百度疯狂地抓取JSON,机器人屏蔽了各种低效。但交通并未出现下降等异常情况。我不在乎基本的,根据我的心理承受能力,但对JSON的抓取率的检查确实让我的菊花变紧了,接近40%。是的,你没有错,40%。假设百度每天抓取100万个页面,40万都是JSON。

然后发现百度在日志中的抓取总量与百度站长工具的抓取频率不匹配。经过多次检查,发现日志抓取总量=百度工具抓取频率+日志JSON抓取总量。也就是说,对于百度给出的抓取频率数据,不包含抓取JSON的部分,相当于有奖抓取。从这个角度来看,应该不会对SEO产生影响,也不存在占用抓取配额的问题。但是,抓取比例总是很痛苦的,所以我们决定解决这个问题。

故障排除后,发现有些页面包含一个功能:请求页面时,判断访问用户是否先登录;如果用户登录,则返回该用户历史访问过的其他产品;如果用户未登录,则返回指定内容。返回的内容被转换成一个JSON文件(没错,百度疯狂抓取的文件),然后传输到前端JS。JS解析JSON文件,在前端接口解析JSON后显示数据。

使用异步加载。从业务逻辑的角度来看,对于这个页面的任何访问者来说,如果不执行这个JS,就相当于没有加载页面。

JSON path是用JS明文写的,百度是否已经识别出JSON的路径,还是执行了JS,还不得而知。不管怎样,只要我们掌握了包含这个函数的页面,我们就会获取相应的JSON文件。

综上所述,有两个预先确定的解决方案:一是直接删除与此函数对应的JS;二是不返回此JS,直接面对搜索引擎访问。所以蜘蛛看不见,也抓不到。


本文标签:seo 搜索引擎