在前两天的SEO案例中,代理劫持被提到。有人问发生了什么事,我今天就解释。当怀有恶意的人看到他们时,他们就有了另一个工具来伤害他人和造福自己。另一方面,对已经遭受损失的站长的预防和恢复可能具有积极意义。
在浏览器中打开URL是没有问题的,但是如果搜索引擎抓取URL,它将完全复制原始网站。尽管在大多数情况下,复制的内容页面会被忽略,但在某些情况下,如果搜索引擎判断错误,原始版本会受到惩罚,甚至被删除。
一般来说,不应包括通过代理访问的url。但如果有人恶意链接到这个代理URL,搜索引擎也会访问并获取它。
如何防止或恢复被劫持特工的排名?简单的方法是,如果您看到您的网页被代理劫持,请检查该代理服务器的IP地址,并阻止该IP地址从您的服务器,并禁止获取。
但有时代理服务器的IP地址会发生变化,代理服务器太多,可能无法屏蔽。更复杂的方法是识别服务器是搜索引擎蜘蛛还是真正的搜索引擎蜘蛛。
在某些情况下,当搜索引擎蜘蛛通过代理URL访问时,浏览器(useragent)的类型也是搜索引擎蜘蛛。但是,有些代理服务器可能会设置为隐藏原始IP地址和用户代理,这使得很难确定它是否是搜索引擎蜘蛛。
此时,网站程序需要主动验证访问者是否是真正的搜索引擎蜘蛛。如果程序被证实是一个真正的蜘蛛,请返回正常页面。如果spider不是普通用户或伪spider,那么返回的页面都会添加Noindex和nofollow标记。这样,当这些原始网页被代理访问时,搜索引擎就无法对其进行爬网。
今年2月,谷歌在黑板报和站长博客上发布了马特?卡茨的谷歌蜘蛛帖子(马特?卡茨的原帖不是自己的博客,而是英文版的站长博客),如何验证这篇文章,不是为了玩,而是为了深刻的意义。从目前的零参考链接和评论,大多数人不知道这篇文章是为了什么。
一般来说,搜索引擎应该有办法判断这种代理劫持行为,否则就会成为一些人陷害竞争对手的简单方式。然而,任何算法都存在漏洞。即使算法能做出99%的正确判断,漏掉网络的可能导致无辜网站被删除。我写这篇文章是为了向许多人介绍它,以便他们能更好地预防它。我相信每个人都会鄙视这种企图陷害他人的方法。