这周,在和朋友聊天时,我的朋友问了一个关于网站的问题。为什么百度收录了很多网站,而谷歌一直是0?后来,我对它的网站做了简要的分析,找出了问题所在。
关于百度和谷歌的收录,其实的根本原因是搜索引擎之间的差异。但许多新朋友并不十分关心这个问题。他们会认为百度应该被很好的收录,其他的搜索引擎也应该被一个接一个的收录在网站上,然后就会出现和我朋友一样的问题。以下是对百度和谷歌概念的简要描述:
百度是中国的商业全文搜索引擎,也是**上的中文搜索引擎。百度搜索引擎主要由四部分组成:蜘蛛程序、监控程序、索引数据库程序和搜索程序。百度的强项在于其独到的中文搜索能力。目前,百度搜索引擎拥有全球的中文信息数据库。早在2013年,它的总页数就已经达到6000多万页,并且以每天几页的速度快速增长。百度搜索分为六个部分,包括网页、新闻、MP3、图片、flash和信息快报。
作为**上的搜索引擎,创新是其独到而的优势。与百度相比,谷歌具有搜索速度极快、支持多达132种语言、在线翻译功能、导航功能、搜索结果准确性高、独到的图像搜索功能和强大的新闻组搜索功能等固有的特点和优势。
谷歌和百度对网页有不同的标准。我用一个词来形容,谷歌更愿意把大站点的页面包括在内,而百度则愿意把新站点的页面包括在内。所以我做了一个实验:首先我申请了一个新域名,在上面放了一个网站,然后我没有链接到任何其他网站,而是直接提交到百度和谷歌搜索引擎的提交页面。一个月后,百度收录了24900页,谷歌收录了0页,这证实了我之前的猜测。
这是什么意思?百度比谷歌强吗?不是。因为百度和谷歌的标准完全不同。
两种收集方法哪一种更好?我个人认为谷歌的记录方式更科学。因为互联网上的网页是天文数字,所以应该有选择地包括在内。好的网站应该多收录,新的站点应该少收录,逐渐有名后应该多收录,这样也提高了效率,用户可以搜索到更好的页面而不是更多的页面。如果新的站点没有经过分析就被快速收录,那么在技术上就很难打击恶意网站(SEO)。谷歌会给新站一定的“检查期”,分析新站是否是垃圾站。
百度只能依靠人工方式手动删除垃圾站。对于被收录网站的具体操作,谷歌的爬虫对站长来说似乎更为“体贴”——谷歌的爬虫只占用服务器很少的资源,通常用头部来检查网页是否更新,如果更新后再抓取整个网页,这种方法消耗的流量更少。另一方面,百度不遵守机器人的规则,即使是在整个站。而且,它的爬虫数量非常庞大,对于页面较多的网站来说,通常会消耗惊人的流量,而且往往会造成不良后果。
综上所述,谷歌之所以被列为0,是因为只有网站有一定级别的网页,谷歌会很快将其包括在内,但如果没有网页级别的网站,谷歌会坚决不将其包括在内。虽然该网站只更新网站中的内容和文章,但谷歌被列为0的原因也得到了很好的解释。从目前国内搜索引擎的现状来看,只为百度等中文搜索引擎扩大和获取流量似乎是合理的,但从长远来看,谷歌不能忽视企业的发展或搜索引擎的变化。