蜘蛛爬行相当于遍历网络的有向图,因此一个结构简单清晰的网站一定是它,并尽量保证蜘蛛的可读性。
(1) 树形结构的结构是“首页-频道-详情页”;
(2) 从平面首页到细节页的层次尽可能小,便于抓取,能很好地转移权重。
(3) 网状网保证每个页面至少有一个文本链接指向,可以使网站尽可能全面地被抓取收录,对链的构建也可以起到积极的排序作用。
(4) 导航为每个页面添加了一个导航,这使得用户很容易知道自己在哪里。
(5) 相信有大量的站长对子域和目录的选择有疑虑。我们认为,当内容较少,内容相关性较高时,建议以目录形式实现,有利于权重的继承和收敛;当内容较多,与主站相关性稍差时,建议以子域形式实现。
(1) 在网站中,同一内容页面只对应一个的URL,过多的URL形式会分散页面的权重,目标URL存在被系统过滤的风险;
(2) 动态参数尽量少,URL尽量短;
(3) 美学使用户和机器能够通过URL判断页面内容的主题;
我们推荐以下几种URL形式:URL应该尽量简短易读,以便用户快速理解,例如使用拼音作为目录名;系统中相同的内容只产生一个与之对应的URL,去掉无意义的参数;如果无法保证URL,尽量对目标URL制作不同形式的url301;防止用户在主域名中输入错误的备用域名301。
(1) 别忽视那些倒霉的机器人档案。默认情况下,一些系统机器人被搜索引擎抓取。网站建立后,及时检查和编写相应的机器人文件,在日常维护过程中注意定期检查;
(2) 建立网站地图文件和死链文件,及时通过百度站长平台提交;
(3) 一些电子商务网站存在地域跳跃的问题。建议做一个统一的页面来识别页面中是否有商品。如果此区域没有商品,请勿返回无效页面。由于spider导出的限制,无法包含正常页面。
(4) 合理使用机器人、站点地图、索引量、爬行压力、死链提交、网站改版等站长平台提供的工具。