在web站点和webspider之间有很多种通信方式。一方面,让网站管理员知道网络蜘蛛从哪里来,他们做了什么。另一方面,它们还可以告诉网络蜘蛛哪些页面不应该被爬网,哪些页面应该被更新。
每一个蜘蛛网都有自己的名字,当爬行网页时,它会把自己的身份标到网站上。当蜘蛛爬行一个网页时,它会发送一个请求。在这个请求中,一个名为user agent的字段用于标识web spider的身份。
例如,Google webspider的logo是Google bot,Baidu spider是Baidu spider,Yahoo spider是inktomisrurp。
如果网站上有一个访问日志,网站管理员就可以知道过去哪些搜索引擎蜘蛛,它们什么时候来的,以及它们读取了多少数据。
如果网站管理员发现蜘蛛有问题,他或她可以通过蜘蛛的身份与它的所有者联系。
例如,如果某些网站的可执行和临时文件目录不希望被搜索引擎搜索,则站长可以将这些目录定义为拒绝访问的目录。
当网络蜘蛛下载网页时,它将识别网页的HTML代码。在代码部分,将有一个元徽标。通过这些标志,我们可以判断网页是否需要爬网,网页中的链接是否需要跟踪。例如:这个页面不需要被爬网,但是页面中的链接需要被跟踪。
现在通用网站希望搜索引擎能更全面地捕捉到自己网站的网页,因为这样可以让更多的访问者通过搜索引擎找到这个网站。
为了更全面地捕捉本网站的网页,站长可以建立一个网站地图,即网站地图。