首先,列出世界主要搜索引擎蜘蛛的名称,以便您在查看网站日志时可以找到它们:
Google蜘蛛:googlebot
百度蜘蛛:baiduspider
雅虎蜘蛛:slurp
Alexa蜘蛛:ia_archiver
Bing spider:bingbot
Msn spider:msnbot
Altavista spider:滑板车 ## #Lycos蜘蛛:lycos_spider_t-rex
Alltheweb蜘蛛:fast-webcrawler /
Inktomi蜘蛛:slurp ## #Youdao Spider:YodaoBot和OutfoxBot
在互联网的早期,网站相对较少,查找信息也更容易。
但是,随着Internet的爆炸性发展,普通的Internet用户想要找到所需的信息就像在大海捞针。此时,已经出现了满足公共信息检索需求的专业搜索网站。
现代搜索引擎的始祖是Archie,由发明艾伦·埃塔奇(Alan Emtage)是1990年蒙特利尔大学的一名学生。
尽管当时还没有出现万维网,但网络上的文件传输仍然相当频繁,并且由于大量文件分散在各个文件中分散的FTP主机,查询起来非常不便,因此Alan Emtage想到了开发文件名搜索
文件系统,因此有Archie。
# ## Web Spider,Web Spider,是一个非常生动的名称。
将互联网与蜘蛛网进行比较,那么蜘蛛就是在网上爬行的蜘蛛。
网络蜘蛛通过网页的链接地址搜索网页。从网站的特定页面(通常是主页)开始,阅读网页的内容,在网页中找到其他链接地址,然后使用这些链接地址查找下一个网页。
继续进行直到该网站的所有页面都已被爬网。
如果将整个Internet视为一个网站,则网络蜘蛛可以使用此原理来爬网Internet上的所有网页。
蜘蛛如何work
对于搜索引擎,几乎不可能对Internet上的所有网页进行爬网。根据当前发布的数据,容量更大的搜索引擎只能抓取整个网页的40%。一方面,这是爬网技术的瓶颈。 100亿个网页的容量为100×2000G字节。即使可以存储,下载仍然存在问题。根据每秒下载20K的计算机的计算,需要340台计算机停止。
下载所有网页需要一年的时间
完成。
同时,由于数据量很大,提供搜索时会影响效率。
因此,许多搜索引擎网络蜘蛛只会抓取那些重要的网页,而在抓取时评估重要性的主要依据是某个网页的链接深度。
搜索引擎爬网策略
爬网网页时,网络蜘蛛通常有两种策略:广度优先和深度优先,如下图所示。
Breadth首先表示网络蜘蛛将首先对在起始网页中链接的所有网页进行爬网,然后选择一个链接的网页,然后继续对在此网页中链接的所有网页进行爬网。
这是最常用的方法,因为此方法允许网络蜘蛛并行处理并提高其爬网速度。
Depth首先意味着网络蜘蛛将从起始页面开始,逐个跟踪每个链接,然后在处理此行之后转移到下一个起始页面,并继续跟随该链接。
此方法的优点是设计网络蜘蛛更容易。
两种策略之间的区别将在下图中更清楚地说明。
由于无法抓取所有网页,因此某些网页蜘蛛会设置一些不太重要的网站的访问次数。
例如,在上图中,A是起始网页,属于第0层,B,C,D,E和F属于第1层,G和H属于第2层,而我属于第2层3.
如果网络蜘蛛设置的访问级别数为2,将无法访问网页I。
这还允许在搜索引擎上搜索某些网站上的部分网页,而另一部分无法搜索。
对于网站设计师而言,扁平的网站结构设计可帮助搜索引擎抓取更多网页。
网页权限
当网络蜘蛛访问网页时,它们经常会遇到加密数据和网络权限方面的问题。某些网页需要成员权限才能访问。
当然,网站所有者可以阻止网络蜘蛛通过协议进行爬网,但是对于某些出售报告的网站,他们希望搜索引擎可以搜索其报告,但他们不能让搜索者免费完全查看它们。
向网络蜘蛛提供相应的用户名和密码。
Web蜘蛛可以使用给定的权限对这些网页进行爬网以提供搜索。
当搜索者单击以查看网页时,搜索者还需要提供相应的权限验证。