Google工程师解释Googlebot抓取网页的原理

时间：2008-01-30 编辑：简简单单来源：一聚教程网

前几天我们adsenseaece_39018.php" target=_blank>报道了Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息，但有部分人不相信Matt Cutts，或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者，我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是，Matt Cutts在是Google品质管理部门的一名高级软件工程师，外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此，信不信当然由你
。
　　其实上次Matt所透露的仅仅是其中一方面的内容。今天，Matt再次写了一篇非常详细的文章，解释了Google的各种bot是怎样抓取网页的，以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等，内容非常的精彩，所以和大家分享一下。
　　首先要介绍的是Google的"crawl caching proxy"（爬行缓存代理）。Matt举了一个ISP与用户的例子来说明它。用户上网时，总是先通过ISP获取网页内容，然后ISP就会把用户访问过的网页缓存起来备用。比如说，当用户A访问了www.kenwong.cn，那么中国电信（或网通等）就会把"幻灭的麦克风"发送给用户A，然后将"幻灭的麦克风"缓存起来，当用户B在下一秒钟里再访问www.kenwong.cn，那么中国电信就会把缓存里的"幻灭的麦克风"发送给用户B，这样就能节省了带宽。
　　正如本站之前所报道的那样，Google最新的软件层面的升级（转移至BigDaddy）已经接近完成，因此升级后的Google各方面的能力都将得到加强。这些加强包括了更智能化的googlebot爬行、改良的规范性以及更好的收录网页能力。而在Googlebot爬行抓取网页方面，Google也采取了节省带宽的方法。Googlebot也随着BigDaddy的升级而得到了升级。新的Googlebot已经正式支持了gzip编码，所以如果你的网站开启了gzip编码功能，那么就能节省Googlebot爬行你的网页时所占的带宽。
　　除了改良的Googlebot外，升级后的Google将会采用上面所说到的crawl caching proxy来抓取网页，以进一步节省带宽。下面是一个示意图，显示了传统的Googlebot是怎样爬行一个网站的：

上一个： Google是如何决定blog搜索结果排名的？
下一个： Google搜索引擎优化技术的12个要点

推荐专题

最新下载

热门教程

Google工程师解释Googlebot抓取网页的原理

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程