在《2.2、页面搜集原理、技术和系统--搜集过程》中我们知道调度器需要分配蜘蛛去抓取网络上的网页,但是网络上的页面数量是百亿级别的,如果调度器只是简单的一个服务器,那么抓取的速度是远远不足的。因此,搜索引擎需要一个可扩展的搜索子系统,允许多台服务器同时进行网页的抓取工作。
可扩展搜索子系统体系结构
从下图可以看出,搜索引擎需要调度器存在多个协调进程(也成节点,即服务器)同时工作,并行的到网络上抓取网页。
存在的问题
- 1、搜索引擎要确定一个在节点间动态划分网页URL的算法,以保证不同的节点搜集的网页不会重复,并且在节点内抓取进程可以自由获取一个任务。
- 2、搜索引擎要考虑系统的动态配置问题,即允许在运行过程中添加和删除节点机器。
下一节黄聪就和大家一起分析第一个问题如何解决。请看《2.6.1、可扩展搜索子系统--节点间URL的划分策略》。