了解了一些页面搜集的基础知识后,我们来看看搜索引擎搜集一个页面的整个过程是怎么进行的。

下图是搜索引擎搜集网页的过程流程图:

搜索引擎搜集网页的过程流程图

搜索引擎搜集网页过程

  1. 调度器是整个搜集过程的核心,它内部保存有一个已访问URL库未访问URL库,统称URL库。一开始调度器会从未访问URL库中取出一条URL,分配给蜘蛛,让蜘蛛去抓取未抓取过的URL。
  2. 当一个蜘蛛得到URL的时候,它会向这个URL发出请求抓取,流程是:对该URL对应的域名进行DNS解析 -> 得到IP进行Socket连接 -> 连接成功发出http请求 -> 接收网页信息
  3. 蜘蛛得到网页信息后,会返回源代码给调度器,调度器会将源代码保存到网页数据库中。
  4. 调度器还会对抓取到的网页进行链接提取,将未抓取过的URL存放到未访问URL库中,并将刚刚抓取完的URL更新到已抓取URL库中。

小结

上述讲的都是搜索引擎网页抓取的整个过程,过程虽简单,但是一些细节上的问题还是存在的,比如如何避免网页重复搜集如何首先搜集重要的网页等等,黄聪会在之后的章节做解答,下一节我们来看《2.3、页面搜集原理、技术和系统--天网存储结构定义》