在第二章我们介绍了搜索引擎原理中的网页搜集模块,本文接着讲搜索引擎下一个模块:预处理模块。在这个模块中,搜索引擎完成的主要任务是索引网页库的建立、中文分词的实现、分析网页和建立倒排文件网页净化和消重等工作。

为什么要做预处理?

天网格式保存网页信息(网页数据库),容错性好,及时有数据损坏,也是局部的,不会导致扩散或者其他数据无法存取。缺点是不能按照网页URL随机存取其指向的网页。因此,网页预处理的第一步就是为原始网页建立索引

网页预处理系统框图

网页预处理系统框图

  • 1、给原始网页建立索引
  • 2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)
  • 3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)

小结

网页的预处理是为了给每个网页建立好索引,只有建立了索引,才能确保搜索引擎可以实现秒级内的响应速度,而对于处理好的网页,搜索引擎都会将其存放在索引网页库中,即下一节我们要讲的《3.1.1、搜集信息的预处理--索引网页库》