在第二章我们介绍了搜索引擎原理中的网页搜集模块,本文接着讲搜索引擎下一个模块:预处理模块。在这个模块中,搜索引擎完成的主要任务是索引网页库的建立、中文分词的实现、分析网页和建立倒排文件、网页净化和消重等工作。
为什么要做预处理?
天网格式保存网页信息(网页数据库),容错性好,及时有数据损坏,也是局部的,不会导致扩散或者其他数据无法存取。缺点是不能按照网页URL随机存取其指向的网页。因此,网页预处理的第一步就是为原始网页建立索引。
网页预处理系统框图
- 1、给原始网页建立索引。
- 2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)
- 3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)
小结
网页的预处理是为了给每个网页建立好索引,只有建立了索引,才能确保搜索引擎可以实现秒级内的响应速度,而对于处理好的网页,搜索引擎都会将其存放在索引网页库中,即下一节我们要讲的《3.1.1、搜集信息的预处理--索引网页库》。