在上一节的《3.1.2、搜集信息的预处理--中文分词技术》中我们说过,要对网页进行关键词到网页的索引就必须先对网页进行中文分词,然后建立倒排文件,那么具体的流程是什么样子呢?黄聪将在本文给大家做个介绍。
分析网页和建立倒排索引文件流程图
- 搜索引擎首先从网页数据库中获取网页,然后进行HTML代码的过滤,提取出正文信息,然后用上一节说的分词技术进行切词。
- 之后再对切词后的关键词集合进行筛选,然后得到网页到关键词的正向索引.
- 最后搜索引擎将该正向索引转换为关键词到网页的倒排索引,如下图所示。
搜索引擎有了倒排索引,将能通过关键词迅速定位其相关的所有网页,也正是因为这个技术,搜索引擎才有可能在1秒之内给用户呈现搜索结果。
小结
本文讲的只是倒排索引文件建立的流程,其中涉及许多经典的算法,在此就不展开来讲了,有兴趣的朋友可以自己研究一下。下一节黄聪和大家一起学习《3.2、搜集信息的预处理--网页净化和消重》。