在上一节的《3.1.2、搜集信息的预处理--中文分词技术》中我们说过,要对网页进行关键词到网页的索引就必须先对网页进行中文分词,然后建立倒排文件,那么具体的流程是什么样子呢?黄聪将在本文给大家做个介绍。

分析网页和建立倒排索引文件流程图

分析网页和建立倒排索引文件流程图

  1. 搜索引擎首先从网页数据库中获取网页,然后进行HTML代码的过滤,提取出正文信息,然后用上一节说的分词技术进行切词。
  2. 之后再对切词后的关键词集合进行筛选,然后得到网页到关键词的正向索引.
  3. 最后搜索引擎将该正向索引转换为关键词到网页的倒排索引,如下图所示。

倒排索引

搜索引擎有了倒排索引,将能通过关键词迅速定位其相关的所有网页,也正是因为这个技术,搜索引擎才有可能在1秒之内给用户呈现搜索结果。

小结

本文讲的只是倒排索引文件建立的流程,其中涉及许多经典的算法,在此就不展开来讲了,有兴趣的朋友可以自己研究一下。下一节黄聪和大家一起学习《3.2、搜集信息的预处理--网页净化和消重》