在上一节的《3.1.3、搜集信息的预处理--分析页面和建立倒排文件》中我们说过,搜索引擎在预处理的第一步就是要先进行网页的分析,本节将对这部分的内容进行展开。

网页净化与消重

网页净化与消重

  • 1、网页净化:识别和消除网页内的噪声内容(如广告、版权信息等),并提取出网页的主题和主题相关的内容。
  • 2、消重:去除所搜集网页集合中主题内容重复的内容。

建立索引是在消重后的网页集上进行的,这样才可以保证用户在查询时不会出现大量内容重复的网页。

小结

下一节黄聪和大家一起学习《3.2.1、搜集信息的预处理--净化与数据提取》