《2.4、页面搜集原理、技术和系统--如何避免网页重复搜集》中我们知道调度器通过未访问URL表和已访问URL表来实现避免网页重复搜集,但是因为网络上的URL很多,如果调度器不对URL进行排序,都是依次搜集,那么可能重要的网页会被排在很后面,这样重要的内容可能很长时间都不会被抓取到,一个好的策略就是先抓取重要的网页,那么如何实现呢?本文黄聪就和大家分析一下。

背景

Web上信息具有异质性和动态性,由于受时间和存储空间的限制,即使是最大的搜索引擎也不可能将全球所有的网页全部搜集。一个好的搜索策略是优先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。并且要采用分布并行的体系结构来协助工作。

网页重要度特征

在早期的搜索引擎基本都是通过以下几点来判断一个网页的重要程度的:

  • 1、网页的外链很多。
  • 2、网页的父网页外链很多。
  • 3、网页的镜像度高,被转载次数多。
  • 4、网页的目录深度小,易于用户浏览。

判断出来哪些网页比较重要,调度器就可以将重要的URL排在前面提前被抓取,已保证重要的网页可以及时被收录。

小结

本节讲解了搜索引擎如何实现重要页面实现抓取,这也意味着站长们需要争取让搜索引擎给自己的评分尽量的高,这样才能保证自己的网页能够优先被抓取。

下一节我们来看《2.6、页面搜集原理、技术和系统--可扩展搜索子系统》