到了本章,说明搜索引擎原理教程1.0已经接近尾声了,在本节黄聪将和大家学习中文网页自动分类技术。

中文分类技术

中文分类技术的出现主要是为了实现网页类别的分类。进行网页的分类,搜索引擎可以提供更好的目录服务。

除此之外,搜索引擎对网页进行了分类,那么当用户搜索某类别的信息时,搜索引擎也只用检索该分类下的文档即可,因为事先经过了分类,因此搜索引擎要分析的网页将大大减少,可以提高检索的速度。

中文分类技术

如上图所示,中文网页自动分类技术主要分2个过程。

1、训练过程

一开始搜索引擎会拿一些特定的网页作为训练集实例,经过预处理之后,通过向量化之后存为特征项向量数据库。同时拿出一部分训练集作为校验集,通过训练和测试,主要用于确定每个类别的截尾阈值。

2、分类过程

搜索引擎得到一个新的网页,搜索引擎会先对该网页进行预处理,并且向量化表示,然后通过分类算法,与特征项向量数据库的内容进行比较,求出候选类列表;之后再通过阈值算法求出每个类别的阈值,筛选掉不合适的类别后,得到结果类列表。

小结

随着本章的结束,搜索引擎原理的课程也接近尾声了,黄聪花了7章的课程和大家一起学习搜索引擎的各个组成部分的知识,虽然不是很详细,但是希望能够给搜索引擎爱好者一些帮助,只要有人因为该教程对搜索引擎有了更深的了解,那么黄聪就没有白花这个力气了。

在下一章我们做最后的总结:《8、搜索引擎工作原理总结》