《5.1、用户行为分析--用户查询与点击日志》中我们了解了用户行为分析的重要性,今天就来一起看看用户查询日志对于搜索引擎有哪些主要意义呢。

查询日志的内容

以下只是一个不健全的用户查询日志,完整的查询日志应该包括用户IP、用户浏览器等等纤细信息,但是作为课程讲解,上面的片段已经足够,一个查询日志最重要的信息就是说明“某用户在某时刻搜索了某关键词”

查询日志的内容

查询日志虽然只是简单的记录了上述的几个信息,但是却帮助搜索引擎实现了一下几个应用:

1、查询词频。

搜索引擎可以通过统计一段时间内被搜索次数最多的关键词进行排序,以此知道当前用户最关心的资讯是哪些,百度就是依照此技术实现了百度风云榜。

查询词频

2、查询词提示。

用户有时候往往不知道哪些关键词更能找到合适的结果,那么搜索引擎可以通过用户输入的关键词前缀,分析查询日志中与该查询相关的搜索内容,以下拉框的形式展示给用户,以帮助用户找到更好的查询词,例如百度下拉框就是这样实现的。

查询词提示

3、命名实体识别。

当搜索引擎发现有大量人在搜索“什么是XXX”、“XXX是什么”、“XXX什么意思”的时候,就可以知道“XXX”是一个特殊的命名实体了,这时搜索引擎将可以将该新发现的命名实体作为新的关键词添加到词库中,下图是搜索引擎通过用户查询日志识别出了“哈利波特”。

命名实体识别

4、实体分类预测。

搜索引擎可以通过统计用户查询日志,分析出某个实体当前被关注的是该实体的哪些分类,比如下图中,搜索引擎发现一段时间内,搜索哈利波特书籍相关内容的人比搜索哈利波特电影、游戏相关内容的人多,那么搜索引擎就可以知道在这段时间内,人们更关注哈利波特书籍相关的内容。

实体分类预测

小结

查询日志只是用户行为日志中的一个部分,下一节黄聪再来和大家一起研究《5.3、用户行为分析--点击日志分析》