在前两节课中我们学习了天网搜索引擎的网页权重计算公式中网页中词项基本权重以及链接权重的计算方法,最后我们来看看用户评价权重是如何计算的。

首先,对于不同的用户的同一个查询词来说,若某个链接虽然不在结果列表的最前面,但是被点击的次数比较多,那么搜索引擎会觉得这个链接是比较受欢迎的,位置应该放在前面。因此,我们可以通过用户点击数UHN(user hit number)来计算用户评价权值。

1、以下表示对于一个查询,对应的页面是否被点击。

2、之后,定义一个查询对应的一个网页的UHN为:

3、但是按照上述的策略,就忽略了返回结果中URL的位置,这样对于排在后面的网页是不公平的,因此需要采用了一定的补偿算法弥补这个缺陷,我们可以定义以下的补偿因子c(pos(查询,网页))来实现:

4、WUD(查询,网页)只是计算了某个查询在一天内其结果页面得到的用户评价,但是如何考虑长期的用户评价呢?我们可以对n天的用户评价进行求和:

5、但是用户感兴趣的内容会随着时间变化而变化,因此,我们需要对上述的用户评价进行衰减算法:

6、当一个新的网页刚被索引的时候,它没有什么机会被用户点击,所以采用上述算法的时候,它的权值为零,因此我们还需要给新网页一定的补偿,办法是给新网页一个缺省的用户评价值:

7、得到补偿后,新的用户评价如下述公式计算:

8、进行归一化,其中WUmax表示对于所有网页的 的最大值:

小结

按照天网搜索引擎的网页权重计算公式为天网搜索引擎网页权重=网页中词项基本权重+链接权重+用户评价权重,我们已经在6.2~6.4节讲了各个参数的计算方法,所以我们将在下一节来讲如何计算最终的天网搜索引擎网页权重:《6.5、相关排序--最终权值的计算》