基于位置的点击模型

阅读量：4290 次

发布时间：2019-05-27

本文共 1934 字，大约阅读时间需要 6 分钟。

主流的点击模型大都基于点击模型方面最基础的研究，认为用户在浏览搜索引擎时采用的是沿着搜索结果列表从上到下依次浏览的方式，根据这个假设，用户的浏览顺序与搜索结果的位置顺序是一致的。因此大多数的点击模型都是基于位置的构建方式(我们称作基于位置的点击模型)。另外，由于点击模型中最主要的信息来源为用户的交互信息(主要是点击信息)，因此模型对于用户行为以及结果相关性的推断都来源于点击行为。因此大多数的点击模型都假设搜索页面中的所有结果是同质的(所有具有类似的形式,仅在内容上有所区别，对应到模型中即为仅在结果相关性上有所区别)，在排除结果相关性影响之后这些结果对于用户的行为不构成影响。

点击模型的基础是概率图模型，不同假设带来不同的模型。常见行为（event）注明如下：

E：某条搜索结果被用户检验的行为。

A ：某条搜索结果吸引到用户的行为。
C ：某条搜索结果被用户点击的行为。

PBM(Position-based Model )基于位置模型

Position-based Model 的假设：各搜索 Session 可产生多次点击行为，而文档是否被点击，由两个因素决定：

文档是否被检验，即检验度（直观来说，就是这个搜索结果能否被用户观测到，更进一步说，文档是否处于显眼的位置，更往前的搜索结果被检验到的概率更大），在 PBM 的假设中检验度仅仅和搜索结果的位置有关，是独立概率；

文档是否能吸引用户，即吸引度。这个概念和搜索词和文档的相关性不同（但如果希望以相关性作为排序重要标准的场景下，例如疾病搜索等，应该以相关性为主），但以吸引度为排序依据，可以有效提高搜索词的点击率。

PBM 的概率图模型下图所示：

PBM 的概率公式如下：

其中

P(A_u=1)=\alpha_{uq}，\alpha

表示吸引度，仅与搜索词q与文档u有关；

P(E_u=1)=\gamma_{u_r}，\gamma

表示检验度，仅与文档所处位置

r_u

有关。

UBM(User Browsing Model) 用户浏览模型

User Browsing Model 的假设：各搜索 Session 可产生多次点击行为，文档是否被点击由两个因素决定：是否被检验、是否能吸引用户。但与 PBM 的不同点在于，是否被检验由排序在此文档前的所有文档是否被点击共同决定，我们假设检验概率不仅依赖于文档的位置 $r$ 也依赖于上一个点击文档位置 $r^{'}$ 。

CM(Cascade Model) 级联模型

级联模型假设用户的浏览行为是沿着搜索结果列表从上到下依次检验的，当且仅当用户检验了某个结果并且该用户没有做出点击该结果的行为，该用户才会继续检验排在该结果后一位的搜索结果。其模型的示意图如下图：

针对该结果的公式为：

DCM(Dependance Click Model) 依赖点击模型

由级联模型的假设可知，该模型只能描述用户仅有一次点击的搜索情况，而实际的用户行为中，用户可能会发生多次点击，因此Guo等提出了dependency click model (DCM)模型，该模型沿用了用户顺次向下检验的行为假设，同时假设当用户点击之后仍然有一定的概率继续下一步的浏览行为，其浏览行为描述公式为

DBN(Dynamic Bayesian Network) 动态贝叶斯网络点击模型

Chapelle 等提出了 dynamic Bayesian network (DBN)模型，如下图：

该模型首次将用户的浏览过程中的满意度行为引入模型描述中。该模型假设用户每点击一条结果之后都会有一定的满意度改变，而一旦用户在某次点击之后达到了满意的程度，那么他 / 她就会停止检验后续的结果并结束这次查询：

式中: Si 表示用户点击了第 i 个结果之后的满意程度， λ 表示了用户不满意的情况下继续检验后续结果的概率。

除了上述模型之外，Guo 等提出了 click chain model (CCM)模型描述用户可能存在的略过行为;Hu 等尝试区分不同查询意图下用户浏览行为的区别，从而对已有的点击模型进行改进; Chen 等提出了 noise⁃aware click model (NCM)尝试从所有的点击信息中区分哪些是用户真实的结果相关性判断，哪些是由于其他原因造成的不可信的点击。可以看到，以上的一系列的点击模型都是基于用户的检验顺序严格从上到下进行一遍以及所有结果具有同质属性这两个基本的假设进行研究的。

转载地址：http://yoegi.baihongyu.com/

你可能感兴趣的文章