独立二值检索模型是经典的概率检索模型之一,这里对其进行一下推导

首先就是我们知道,信息检索的本质就是匹配,在实现层面上来说,就是文档资源与检索表达式的一种匹配,独立二值检索模型中首先定义文档向量D与查询表达式向量Q,其中的特征分量为索引词。那么检索就是两个向量匹配的过程。

假设1首先保留了词与词相互独立的基本假设,这个在词向量处理当中非常常用,每个特征维度上,使用“二值”模式,类似one-hot的表达,如果词项出现,则对应的xt或qt为1,否则为0。相关用R=1表示,不相关用R=0表示。

这里是灵活运用了概率乘法公式,首先看最左式,将右边的分母乘到左边,其实就是一个概率乘法公式,当然,我们需要得到的是文档与查询是否相关的条件概率。将分子分母都根据概率乘法公式展开一个P(Q),这样分子分母就可以同时消掉,得到最后的式子。

概率检索模型和空间向量模型一样,最终检索结果是一个排序列表,因此我们可以给出检索结果的排序指标如上式,不难发现,当文档与查询越相关时,该指标分子越大,分母越小,因此该检索结果排序指标单调性与相关性一致。这样又把先前两式的分母给约掉了。

此处引出假设2,即对应一个给定的查询来说,P(R=1 | Q) / P(R=0 | Q)是一个常数,此处的意思可以这么理解,就是说,每个文档与给定查询来说,都只有一个O(R, D, Q),其中的P(R=1 | Q) / P(R=0 | Q)只有查询的部分,而没有文档的部分,不管文档如何变化,查询式没变,则该式不变,可以认为就是一个常量,而且对每个文档而言该变量都是一致的,因此不影响排序,最终我们可以认为该式是一个常数,进一步将检索结果排序指标简化。

引入独立的假设1,类似NBC的处理方式,由于特征词是相互独立的,因此可以展开为各个特征分量上的词特征的条件概率相乘的形式。

为了简化表示,使用参数p和u来表示条件概率,则检索结果排序指标可以进一步表示为上式。

假设3,当某个词t没有出现在查询中,则可以令pt=ut,即没有检索这个词,则这个词的特征维度上相关性与不相关性相等,对检索结果排序指标不产生影响。这一假设在检索结果排序指标中即qt=0的部分,因此之前式子中的中间两项就被约掉了,提高了计算的效率。在只剩第一和第四项时,对第一项进行一个构造,乘上一个(1-ut)/(1-pt),然后后面再乘倒数(1-pt)/(1-ut),合并后两项,可以得到一个新的表达式,这里的构造是为了引入假设4。

假设4与假设2的思路是类似的,由于该式只与查询Q有关,而与文档无关,因此可以看做是一个常数,最后检索表达式就变成了一个只含参数p、u,且足够简单的形式,考虑一个精度处理,可以对其整体取对数,把累乘取对数变为一个累加对数项的形式。

最后就是执行模型,赋值初始参数,然后利用初始估计进行第一次排序,通常会默认结果列表中前R个文档相关,后面的文档不相关,根据这个结果的词向量重新计算p与u。终止条件是,①检索列表稳定。②参数稳定。