独立二值检索模型 – 槐梦(个人学习记录)

独立二值检索模型是经典的概率检索模型之一，这里对其进行一下推导

首先就是我们知道，信息检索的本质就是匹配，在实现层面上来说，就是文档资源与检索表达式的一种匹配，独立二值检索模型中首先定义文档向量D与查询表达式向量Q，其中的特征分量为索引词。那么检索就是两个向量匹配的过程。

假设1首先保留了词与词相互独立的基本假设，这个在词向量处理当中非常常用，每个特征维度上，使用“二值”模式，类似one-hot的表达，如果词项出现，则对应的x_t或q_t为1，否则为0。相关用R=1表示，不相关用R=0表示。

这里是灵活运用了概率乘法公式，首先看最左式，将右边的分母乘到左边，其实就是一个概率乘法公式，当然，我们需要得到的是文档与查询是否相关的条件概率。将分子分母都根据概率乘法公式展开一个P(Q)，这样分子分母就可以同时消掉，得到最后的式子。

概率检索模型和空间向量模型一样，最终检索结果是一个排序列表，因此我们可以给出检索结果的排序指标如上式，不难发现，当文档与查询越相关时，该指标分子越大，分母越小，因此该检索结果排序指标单调性与相关性一致。这样又把先前两式的分母给约掉了。

此处引出假设2，即对应一个给定的查询来说，P(R=1 | Q) / P(R=0 | Q)是一个常数，此处的意思可以这么理解，就是说，每个文档与给定查询来说，都只有一个O(R, D, Q)，其中的P(R=1 | Q) / P(R=0 | Q)只有查询的部分，而没有文档的部分，不管文档如何变化，查询式没变，则该式不变，可以认为就是一个常量，而且对每个文档而言该变量都是一致的，因此不影响排序，最终我们可以认为该式是一个常数，进一步将检索结果排序指标简化。

引入独立的假设1，类似NBC的处理方式，由于特征词是相互独立的，因此可以展开为各个特征分量上的词特征的条件概率相乘的形式。

为了简化表示，使用参数p和u来表示条件概率，则检索结果排序指标可以进一步表示为上式。

假设3，当某个词t没有出现在查询中，则可以令p_t=u_t，即没有检索这个词，则这个词的特征维度上相关性与不相关性相等，对检索结果排序指标不产生影响。这一假设在检索结果排序指标中即q_t=0的部分，因此之前式子中的中间两项就被约掉了，提高了计算的效率。在只剩第一和第四项时，对第一项进行一个构造，乘上一个(1-u_t)/(1-p_t)，然后后面再乘倒数(1-p_t)/(1-u_t)，合并后两项，可以得到一个新的表达式，这里的构造是为了引入假设4。

假设4与假设2的思路是类似的，由于该式只与查询Q有关，而与文档无关，因此可以看做是一个常数，最后检索表达式就变成了一个只含参数p、u，且足够简单的形式，考虑一个精度处理，可以对其整体取对数，把累乘取对数变为一个累加对数项的形式。

最后就是执行模型，赋值初始参数，然后利用初始估计进行第一次排序，通常会默认结果列表中前R个文档相关，后面的文档不相关，根据这个结果的词向量重新计算p与u。终止条件是，①检索列表稳定。②参数稳定。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30