浅谈搜索引擎基础（上）-赢咖4注册

aihot 2020-11-12 11:21:28 OpenCV | 查看评论

　　概率检索模型是目前效果最好的模型之一。BM25这一经典概率模型计算公式已经在商业搜索引擎的网页排序中广泛使用。

　　概率检索模型的思想是：给定一个用户查询，如果搜索引擎能够在搜索结果排序时按照文档和用户查询的相关性由高到低排序，那么这个搜索系统的准确度是最高的。

　　从表述来看，概率检索模型直接对用户查询与文档的相关性进行建模，而前面的向量空间模型以用户查询与文档的相似性代替了相关性。

　　也即我们需要估算给定一个文档，与用户查询相关的概率P(R|D)，和不相关的概率P(NR|D)。

　　这是不是和区分垃圾邮件有点像，区分垃圾邮件用的什么？朴素贝叶斯算法，在《浅谈机器学习基础》中有对朴素贝叶斯算法的详细讲解。

　　这里的二元独立模型（BIM）与朴素贝叶斯算法基本相同，BIM的二元假设就是词集模型，以0/1表示单词出现与否。BIM的词汇独立性假设就是朴素贝叶斯假设，或者说是《浅谈自然语言处理基础》中讲过的一元文法模型。

　　在朴素贝叶斯算法中，根据贝叶斯决策理论，只要计算出P(R|D)和P(NR|D)，判断其大小关系即可，但是在BIM中，因为我们还需要对相关性大小进行归类，所以我们还要计算出P(R|D)/P(NR|D)。

　　经过化简取对数等操作后，我们得到如下公式：

概率检索模型

　　其代表的含义是：对于同时出现在用户查询Q和文档D中的单词，累加每个单词的相关性估值，其和就是文档D和查询的相关性估值。（这里插一句，朴素贝叶斯那里不是连乘吗，为什么这里是加？因为P(R|D)/P(NR|D)在化简的时候取了对数）

　　还有一点，朴素贝叶斯算法是监督学习算法，通过带标签的训练语料得到先验概率的估计值，但是这里我们没有带标签的训练语料怎么办？我们只能把所有文档都看做是不相似文档，这样我们辛辛苦苦计算出来的P(R|D)/P(NR|D)就等价于所有单词的IDF之和了。

　　各种实验表明，BIM计算的相关性实际效果并不好，但这个模型是非常成功的概率模型方法BM25的基础。

　　BIM采用词集模型，只考虑是否在文档中出现，而没有考虑单词的权值。BM25模型在BIM模型的基础上，考虑了单词在查询中的权值以及单词在文档中的权值，拟合出综合上述考虑因素的公式，并引入一些经验参数。BM25模型是目前最成功的内容排序模型：

BM25计算公式

BM25计算公式

　　BM25模型计算公式其实融合了4个考虑因素：IDF因子、文档长度因子、文档词频和查询词频，并利用3个自由调节因子（k1、k2和b）对各种因子的权值进行调整组合。

　　对于二元独立模型，我们假设相关文档个数R和包含查询词的相关文档个数r设定为0，这样第一个计算因子就化成类似IDF的形式。