aihot  2020-11-12 11:22:34  OpenCV |   查看评论   

查询纠错

  说查询纠错之前我想先说一下查询预测,《浅谈机器学习基础》中的Apriori算法就是用来发现频繁项集并在用户输入查询词时推荐给用户的。

  查询纠错其实分为两步,一是错误识别,而是错误纠正。

  大多数错误识别机制是基于词典的,即将用户输入的查询分词后查找词典,如果在词典里没有找到,那么这很可能是一个错误输入。

  至于错误纠正,主要的方法有两种,一个是编辑距离,另一个是噪声信道模型。

  编辑距离其实在《浅谈自然语言处理基础》中自动机那部分应该提到的,但是省略了,这里简单说一下。编辑距离通常使用有限状态自动机来实现,编辑距离的意义是衡量两个字符串的拼写差异有多大,也即对于某个字符串来说,可以通过进行几次操作,来逐步将其转换成另一个字符串,这些操作可以是删除字符、添加字符、更改字符以及交换字符顺序。与原错误串编辑距离较小的正确串很有可能就是用户所想要输入的字符串。

  噪声信道模型在《浅谈自然语言处理基础》的汉语自动分词的N-最短路径方法那里提到过,当时讲的是,假设一串有分词符号的字符串经过噪声信道,丢失了分词符号,我们要根据其输出反推,找出概率最大的输入,也即完成了分词过程。

  这里也是类似,我们假设正确串W是输入,错误串V是输出,那么对于多个候选正确答案,我们就要找到概率最大的作为错误串V对应的正确查询串。具体的计算要用贝叶斯公式,需要找出最大的P(W|V)所对应的那个W,根据贝叶斯公式,P(W|V)=P(V|W)*P(W)/P(V),P(V)都是相同的就不考虑了,关键还是求P(V|W)*P(W),P(V|W)是正确串W被误写为V的概率,P(W)是正确串W的出现概率,这两个概率都需要通过训练语料统计出来。

网页去重

  最开始也提到过,互联网页面中有相当大比例的内容是完全相同或者大体相同的,内容重复可以归结为以下4种类型:

  • 内容、布局均相同
  • 内容相同、布局不同
  • 部分重要的内容相同,布局相同
  • 部分重要的内容相同,布局不同

  如果我们能够找出这些重复网页,那首先我们能够节省一部分存储空间,其次能够提高网页的收集速度。而且镜像多的网页,往往比较重要。另外,如果用户点击了一个死链接,可以将用户引导到一个内容相同的页面。

通用去重算法框架

通用去重算法框架

通用去重算法框架

  对于给定的文档,首先通过一定的特征抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步往往有其内在要求,即尽可能保留文档重要信息,抛弃无关信息,以加快计算速度。

  在文档转换成特征集合后,为了进一步加快计算速度,很多高效实用的算法会在特征集合的基础上,对信息进一步压缩,采用信息指纹相关算法,将特征集合压缩为新的数据集合,其包含的元素数量远小于特征集合数量,有时甚至只有唯一的一个文档指纹。

  把文档压缩为文档指纹之后,即可开始通过相似性计算来判断哪些网页是近似重复页面。这里常用的方法有Jaccard相似度,Jaccard相似度在《浅谈推荐系统基础》中提到过,就是交集比上并集。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈搜索引擎基础(下)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]