浅谈搜索引擎基础（下）-赢咖4注册

aihot 2020-11-12 11:22:34 OpenCV | 查看评论

主题敏感 PageRank（Topic Sensitive PageRank）

　　PageRank算法与查询无关，只能作为相似度计算的一个因子体现作用，无法独立使用。而主题敏感PageRank是查询相关的，可单独作为相似度计算公式使用。

　　主题敏感 PageRank 主要有两个计算步骤，第一个是离线的分类主题PageRank数值计算；第二步是在线利用算好的主题PageRank分值，来评估网页和用户查询的相似度。

　　第一步是参考ODP网站，ODP网站定义了16个大的主题类别，每个主题类别下有人工收集的精选高质量网页地址。然后以这16类主题类型的网页为基础，计算PageRank分值，即每个网页会被赋予16个主题相关的PageRank分值。不像普通的PageRank算法，所有的权值都被初始化为1，人工收集的精选高质量网页地址会被赋予较高的权值，然后由它们根据链接关系向其它网页传递权值。

　　第二步是在线相似度计算，首先要根据用户查询分类器对查询进行分类，计算用户属于定义好的各个类别的概率分别是多少，然后再相应的乘以待计算相似度的网站每个类别的PageRank值，最终得到相似度。

　　主题敏感PageRank的机制非常适合作为个性化搜索的技术方案，比如在计算用户查询的类别时，不仅考虑用户当前输入的查询词，也考虑用户过去的搜索记录等个性化信息，就能更精准的提供搜索服务。

网页反作弊

　　出于商业利益驱使，很多人会通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置，这样会严重影响搜索引擎用户的搜索体验。

　　常见的作弊方法包括：内容作弊、链接作弊、隐藏作弊等，这里均简单介绍一下。

　　内容作弊比如在网页中重复关键词、放置无关查询词、在图片alt标签以及网页标题等重要标签放置关键词等，或者用一些低质量的内容搞内容农场。

　　链接作弊有链接农场，就是大量互相紧密链接的网页集合，还有利用链接描述性文字的谷歌轰炸等等。

　　页面隐藏作弊有IP地址作弊、HTTP请求作弊来欺骗爬虫。

　　反作弊的方法比如信任传播模型，筛选出一些肯定不会作弊的白名单页面，给予一定信任分值，然后白名单内节点通过链接关系将信任度分值向外扩散传播，然后确定一个信任度阈值；或者反过来用黑名单做不信任传播模型；还有异常发现模型，倾向于去发现作弊网页不同于正常网页的特征。

用户查询意图分析

　　用户之所以会产生搜索行为，往往是在解决任务时遇到自己不熟悉的概念或问题，由此产生了对特定信息的需求，之后用户会在头脑中逐步形成描述需求的查询词，将查询词交给搜索引擎，然后对搜索结果进行浏览，找到满足自身需求的信息或者根据搜索结果的启发，修正自己的查询关键词重新搜索。

　　上面的问题在于，从用户产生信息需求到最终形成用户查询，中间有很大的不确定性，用户用的查询语句与用户的信息需求很难一开始就是完全等价的。因此用户会改写自己的需求，比如抽象化改写、具体化改写及同义重构改写。

用户搜索意图分类

　　有人将用户的意图分为三个大类：导航型、信息型、事务型。

　　这让我想到了有篇文章，阿里小蜜将用户的意图分为三种：问答型、任务型、语聊型。

问答与信息型相同，都是希望获取某种信息，知道某种知识。
任务型与事务型相同，都是希望完成一个目标明确的任务。
导航型搜索引擎独有，用户希望查找某个网页，但又不知道URL，所以借助搜索引擎。
语聊型chatbot独有，毕竟没人会和一个搜索引擎闲聊吧。

　　意图识别可以采取一些通用的分类器，比如SVM、决策树等完成。

搜索日志挖掘

　　搜索引擎是搜索引擎对用户行为的记录，一般记载了查询、发出查询的用户ID，发出查询的时间、点击网页的网址及这条网址在搜索记录中的排名情况。

查询会话

　　比如在搜索日志中，我们可以找出用户在较短时间段内发出的连续多个查询，这样的一段日志被称作一个查询会话，一个查询会话中的用户查询语句往往会有语义上的相关性。比如我们可以依此来构建查询图，用来表示查询之间的这种相互关系。

点击图

　　点击图是非常有价值的信息，我们可以认为搜索结果里被点击过的网页与用户查询更相关。

主题敏感 PageRank（Topic Sensitive PageRank）

网页反作弊

用户查询意图分析

用户搜索意图分类

搜索日志挖掘

查询会话

点击图

相关搜索

关于本站

加入我们

网站合作

标签（推荐）