aihot  2017-11-07 06:03:23  机器学习 |   查看评论   

浅谈推荐系统基础

  这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术,产品色彩会强不少。参考了《长尾理论》、《推荐系统实践》以及大量相关博客内容。

什么是推荐系统

  我之前写过一篇《长尾理论》精读,里面有这样的观点:

推动市场由热门经济学向长尾经济学转变有三种力量:第一种是生产普及的力量(生产者),第二种是传播普及的力量(集合器),第三种是供需相连的力量(过滤器)。

  生产普及的力量指,当下大众制作内容(图像、音视频、文字等)的门槛大大降低,人们有能力制作并有意愿分享自己产生的内容。使得可供展示的内容量大大增加。

  传播普及的力量指,相当一部分内容由原子存在变为比特存在,不再需要占据物理世界中的『货架』,而是存储在硬盘之中,存储成本的降低使得大量非热门的长尾内容可以被摆上虚拟世界中的『货架』,真的有了对外展示的机会。

  而供需相连的力量,就是指推荐系统。

  既然存在大量的长尾内容,那如何供需相连?推荐系统要做的,就是联系用户和内容,一方面帮助用户发现对自己有价值的内容;另一方面让内容能够展现在对它感兴趣的用户面前,从而实现内容消费者和内容生产者的双赢。

  为了联系用户和内容,其实过去也有很优秀的解决方案,有代表性的比如分类目录搜索引擎

  随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网站,越来越不能满足用户的需求,因此搜索引擎诞生了。搜索引擎可以让用户搜索关键词来找到自己所需要的信息,但是,搜索的前提就是用户要主动提供准确的关键词,但是如果用户无法准确的描述自己需求的关键词时,搜索引擎就无能为力了。

  而推荐系统不同,它不需要用户提供明确的需求,甚至连用户主动提出需求都不需要。推荐系统通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足它们兴趣和需求的内容。

什么是好的推荐系统?

  先总体来说,一个完整的推荐系统一般存在三个参与方:用户、内容提供者和提供推荐系统的网站。

  首先,推荐系统要满足用户的需求,给用户推荐那些让他们感兴趣的内容;其次,推荐系统要让内容提供者的内容都能被推荐给对其感兴趣的用户;最后,好的推荐系统设计,能够让推荐系统本身收集到高质量的用户反馈,不断提高推荐的质量,提高推荐系统的效益。

推荐系统实验方法

  评价推荐系统效果的实验方法主要有三种,分别是离线实验用户调查在线实验

  离线实验一般是:

  • 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集
  • 将数据集按一定规则分成训练集和测试集
  • 在训练集上训练用户兴趣模型,在测试集上进行预测
  • 通过事先定义的离线指标评测算法在测试集上的预测结果

  离线实验在数据集上完成,不需要真实用户参与,可以快速的计算出来。主要缺点是离线指标往往不包含很多商业上关注的指标,比如点击率、转化率。

  用户调查是理论上最有效的方法,因为高预测准确率不等于高用户满意度,还是要从用户中来,到用户中去。

  用户调查需要有一些真实的用户,让他们在需要测试的推荐系统上完成一些任务,同时我们观察和记录他们的行为,并让他们回答一些问题,最后通过分析他们的行为和答案了解测试系统的性能。

  但是用户调查成本很高,而且测试用户也需要精心挑选,太麻烦了。

  在线实验一般在离线实验和必要的用户调查之后,一般是将推荐系统上线做AB测试,将它和旧的算法进行比较。

  AB测试是一种很常用的在线评测算法的实验方法,不仅是算法,对产品设计的改动也可以采用这种方法。它通过一定的规则将用户随机分成几组,并对不同组的用户采用不同的算法,然后通过统计不同组的各种不同的评测指标比较不同的算法性能,比如点击率。

  AB测试的缺点是周期较长,影响较大,我们通常只用它测试那些在离线实验和用户调查中表现很好的算法。

  一般而言,我们需要证明新的推荐算法在很多离线指标上优于现有算法,而且用户满意度不低于现有的算法,最后在线上AB测试后,发现在我们关心的指标上也优于现有的算法。这样新的推荐系统才能最终上线发布。

推荐系统评测指标

用户满意度

  用户满意度是推荐系统最重要的指标,但是用户满意度没法离线计算,只能通过用户调查和在线实验获得。

  用户调查前面讲了,是找一些真实的用户去试用,然后统计行为以及询问一些问题。

  在线实验一般是对一些线上用户的行为进行统计来得到用户满意度,比如在电子商务网站中,用户如果购买了推荐的商品,就表示他们在一定程度上满意;或者也可以设计一些用户反馈页面收集用户满意度。更一般的,我们可以统计点击率、用户停留时间和转化率等指标。

 1/15    1 2 3 4 5 6 下一页 尾页
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈推荐系统基础

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]