ramy  2020-03-11 09:26:00  机器学习 |   查看评论   

步骤4:创建目标

 

你可能还记得,这个研究的目标是增加YouTube的播放量。是不是说明,我们可以直接拿播放量作为目标呢?

 

但请注意!播放量呈偏态分布。播放量中值是27,641次,而最高的视频达到130万。这种不平衡会给模型的解释性带来问题。

 

因此,作者创建了特征views_quartile,以它作为目标。

 

他们将视频分为两类——高播放视频(“high”)和低播放视频(“low”)。“high”占总播放量的75%,也就是播放数35578及以上的视频,剩下的都归到“low”。

 

通过这种方式,作者使用预测模型来找到播放量最高的25%的视频的特征组合。

 

步骤5:构建决策树

 

准备好了一切工作,我们根据目标views_quartile建立一个决策树模型啦!

 

为了避免过度拟合,作者将一个叶子节点的最小样本设置为10。为了让我们更容易理解,作者将树的最大深度设置为8层。

用机器学习分析完网红视频后,我发现播放量暴涨的秘密

步骤6:阅读决策树

 

在最后一步中,作者将研究并总结导致高或者低播放量的“分支”。他们到底发现了什么呢?

 

发现1:calories_per_min是最重要的特征

 

没错,calories_per_min是最重要的特征。人们似乎不太关心健身类型或身体部位。

 

每分钟消耗的卡路里≥ 12.025属于高消耗,60%(51/(34+51) )的视频都有较高的观看率。

 

每分钟燃烧的卡路里少于(≤ 9.846)的视频则远没有受欢迎,只有7.2%(12/(154+12) =)有较高的播放。

 

而每分钟消耗卡路里在9.846到12.025之间的视频,其他因素也会产生较大作用。

 

发现2:不同部位、多种方式锻炼并不能提高播放量

 

这个发现超乎作者想象,难道不是各种各样的锻炼更好吗?

 

当过去一个月,身体不同部位的锻炼数量(num_unique_area)很高,≥ 10时,视频的观看倾向低。即使每分钟燃烧的卡路里很高,这种情况依然成立。

 

结合前两个观点,78%(42/(12+42) )的视频在以下情况下获得了更多的播放:

 

  • 每分钟燃烧的热量很高(≥ 12.025)

  • 过去一个月中身体不同部位的锻炼数量较少(< 10).。

     

发现3:臀部健身很受欢迎

当一段视频消耗的卡路里较少(calories_per_min≤ 9.846)时,但只要是臀部锻炼,33%(5/(10+5) )仍能获得高播放;不然,只有4.6%(7/(144+7) )视频拥有较高播放。

 

建议:如何提高播放

 

综上,作者给Sydney提出了三条建议:

 

建议1:燃烧卡路里

 

正如我们所见,每分钟消耗的卡路里是最重要的特征,12.025是个魔法数字。

 

下表是不同时长的视频应该燃烧多少卡路里的节点:

 

  • 30分钟健身:361卡路里

  • 40分钟健身:481卡路里

  • 50分钟健身:601卡路里

  • 60分钟健身:722卡路里

     

作者还提出了一个猜想:数字(时长和卡路里)对人的刺激只是心理上,大家可能就是喜欢看到卡路里的前两位数比时长大得多,这说明可以用更短的时间,消耗更多的卡路里。

 

建议2:少用不同的身体部位关键词

 

Sometimeslessis more.

 

人们不喜欢健身标题中有太多不同的身体部位。根据模型,在一个月内针对少于10个身体部位的组合更好。

 

作者注意到Sydney在她最近的视频中使用了更少的身体部位关键词。最明显的一点是,她一直在使用“手臂”或“上身”,而不是像“二头肌”或“背部”这样的词。

 

建议3:多多发布臀部健身

 

Sydney的订阅者可能更多是女士,她们倾向于“臀部”塑性,而不是增加手臂肌肉。人们愿意牺牲燃烧更少的卡路里来获得更健美的臀部。也许Sydney应该一直为燃烧更少卡路里的视频加入一些臀部运动。

 

建议4:未经验证的想法

 

比如说在月初发起新的活动。月初发布的视频更有可能获得更高的浏览量。也许人们喜欢设定新的目标来开始新的一个月。第二,避免在5天内发布相同类型的锻炼。

 

最后作者也表示,这个研究也有一些限制:

 

  • 这些建议是基于过去的表现。而YouTubers经常会打破过去套路,尝试新想法。鉴于此,我们可以将机器学习应用到他们的竞争对手身上。

  • 只集中分析了标题,还有一些其他信息,比如订阅者人数、性别、区域的统计,其中可能蕴藏着更多的特征、更准确的发现和解释。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自用机器学习分析完网红视频后,我发现播放量暴涨的秘密

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]