步骤4:创建目标
你可能还记得,这个研究的目标是增加YouTube的播放量。是不是说明,我们可以直接拿播放量作为目标呢?
但请注意!播放量呈偏态分布。播放量中值是27,641次,而最高的视频达到130万。这种不平衡会给模型的解释性带来问题。
因此,作者创建了特征views_quartile,以它作为目标。
他们将视频分为两类——高播放视频(“high”)和低播放视频(“low”)。“high”占总播放量的75%,也就是播放数35578及以上的视频,剩下的都归到“low”。
通过这种方式,作者使用预测模型来找到播放量最高的25%的视频的特征组合。
步骤5:构建决策树
准备好了一切工作,我们根据目标views_quartile建立一个决策树模型啦!
为了避免过度拟合,作者将一个叶子节点的最小样本设置为10。为了让我们更容易理解,作者将树的最大深度设置为8层。
步骤6:阅读决策树
在最后一步中,作者将研究并总结导致高或者低播放量的“分支”。他们到底发现了什么呢?
发现1:calories_per_min是最重要的特征
没错,calories_per_min是最重要的特征。人们似乎不太关心健身类型或身体部位。
每分钟消耗的卡路里≥ 12.025属于高消耗,60%(51/(34+51) )的视频都有较高的观看率。
每分钟燃烧的卡路里少于(≤ 9.846)的视频则远没有受欢迎,只有7.2%(12/(154+12) =)有较高的播放。
而每分钟消耗卡路里在9.846到12.025之间的视频,其他因素也会产生较大作用。
发现2:不同部位、多种方式锻炼并不能提高播放量
这个发现超乎作者想象,难道不是各种各样的锻炼更好吗?
当过去一个月,身体不同部位的锻炼数量(num_unique_area)很高,≥ 10时,视频的观看倾向低。即使每分钟燃烧的卡路里很高,这种情况依然成立。
结合前两个观点,78%(42/(12+42) )的视频在以下情况下获得了更多的播放:
-
每分钟燃烧的热量很高(≥ 12.025)
-
过去一个月中身体不同部位的锻炼数量较少(< 10).。
当一段视频消耗的卡路里较少(calories_per_min≤ 9.846)时,但只要是臀部锻炼,33%(5/(10+5) )仍能获得高播放;不然,只有4.6%(7/(144+7) )视频拥有较高播放。
建议:如何提高播放
综上,作者给Sydney提出了三条建议:
建议1:燃烧卡路里
正如我们所见,每分钟消耗的卡路里是最重要的特征,12.025是个魔法数字。
下表是不同时长的视频应该燃烧多少卡路里的节点:
-
30分钟健身:361卡路里
-
40分钟健身:481卡路里
-
50分钟健身:601卡路里
-
60分钟健身:722卡路里
作者还提出了一个猜想:数字(时长和卡路里)对人的刺激只是心理上,大家可能就是喜欢看到卡路里的前两位数比时长大得多,这说明可以用更短的时间,消耗更多的卡路里。
建议2:少用不同的身体部位关键词
Sometimeslessis more.
人们不喜欢健身标题中有太多不同的身体部位。根据模型,在一个月内针对少于10个身体部位的组合更好。
作者注意到Sydney在她最近的视频中使用了更少的身体部位关键词。最明显的一点是,她一直在使用“手臂”或“上身”,而不是像“二头肌”或“背部”这样的词。
建议3:多多发布臀部健身
Sydney的订阅者可能更多是女士,她们倾向于“臀部”塑性,而不是增加手臂肌肉。人们愿意牺牲燃烧更少的卡路里来获得更健美的臀部。也许Sydney应该一直为燃烧更少卡路里的视频加入一些臀部运动。
建议4:未经验证的想法
比如说在月初发起新的活动。月初发布的视频更有可能获得更高的浏览量。也许人们喜欢设定新的目标来开始新的一个月。第二,避免在5天内发布相同类型的锻炼。
最后作者也表示,这个研究也有一些限制:
-
这些建议是基于过去的表现。而YouTubers经常会打破过去套路,尝试新想法。鉴于此,我们可以将机器学习应用到他们的竞争对手身上。
-
只集中分析了标题,还有一些其他信息,比如订阅者人数、性别、区域的统计,其中可能蕴藏着更多的特征、更准确的发现和解释。