用机器学习分析完网红视频后，我发现播放量暴涨的秘密-赢咖4注册

ramy 2020-03-11 09:26:00 机器学习 | 查看评论

youtube

在视频成为重要媒介，vlog、视频博主也成为一种职业的当下，如何提高自己视频的播放量，是广大内容生产者最头秃的问题之一。网络上当然有许多内容制作、热点跟踪、剪辑技巧的分享，但你可能不知道，机器学习也可以在其中发挥大作用。

join into data上两位作者 Lianne 和 Justin 做了一个硬核的技术分析。他们的分析对象是 YouTube 一个新近崛起的健身博主Sydney Cummings。

Sydney拥有美国国家运动医学会(NASM)的私人教练证，同时也是一位跳高运动员。她的账号注册于2016年5月17日，累计播放量27,031,566，目前拥有21万粉丝，每天都稳定更新，很有研究意义。请注意，以下研究都将通过 Python 实现。

Sydney Cummings 的标题都有一定套路，比如最近一个标题是《30分钟手臂和强壮臀肌锻炼！燃烧310卡路里！》，通常涵盖时间、身体部位、消耗的卡路里以及其他关于锻炼的描述性词汇。观众点击这段视频之前，就会知道几个信息：

掌握以上关键信息是预先的准备，接下来还有六个步骤：观察数据、用自然语言处理技术对视频进行分类、选择特征、创建目标、构建决策树、阅读决策树。接下来就和雷锋网一起看看作者究竟是怎么一步一步展开研究的。

事前准备：抓取数据

其实有很多不同的方法来抓取 YouTube 数据。由于这只是个一次性项目，所以作者选择了一个只需要手工操作，不依赖额外工具的简单方法。

以下是分步步骤：

选中所有视频；
右键单击最新的视频并选择“Inspect“；
将光标悬停在每一行上，找到高亮显示了所有视频的最低级别的 HTML 代码/元素级别；

例如，如果使用 Chrome 浏览器，它看起来就像这样：

▲【图片来源：Sydney’s YouTube Video page 所有者：Sydney】
右键单击元素并选择“复制”，然后选择“复制元素”；
将复制的元素粘贴到文本文件中并保存，这里使用 JupyterLab 文本文件并将其保存为 sydney.txt；
使用 Python 提取信息并清理数据。