此外,他们注意到数据有重叠,因为博主曾经多次上传同一个视频,在接下来的分析中将会忽略这部分不大的样本。
步骤2:用 NLP 对视频进行分类
在这一步中,他们根据标题中的关键词对视频进行分类。
分组标准是:
-
这个视频针对的是身体哪个部位?
-
这个视频的目的是增肌还是减肥?
-
或者还有什么其他关键词?
作者使用了自然语言工具包(NLTK),Python 中一个常用的开源 NLP 库,来处理标题。
生成关键词列表
首先,标记化视频的标题。此过程使用分隔符(如空格(" ")将标题文本字符串拆分为不同的标记(单词)。这样,计算机程序就可以更好地理解文本。