YouTube 标题的标记和词干
除了关键词,作者还需要标记和提取标题词干。这些过程可为进一步匹配关键字和标题列表做准备。
步骤3:特征工程
经过头脑风暴,他们选择了两种特征——基于关键词和基于时间。
基于关键词的特征 Indicator Features
由于前一步的工作,现在有3个关键词列表和精简的标题,可以匹配它们来对视频进行分类。
按照 body_keywords 和 workout_type_keywords 分类,一个视频中有许多关键词。所以在匹配之前,作者还创建了2个特征:area 区域和 workout_type 健身类型。这些特征将一个视频的所有身体部位和锻炼类型连接成一个字符串。
例如,一个健身视频可以同时做“腹肌”和“腿”,或者同时做“有氧”和“力量”。该视频的特征区域为“腹肌+腿”,健身类型为“有氧+力量”。
同时,作者也识别出了相似的关键字,如“总共”和“完全”、“核心”和“腹肌”,将它们归在一组。
最后,他们创建了三种不同类型的虚拟特征(dummy features):
-
is _ { } _区域,识别视频是否包含特定身体部位;
-
is_ { } _健身,确定健身类型;
-
title_contains_{},查看标题是否包含其他关键词。
为了清楚起见,视频标题“腿部力量消耗训练”应该是 _leg_area = True,is_strength_workout = True,title_contains_burnout = True,而所有其他都为 False。
Frequency Features
除以上特征外,作者还创建了三个特征:num_body_areas,num_workout_types,和num_other_keyword,用来计算一个视频标题中提到的关键词的数量。
举个例子,一个标题是“腹肌和腿部有氧力量训练”的 num_body_areas 和 num_workout_types 都是2。
这些特征有助于确定视频中应包含的身体部位或锻炼类型的最佳数量。
Rate Features
最后同样重要的是,作者创建了一个特征:calories_per_min(每分钟卡路里数)看看卡路里的燃烧速度。毕竟,观众都想要一些明确的(可量化的)锻炼目标。
当然整个过程中也难免存在一些被错误分类的视频,作者也在转向时间特征前进行了手动修复,这里不再赘述。
基于时间序列的特征
有了上述基于关键词的特征,作者已经发现受欢迎视频的类型。但这是否意味着博主应该一直发相同类型的视频?
为了回答这个问题,他们还创建了一些基于时间序列的特征:
-
num_same_area,过去30天内发布的针对同一区域的视频(包括当前视频)数量。
例如,特征= 6,说明除了当前视频针对上半身时,过去30天中还有5个上身健身视频。
-
num_same_workout,该特征类似 num_same_area,只是统计的是健身类型。
例如,特征= 3,说明除了当前视频 HIIT 健身,在过去30天内还有2个 HIIT 健身视频。
-
last_same_area,距离上一个针对同一块身体部位视频过去的天数。
例如,该特征= 10,说明针对腹肌的上一个视频,发布在10天前。
-
last_same_workout,同 last_same_area,只是针对健身类型。
-
num_unique_areas,过去30天内锻炼了几块不同的身体部位。
-
num _ unique _workouts,过去30天发布的不同健身类型视频的数量。
这些特征将帮助了解观众是喜欢相同的还是不同类型的视频。
需要说明的是,博主偶尔会发布与健身无关的视频,播放数差距很大,所以作者未将这些列入分析。另外他们也过滤掉了前30天的视频,因为它们缺乏足够的历史数据。
接下来请看下面特征工程的具体过程。
多重共线性检验Test for Multicollinearity
什么是多重共线性检验,维基百科的解释是,多重共线性(也称共线性)是一种现象,其中多元回归模型中的一个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性,至少在样本数据集中是如此;它只影响单个预测因子的计算。