2021年机器学习怎么学？这份深度指南帮你做了总结-谢富治简历-赢咖4注册

ramy 2021-01-25 15:25:39 机器学习 | 查看评论

阶段一：数据部分

机器学习

图：机器学习周期的数据部分

虽然大家的最终目标是一个高质量的模型，但训练一个好的模型的关键之一，在于传递给它的数据的数量。

机器学习生命周期中，数据方面的相关步骤是:

1、数据收集

第一步，是在不管最终的数据质量的情况下，先收集尽可能多的原始数据。在这部分原始数据中，只有一小部分数据会被注释，这也是大部分成本的来源。

而当模型性能出现问题时，根据需要添加大量数据是很有用的。

下面是常用的公共数据集列表：

http://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

2、定义注释模式

这个环节，是生命周期里数据阶段最重要的部分之一，而它却经常被忽视。

如果构造了不良的注释模式，那么会出现不明确的类和边缘案例，从而使训练模型变得更加困难。

例如，目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此，在注释期间将目标大小、密度和遮挡等属性囊括其中，有助于模型可以学习到数据中的关键信息。谢富治简历

下面两个是有助于这个过程的常用工具：

Matplotlib, Plot - 帮你发现数据中的Plot属性

Tableu -可以帮助你更好理解数据的分析平台

3、数据注释

给数据注释是一个冗长乏味的过程，每次都要连续数小时地执行相同重复的任务，这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。

而这样会导致注释者可能犯了很多错误：虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率)，但更大的问题是，如果定义不当的注释模式，会导致注释者以不同的方式标记样本。

然而，注释公司的团队很难发现这一点，所以你需要自己检查。

下面是常用的各种注释服务：

Scale, Labelbox, Prodigy - 流行的注释服务

Mechanical Turk - 众包注释

CVAT - DIY的计算机视觉注释

Doccano - NLP专用注释工具

Centaur Labs -医疗数据标签服务

4、改进数据集和注释

在尝试改进模型性能时，你可能会花费大量的时间。

如果模型正在学习的过程中，但性能却不佳，那么罪魁祸首几乎总是包含偏差和错误的训练数据集，这些偏差和错误限制了模型的性能上限。

改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好，那么就在训练数据中添加类似于数据集A的新数据）、根据模型了解到的偏差重新平衡数据集，以及更新注释模式以添加新标签和改进现有标签。

下面是常用的改进数据集和注释的工具：

DAGsHub - 数据集版本控制

FiftyOne - 将数据可视化并找出错误