ramy  2021-01-25 15:25:39  机器学习 |   查看评论   

阶段一:数据部分

机器学习

图:机器学习周期的数据部分

虽然大家的最终目标是一个高质量的模型,但训练一个好的模型的关键之一,在于传递给它的数据的数量

机器学习生命周期中,数据方面的相关步骤是:

1、数据收集

第一步,是在不管最终的数据质量的情况下,先收集尽可能多的原始数据。在这部分原始数据中,只有一小部分数据会被注释,这也是大部分成本的来源。

而当模型性能出现问题时,根据需要添加大量数据是很有用的。

下面是常用的公共数据集列表:

http://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

2、定义注释模式

这个环节,是生命周期里数据阶段最重要的部分之一,而它却经常被忽视。

如果构造了不良的注释模式,那么会出现不明确的类和边缘案例,从而使训练模型变得更加困难。

例如,目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此,在注释期间将目标大小、密度和遮挡等属性囊括其中,有助于模型可以学习到数据中的关键信息。谢富治简历

下面两个是有助于这个过程的常用工具:

Matplotlib, Plot - 帮你发现数据中的Plot属性

Tableu -可以帮助你更好理解数据的分析平台

3、数据注释

给数据注释是一个冗长乏味的过程,每次都要连续数小时地执行相同重复的任务,这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。

而这样会导致注释者可能犯了很多错误:虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率),但更大的问题是,如果定义不当的注释模式,会导致注释者以不同的方式标记样本。

然而,注释公司的团队很难发现这一点,所以你需要自己检查。

下面是常用的各种注释服务:

Scale, Labelbox, Prodigy - 流行的注释服务

Mechanical Turk - 众包注释

CVAT - DIY的计算机视觉注释

Doccano - NLP专用注释工具

Centaur Labs -医疗数据标签服务

4、改进数据集和注释

在尝试改进模型性能时,你可能会花费大量的时间。

如果模型正在学习的过程中,但性能却不佳,那么罪魁祸首几乎总是包含偏差和错误的训练数据集,这些偏差和错误限制了模型的性能上限。

改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好,那么就在训练数据中添加类似于数据集A的新数据)、根据模型了解到的偏差重新平衡数据集,以及更新注释模式以添加新标签和改进现有标签。

下面是常用的改进数据集和注释的工具:

DAGsHub - 数据集版本控制

FiftyOne - 将数据可视化并找出错误

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自2021年机器学习怎么学?这份深度指南帮你做了总结-谢富治简历

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]