2021年机器学习怎么学？这份深度指南帮你做了总结-谢富治简历-赢咖4注册

ramy 2021-01-25 15:25:39 机器学习 | 查看评论

在这个过程中，常用的工具有：

Tensorbord，Weights & Biases，MLFlow - 可视化和跟踪模型超参数

除此之外，这里还有一个小Tips：

即使你认为你的任务是完全独特的，在训练前你也可以使用一些技巧。比如你可以研究一下非监督或半监督的方式对模型进行预训练的方法，并且只使用全部原始数据的一小部分进行微调。

根据任务情况，你还可以试着使用合成的数据去预训练你的模型。

这么做的目标是能够获得一个可以很好地表示数据的模型，如此以来，你的微调数据集只需要用来训练几个有价值的模型参数层即可。

阶段三：评估部分

机器学习

图：机器学习生命周期中的评估部分

一旦你成功地获得了一个学习过训练数据的模型，那么接下来就应该深入研究它在「新数据」上的表现是如何的。

下面是评估机器学习模型的关键步骤:

可视化模型输出

一旦有了一个训练好的模型，你需要立即运行几个测试的例子，并且观察输出结果。

这是在对整个测试集运行评估之前，发现训练或者评估pipeline过程中是否有错误的最好的方法。

此外，这个过程的结果还会让你知道模型中是否有任何明显的错误——比如有两个类被错误标记了。

你可以使用以下工具来辅助：

OpenCV, Numpy, Matplotlib - 可编写自定义可视化脚本

FiftyOne - 可视化针对图像和视频此类计算机视觉任务中的输出

选择正确的衡量标准

在观察到了几个样本的输出结果之后，你需要提出一个或几个衡量标准，这可以帮助你比较模型的整体性能。

对于一个特定的任务，为了确保获得最佳模型，你需要创造一个与最终目标相一致的模型衡量指标。

与此同时，当你发现你想追踪的其他重要特性时，你还需要更新指标：举个例子，比如你想检测你创建的目标检测模型在小规模目标上是如何表现的，那么你就可以使用「边界框

不过需要注意的是，虽然这些度量指标在比较多个模型的性能时很有用，但它们却很少有助于开发者理解如何提高模型性能的过程。

这个过程中，下面一些工具较为常用：

Scikit Learn - 提供了通用的衡量指标

Python, Numpy - 可以实现开发自定义指标

看看失败案例

你输入的训练数据决定了模型的表现，假设模型学到了一些信息，但是却表现得比你预期的要差，那么你就需要看看数据了。谢富治简历

查看模型运行良好的例子可能会很有用，但是查看模型预测错误的例子是最重要的。在查看了足够多的这些例子之后，你会逐渐发现模型在什么类型的例子上总会表现失败。