机器学习的进化-赢咖4注册

aihot 2017-05-08 08:34:37 赢咖4平台 | 查看评论

太有限了。说你正在分析图像，寻找狗的图片。可能只有特征值的某个子集指示它是否是狗的图片，并且该像素的其余值或图像的该片段指示另一个类。你不能画一条线来定义这样一组复杂的关系。非线性模型更强大，但同时他们更难训练。再次，你从优化理论遇到了那些硬的问题。这就是为什么很长一段时间我们认为神经网络不够好，因为他们会过度配合，或者他们太强大。我们不能做精确，保证优化。这就是为什么他们（暂时）从现场消失。

DB：在神经网络理论中，有多个分支和方法来计算机学习。你能总结一些关键的方法吗？

RZ：到目前为止，最成功的方法是监督方法，其中使用称为反向传播的旧算法来构建具有许多不同输出的神经网络。

让我们看看已经变得非常受欢迎的称为卷积神经网络的神经网络构造。这个想法是，机器学习研究者构建一个由多个层构成的模型，每个层以不同的方式处理来自前一层的连接。

在第一个图层中，您有一个窗口，用于在图像上滑动修补程序，该窗口将成为该图层的输入。这称为卷积层，因为补丁“卷积”，它与自身重叠。然后几种不同类型的层。每个都有不同的属性，几乎所有的都引入非线性。

最后一层有10,000个潜在神经元输出;那些激活中的每一个对应于识别图像的特定标签。第一类可能是猫;第二类可能是汽车;等等，所有的10,000类ImageNet有。如果第一个神经元正在触发10,000的最大值，则输入被识别为属于第一类，即猫。

监督方法的缺点是，您必须在训练时对图像应用标签。这是一辆车。这是一个动物园。等等。

DB：对。和无人监管的方法？

RZ：不太受欢迎的方法涉及“自动编码器”，这是无监督的神经网络。这里神经网络不用于分类图像，而是压缩它。你按照我刚才描述的方式读取图像，通过识别补丁并将像素馈入卷积层。然后还有几个其他层，包括与其他层相比非常小的中间层。它有相对少的神经元。基本上你正在阅读的图像，经历瓶颈，然后出来的另一边，并试图重建图像。

这个训练不需要标签，因为你正在做的是将图像放在神经网络的两端，并训练网络，使图像合适，特别是在中间层。一旦你这样做，你拥有一个知道如何压缩图像的神经网络。它有效地给你的功能，你可以使用在其他分类器。所以如果你只有一点点标记的训练数据，没有问题 - 你总是有很多的图像。将这些图像视为未标记的训练数据。您可以使用图像构建自动编码器，然后从自动编码器中拉出一个很好的适合使用一点点训练数据的功能，以找到您的自动编码的神经网络中易受特定模式的神经元。

DB：什么让你进入Spark？你在哪里看到那套技术？

关于本站

加入我们

网站合作

标签（推荐）