序列到机器学习-赢咖4注册

aihot 2017-05-07 22:24:07 赢咖4平台 | 查看评论

麦克奥斯汀序列

麦克奥斯汀序列。

Oriol Vinyals是Google的研究科学家，通过之前与Google Brain团队的合作，致力于DeepMind团队。他拥有博士学位。在加州大学伯克利分校的EECS和圣地亚哥加州大学的硕士学位。

关键外卖

使用神经网络的序列到序列学习已经在诸如机器翻译的领域中提供了最先进的性能。

虽然功能强大，但这些方法受到许多因素的限制，包括计算。 LSTM已经走了很长的路要向前推进领域。

除了图像和文本的理解，深度学习模型可以教会“编码”解决方案，以解决一些众所周知的算法挑战，包括旅行推销员问题。

David Beyer：让我们从你的背景开始。

Oriol Vinyals：我来自西班牙巴塞罗那，在那里我完成了数学和电信工程的本科学习。早期，我知道我想在美国学习AI。我在卡内基梅隆度过了九个月，在那里我完成了本科毕业论文。之后，我在加州大学圣地亚哥分校获得硕士学位，然后转到伯克利为我的博士学位。在2009年。

在我的博士期间在Google工作期间，我与Geoffrey Hinton会面并合作，催化了我对深度学习的兴趣。到那时，作为在微软和谷歌的精彩实习经验的结果，我决心在工业中工作。在2013年，我加入了Google全职。我最初的研究兴趣在语音识别和优化（强调自然语言处理和理解）让我目前的重点解决这些和其他问题与深度学习，包括最近，从数据生成学习算法。

DB：告诉我你离开语音识别时你的焦点变化。你最感兴趣的领域是什么？

OV：我的演讲背景激发了我对序列的兴趣。最近，Ilya Sutskever，Quoc Le和我发表了一篇关于从序列到序列映射的文章，以便使用循环神经网络将机器翻译成法语到英语。

对于上下文，监督学习已经证明在输入和输出是向量，特征或类的情况下是成功的。例如，馈入这些经典模型的图像将输出相关联的类标签。直到最近，我们还不能将图像馈入模型并输出描述所述图像的单词序列。目前正在进行的快速进展可以追溯到具有图像描述（MS COCO）的高质量数据集的可用性，以及并发地，对于复发性神经网络的再现。

我们的工作重塑机器翻译问题在基于序列的深度学习。结果表明，深度学习可以将英语中的单词序列映射到西班牙语中相应的单词序列。凭借深度学习的惊人力量，我们能够在现场更快地推翻最先进的性能。这些结果独自提出了有趣的新应用 - 例如，自动将视频提炼成四个描述性句子。

DB：序列到序列方法不能很好地工作？

OV：假设您想将英语的单个句子翻译为其法语模拟。你可以使用大量的政治演讲和辩论作为训练数据。成功的实施可以将政治言论转换为任何数量的语言。你开始遇到麻烦，但是，当你试图将一句话，从莎士比亚语英语翻译成法语。这种域移位应用深度学习方法，而经典机器翻译系统使用规则，使其适应这种转变。

更复杂的事情，我们缺乏计算资源来处理超过一定长度的序列。当前模型可以匹配长度为200的序列与长度为200的相应序列。当这些序列伸长时，较长的运行时间沿着拖尾。虽然我们目前被限制在一个相对较小的文档领域，但我相信我们会看到这个限制不可避免地随着时间的推移而放松。正如GPU已经压缩了大型和复杂模型的周转时间，增加的内存和计算能力将驱动更长的序列。

除了计算瓶颈，更长的序列提出有趣的数学问题。几年前，Hochreiter介绍了一个消失梯度的概念。当你阅读成千上万的话，你可以很容易忘记你读三千字前的信息;没有关键图的记忆在第三章转向，结论失去了它的意义。实际上，挑战是记忆。经常性神经网通常可以记住10到15个词。但是如果你乘一个矩阵15次，输出收缩为零。换句话说，梯度随着任何学习机会消失。

这个问题的一个显着的解决方案依赖于长期短存储器（LSTM）。这种结构提供了一个智能修改循环神经网络，赋予他们记住远远超过正常的限制。我看到LSTMs扩展到300到400字。虽然相当大，这样的增加只是一个漫长的旅程开始的神经网络，可以谈判的日常规模的文本。

回顾一下，我们已经看到在过去几年中出现了几个模型，解决了记忆的概念。我亲自试验了添加这样的内存到神经网络的概念：而不是将一切都淹没在一个经常网的隐藏状态，记忆让你回忆以前看到的词，以优化手头的任务的目标。尽管近年来取得了令人难以置信的进步，但代表知识意味着更深层次的根本挑战本身仍然是一个悬而未决的问题。然而，我相信我们将在未来几年在这些方面取得巨大进步。

DB：让我们转向你的工作生产算法。你能分享一些关于这些努力的历史和他们的动机的背景吗？

OV：演示监督学习的力量的经典练习包括将一组给定的点分成不同的类：这是A类;这是类B等.XOR（“异或”逻辑连接）问题是特别有启发性的。目标是“学习”XOR运算，即，给定两个输入比特，了解输出应该是什么。准确地说，这涉及两个位，并且因此涉及四个示例：00,01,10和11.给定这些示例，输出应该是：0,1,1和0.该问题不是可分离的，模型可以解决，但深层学习匹配任务。尽管如此，目前，对计算能力的限制排除了更复杂的问题。

最近，Wojciech Zaremba（我们组的实习生）发表了一篇题为“学习执行”的文章，其中描述了从python到使用循环神经网络执行这些的结果的映射。因此，该模型可以预测仅通过读取实际在python中编写的程序的输出。这个问题，虽然简单地提出了，提供了一个好的起点。所以，我指示我们的注意一个NP-hard问题。

1/2 1 2 下一页尾页

除特别注明外，本站所有文章均为赢咖4注册原创，转载请注明出处来自序列到机器学习