赢咖4在野外学习-赢咖4注册

aihot 2017-05-10 15:43:12 赢咖4 | 查看评论

野外赢咖4

Benjamin Recht是电气工程和计算机科学系的副教授，以及加州大学伯克利分校的统计部门。他的研究集中于可扩展的计算工具，用于大规模数据分析，统计信号处理和机器学习 - 探索凸优化，数学统计和随机算法的交集。

主要内容：

机器学习可以有效地与控制理论相关，一个根源于50年代的领域。

一般来说，机器学习看起来通过训练大量数据来预测平均情况进行预测。另一方面，控制理论看起来建立一个现实的物理模型，并警告最坏的情况（即，这是飞机如何响应湍流）。

将控制原理与强化学习相结合，将能够在最坏情况可能是生命或死亡问题（例如，自驾车）的领域中实现机器学习应用。

David Beyer：你以机器学习中的计算问题而着称，但你最近开始将其与控制理论联系起来。你能谈谈一些这项工作吗？

Benjamin Recht：我和安迪·帕卡德（Andy Packard）和两个控制理论家洛朗·莱达德（Laurent Lessard）一起写了一篇论文。控制理论最常见的与航空或制造有关。所以你可能会想，赢咖4注册仪到底与机器学习有什么关系？我们在机器学习系统方面取得了巨大进步，我们正在努力把自己的原则推向许多不同类型的生产系统。但是我们这样做有限的知识，这些东西在野外将表现如何。

这对于目前非常成功的大多数机器学习算法来说不是一个大问题。如果图片搜索返回一个离群值，它通常是滑稽或可爱。但是当你把机器学习系统放在自驾车上，一个坏的决定可能导致严重的人身伤害。这种风险提高了安全部署学习系统的风险。

DB：你能解释控制系统理论中如何定义如鲁棒性和误差这样的术语吗？

BR：在工程设计问题中，鲁棒性和性能是竞争的目标。鲁棒性意味着具有可重复的行为，无论环境在做什么。另一方面，你希望这种行为尽可能好。总有一些性能目标你希望系统实现。性能更容易理解 - 更快，更可扩展，更高的精度等性能和鲁棒性彼此之间权衡：最强大的系统是不做任何事情的系统，但最高性能的系统通常需要牺牲一定程度安全。

DB：你能分享一些例子和一些工作的理论基础和你最近的论文吗？

BR：与Laurent和Andy的论文指出，我们在机器学习中普遍使用的所有算法看起来像是经典的动态系统，控制理论家自1950年代以来一直在研究。一旦我们建立了联系，我们意识到我们可以利用70年的分析这些系统的经验。现在我们可以检查这些机器学习算法如何在您对它们的执行添加不同种类的噪声和干扰时执行。

对于一个非常流行的算法 - 称为重球法（PDF） - 我们发现，如果使用现成的设置，有时它从不收敛。没有人还没有产生算法收敛的正式证明，但是每个人都认为它在实践中工作。此外，我们能够修改参数以找到它总是收敛的方式。使这个分析工具包如此有用的是，我们不仅可以证明方法是否可以工作，而且我们可以交互式地操作指定的算法，使其更加健壮。

DB：你的意思是我可以采取线性和非线性算法，监督和非监督方法的库，并基本上根据它们是多么鲁棒他们得分？

BR：是的。到目前为止，我们只是在一些非常简单的情况下这样做，但我们希望扩展这项工作。你可以将算法插入到这个框架中，我们将给你一个关于它可以收敛的速度或可以拒绝多少噪声的分析。然后，您可以调整此算法以提高一些关注度量。

DB：例如，可能模拟飞机飞行的控制系统不能通过以我们理解经典机器学习算法的方式研究数百万小时的飞行来得出它们的参数。与机器学习方法相比，控制理论家如何构建他们的模型？

BR：控制是非常有关建立合理的模型，基于了解系统如何响应不同的条件。空气经过机翼，这将产生某种电梯。他们从空气动力学的这些物理模型工作，然后他们建立一个控制系统，以确保你实际飞行在一条直线。现在，当你添加湍流时，事情变得复杂，而不是在这里构建一个更复杂的湍流模型，他们将其建模为“黑箱”干扰。控制理论的目的是建立政策，只要黑箱干扰不是太极端，保持飞机在空中。

在机器学习中，我想决定在我面前是否有人，如果我是一辆自驾车。我可能使用一个1500万张图片的字典，其中一些标记为“人”，其中一些标记为“不是人”。我的模型来源于这个巨大的数据集，而不是从物理原理如何人类表现自己在一个场景。机器学习的指导原则之一是，如果你给我所有的数据在宇宙，那么我可以做任何你需要的预测。这也是其主要的理由之一。

DB：对。湍流是不可预测的，但它是一种可预测的。这是可预测的，如果飞机将如何回应。因此，控制系统在某种程度上更具确定性。

BR：是的。湍流恰恰是健壮性的概念。因此，您可以将模型应用于湍流，或者您可以查找可能在湍流行为下发生的最坏情况结果。后者更容易。这是强大的控制人做的。你把你的不确定性，你试着把它放在一个盒子，你说，“这是不确定性看起来像。

现在，您可以构建没有物理模型的控制系统。看看DeepMind的家伙正在做的视频游戏。他们正在使用从强化学习到超越人类的技术。在强化学习中，而不是构建模型，你只是在控制系统中播放大量代表性的场景，并且在每次交互之后修改控制器以提高性能。这就是机器学会玩Atari游戏的方式。他们只是玩了几千，几千和几千次，并记录在这个Atari游戏中可以做的每一件事，然后从那里建立一个数据驱动的控制策略。我的同事Pieter Abbeel和他的学生们最近使用强化学习和神经网络学习运动并使赢咖4与真实物体进行灵活的交互，取得了一些显着的进步。

DB：控制理论家和机器学习研究者如何认为鲁棒性和误差有区别？

BR：在机器学习中，我们几乎总是将错误建模为随机的而不是最坏的情况。在某种意义上，随机误差实际上比最坏情况误差要好。让我们说，你只是要添加一个数字序列。每个数字是一个或减一，我们将总计20个。当您将所有选择设置为1时，实现最坏情况的和 - 即最大的和。这会得到你20.但如果你翻转一枚硬币来分配那些和减去一个，平均的和将是零！而且，通常，你会得到五个数量级的东西。它将始终较小。获得20的几率是百万分之一。

1/2 1 2 下一页尾页

除特别注明外，本站所有文章均为赢咖4注册原创，转载请注明出处来自赢咖4在野外学习