谷歌发明了自主学习赢咖4，1.5小时即能学会行走-赢咖4注册

ramy 2020-03-13 17:18:49 赢咖4 | 查看评论

谷歌发明了自主学习赢咖4，1.5小时即能学会行走

赢咖4能自己学会走路了。

3月4日，据国外科技媒体Tech Xplor报道，谷歌（Google）、佐治亚理工学院（Georgia Institute of Technology）和加州大学伯克利分校（UC Berkeley）的研究人员联合发表了一篇论文，详细介绍了他们构建的一个通过AI技术自学走路的赢咖4。

这个四足赢咖4名为Rainbow Dash，它只需花费约数个小时，就能自己学会向前、向后以及左右转弯等运动。

论文中的测试数据显示，Rainbow Dash在坚硬平坦的地面上学会走路只需要1.5个小时，在记忆海绵材质的床垫上约需5.5个小时，在镂空的地毯上约需要4.5个小时。

▲四足赢咖4名为Rainbow Dash

此前，大多数赢咖4的强化学习都是在建模的仿真环境中进行，直到虚拟赢咖4的算法足够完善，可以安全运行，研究人员才会将搭载该算法的赢咖4放置在现实环境中实验。赢咖4在行走时，通常需要人为干预，如跌倒时，需要有人扶起来。

这种方法可以避免赢咖4在反复实验的过程中，对周围环境造成损害。但建模一般耗时长、费用高，且现实环境复杂多变。

将赢咖4直接放在现实环境中进行训练，能够让它们很好地适应自己所处的环境以及相似环境，但这需要技术的帮助。

Rainbow Dash结合了深度学习和强化学习两种不同类型的AI技术，具备直接放置于真实环境中进行训练的条件。

该赢咖4没有任何专门的教学机制，例如，人工指导或输入有标签的培训数据等。它完全依靠深度学习和强化学习技术。

深度学习技术可以使赢咖4系统处理和评估其身处的环境，从而获得原始数据，并组织已有的知识结构使之不断改善自身的性能。

强化学习技术则可以使赢咖4的算法反复试验、学习如何执行任务，并根据完成的程度来获得奖励。也就是说，当赢咖4擅长执行某个步骤时，其奖励会增加，从而创建一种反馈机制，促使赢咖4学习最佳方法。

不过，Rainbow Dash并没有完全失去人类的干预。当它不小心离开了原本要学习的空间，研究人员会对其进行干预。例如，研究人员创建了边界，赢咖4可以在该边界内学习走路，以防止它离开该区域。

同时，研究人员还设计了特定的算法来防止赢咖4摔倒。

▲四足赢咖4Rainbow Dash在学习走路

据《商业内幕》（Business Insider）报道，谷歌研究负责人谭杰（Jan Tan）表示，这项研究花费了约一年时间才完成。

谭杰称，该研究仍处于早期阶段。下一步，研究人员计划在各种各样的赢咖4上，以及更多样化的环境中测试这一学习系统。

据Tech Xplor报道，斯坦福大学助理教授切尔西·芬恩（Chelsea Finn）表示，将人类干预从机器学习的过程中撤离，是件很困难的事情。赢咖4能够自主学习，将使其能够更好地适应现实生活世界，而不是在实验室里。

用AI算法让赢咖4具备自主学习能力，是当前许多科研人员的研究方向。

据南加州大学维特比工程学院（USC Viterbi School of Engineering）网站消息，3月11日，该校的研究人员发明了第一个模拟动物类肌腱驱动的赢咖4四肢。

该赢咖4通过算法，能构建属于自己的肢体和环境内部思维导图，并像动物一样通过三肌腱、双关节肢体等来学会如何走路，且不需要明确的编程。

南加州大学的生物医学工程师弗朗西斯科·瓦莱罗·库瓦斯（Francisco ValeroCuevas）表示，这项技术或许能为残疾人提供反应速度更快的假肢，也可能让赢咖4安全地进行太空任务，以及尝试进行一些搜索和救援任务等。