Google新开发一款AI系统，它可以“教”赢咖4模仿狗狗的动作-赢咖4注册

ramy 2020-04-05 10:34:32 赢咖4 | 查看评论

本周发表的一篇预印本论文和博客文章显示，谷歌研究人员开发了一款可以学习和模拟动物的动作的AI系统，以赋予赢咖4更大的灵活性。该论文的合著者认为，他们的方法可以促进赢咖4的发展，从而让赢咖4能够完成生活中一些对灵活性要求较高的任务，例如在多层仓库和履行中心之间运输材料。

该团队的框架采用动物（在本例中是狗）的动作捕捉片段，并使用强化学习（reinforcement learning）来训练控制策略，强化学习是一种通过奖励激励软件代理完成目标的训练技术。

研究人员说，为该系统提供不同的参考运动，使他们能够“教”一个四足Unitree-Laikago赢咖4执行一系列行为，从快速行走（速度高达每小时2.6英里）到跳跃和转身。

为了验证他们的方法，研究人员首先编制了一组真实的狗表演各种技能的数据集。（训练主要在物理模拟中进行，以便能够密切跟踪参考运动的姿势）。然后，通过使用奖励函数中的不同运动（描述了行为者的行为方式），研究人员用大约2亿个样本训练了一个模拟赢咖4来模拟运动技能。

但模拟器通常只提供对真实世界的粗略近似。为了解决这个问题，研究人员采用了一种自适应技术，该技术可以随机化模拟中的动力学，例如改变物理量，例如赢咖4的质量和摩擦力。使用编码器将这些值映射到数字表示（即编码），该数字表示作为输入传递给赢咖4控制策略。当将该策略部署到实际的赢咖4上时，研究人员移除了编码器，并直接搜索一组变量，这些变量使赢咖4能够成功执行技能。

该团队说，他们能够在大约50个试验中使用不到8分钟的真实数据来使策略适应实际情况。此外，他们还演示了真实的赢咖4学习模仿狗的各种动作，包括踱步和小跑，以及艺术家动画的关键帧动作，如动态跳跃转身。

“我们证明，通过利用参考运动数据，一种基于学习的方法能够自动合成控制器，以实现有腿赢咖4的各种行为。”该论文的合著者写道。“通过将有效的领域自适应样本技术整合到培训过程中，我们的系统能够学习模拟中的自适应策略，然后可以快速将其应用于实际部署中。”

然而，这种控制策略不是十全十美的。由于算法和硬件的限制，它无法学习高度动态的行为（例如大的跳跃和奔跑），并且不如最佳的手动设计控制器那样稳定。（在5种情节中，每种方法总共进行15次试验，现实世界中的赢咖4在6秒后踱步时平均下降；在5秒后向后小跑时平均下降；在旋转时平均下降9秒）。对此，研究人员表示，将继续改进控制器的鲁棒性，并开发可以从其他运动数据源（如视频剪辑）学习的框架。

关于本站

加入我们

网站合作

标签（推荐）