ramy  2020-12-25 15:07:17  深度学习 |   查看评论   

  继 AlphaFold 大火之后,DeepMind 又一款算法蹿红。www.xuntelift.cn

  12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,并详细介绍了这款名为 MuZero 的 AI 算法。

▲在下棋的 MuZero

  如果说 AlphaGo 是一代 “爷爷”,那么 AlphaGo Zero 就是二代 “爸爸”,AlphaZero 则是三代 “孙儿”,MuZero 就是四代 “重孙”。其中,出生最晚的 “重孙” MuZero 最厉害。

AlphaGo论文

▲“四代同堂”

  伊利诺伊大学香槟分校计算机科学系的助理教授、《麻省理工科技评论》2020 年度全球 “35 岁以下科技创新 35 人” 上榜者李博告诉 DeepTech,四代之间的区别可总结如下:

  •   “爷爷” AlphaGo 提供了人类知识(Human Knowledge)和规则(Rules),因因此可训练出一个大的策略树,来完成搜索、以及帮助做出决策;www.xuntelift.cn

  •   “爸爸” AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;

  •   “孙儿” AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。

  •   “重孙” MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknown Dynamics),来进行不同游戏的博弈。

  不过,MuZero 并非首次露面,它诞生于 2019 年 11 月, 当时 DeepMind 在预印本平台 arXiv 发表了论文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。

  今年 12 月 23 日,Nature 于一年后收录了该论文,这也是 MuZero 此次走红的原因。

AlphaGo论文

▲Nature 收录 MuZero 的论文

  论文的主要思路在于,人类智慧之所以高级,表现之一在于有预测能力,比如看到月朗星稀,即可推断明天大概率是晴天。在重复性计算方面,机器已经非常擅长,但一直缺乏预测能力。此前, DeepMind 曾提出了前向搜索和基于模型的规划算法两种方案。

  就前向搜索方案来说,二代 AlphaZero 已使用过该方案,它在理解游戏规则的前提下,可通过自我模拟和复盘,去制定下棋时的最佳策略。但在游戏规则未知的情况下,前向搜索方案就会 “失灵”。

  就基于模型的规划算法方案来说,它能在学习环境动态后,进行精准建模即环境建模,然后制定出最佳策略。但是,环境建模比较复杂,无法让机器良好把握 Atari 游戏。www.xuntelift.cn

  这意味着,上述两种方案都不是最佳选,因此 MuZero 放弃对环境中所有要素进行建模的方法,而是针对三个最重要的要素进行建模:即价值(The value)、策略(The policy)和奖励(The reward)。

  仅需两到三周,就能完成对一款 Atari 游戏的训练

  谈及建模过程,论文共同作者、DeepMind 算法工程师 Julian Schrittwieser 告诉媒体:“MuZero 前期的训练过程需要大量算力,但在训练结束后,它仅需很少的算力就能做出决策,这甚至能在一部智能手机上完成。而前期的训练过程所需的算力其实也并不是什么天文数字,单块 GPU 仅需两到三周就能完成 MuZero 针对一个 Atari 游戏的训练。

  具体建模时,MuZero 从下面动图的顶部开始,使用表征功能 H将当前状况、映射到神经网络中的嵌入层(S0),然后使用动态函数(G)和预测函数(F),来推测接接下来的动作序列(A)。

AlphaGo论文

▲基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划

  只知道下一步怎么做还不够,还得判断做得好不好,为此 MuZero 可以跟环境互动,进而模拟出对手的下一步走向。

AlphaGo论文

▲MuZero 通过模拟下棋走向训练神经网络

  每一步棋的走法,都会被累加为棋局最后的奖励。如下图,每当策略函数 P 获得一次预测走法,价值函数 V 就会得到一次奖励。

AlphaGo论文

▲预测走法带来奖励

  凭借该策略,在围棋、国际象棋和日本将棋中,MuZero 在多训练步骤的情况下,达到甚至超过了前辈 AlphaZero 的水平。 下图分别为 MuZero 在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果,横坐标代表着训练步骤数量,纵坐标表示 Elo 评分(Elo,一个衡量各类对弈活动水平的评价方法)。

AlphaGo论文

▲在国际象棋、日本将棋、围棋和 Atari 游戏上的评估结果

  其中,蓝色线代指 MuZero 的表现,黄色线代表三代 AlphaZero 的表现,可以看出在围棋和 Atari 游戏中,MuZero 的表现比上一代更佳。

  此外,为验证 MuZero 的精确规划能力,DeepMind 让其尝试学习了围棋高精度规划能力,也就是下完一步棋就能判断胜负。

  如下图右侧,在 Ms Pac-Man 游戏的测试中,训练时间越长、MuZero 就更强大,当下一步棋的判断时间从 0.1 秒增加到 50 秒,Elo 指标就能增加 1000,这相当于从业余棋手跳跃到最强职业棋手的水平。

AlphaGo论文

▲左:步骤判断时间和围棋 Elo 指标之间的关系;右:训练时长和训练效果的关系

  李博认为: “这种利用强化学习进行端到端训练的方法,是 AI 的重点之一,对于强化学习来说,其本质之一是要设计合适的奖励(Reward Function),并且可以考虑到不确定环境条件从而提高算法的泛化能力。”

  而另一位不愿具名的计算机教授表示,DeepMind 攻克的第一个游戏就是 Atari,因为 Atari 是基准线,能测出算法到底是否管用。传统的强化学习,学习的是 Agent (智能体),而 MuZero 对下棋规则(Environment )也做了建模, 与此同时它还能学会规则,这就是它的最大创新。但从机器学习角度来看,无非就是搜索空间变得更大,所以计算量会大大增加,理论上仍旧是强化学习。

  Muzero 有望成为广泛使用的强化学习算法

  对于其进步,重庆大学汽车工程学院副教授王科评价称:“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。”

  对于它的应用前景,另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说:“目前,我们正在尝试将 MuZero 用于优化视频压缩。”

  除优化视频压缩之外,MuZero 的潜在应用还包括赢咖4注册技术和医药生物研究领域里的蛋白质设计,比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

  王科向 DeepTech 重点展望了 MuZero 可能在赢咖4注册领域的应用: “Muzero 作为 DeepMind 最新 AI 算法,具备了一定的类人成长和学习能力。” 他以赢咖4注册汽车举例称,目前的赢咖4注册汽车离实现 L5 级完全无人驾驶还很远,还都需要在 ODD(Operational Design Domain)即运 行设计域中运行,其原因是当前赢咖4注册汽车技术无法应对未知开放环境带来的挑战,相信 MuZero 强大的学习能力和规划能力,能在一定程度上推动包括赢咖4注册汽车在内的很多领域的进步。”

  -End-

  翻译支持:武文浩

  参考:

  http://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules

  http://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

  http://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自Nature收录DeepMind“四代AlphaGo”论文,有望成为广泛使用的强化学习算法-www.xuntelift.cn

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]