Nature收录DeepMind“四代AlphaGo”论文，有望成为广泛使用的强化学习算法-www.xuntelift.cn-赢咖4注册

ramy 2020-12-25 15:07:17 深度学习 | 查看评论

　　继 AlphaFold 大火之后，DeepMind 又一款算法蹿红。www.xuntelift.cn

　　12 月 23 日，DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules，并详细介绍了这款名为 MuZero 的 AI 算法。

▲在下棋的 MuZero

　　如果说 AlphaGo 是一代 “爷爷”，那么 AlphaGo Zero 就是二代 “爸爸”，AlphaZero 则是三代 “孙儿”，MuZero 就是四代 “重孙”。其中，出生最晚的 “重孙” MuZero 最厉害。

▲“四代同堂”

　　伊利诺伊大学香槟分校计算机科学系的助理教授、《麻省理工科技评论》2020 年度全球 “35 岁以下科技创新 35 人” 上榜者李博告诉 DeepTech，四代之间的区别可总结如下：

　　“爷爷” AlphaGo 提供了人类知识（Human Knowledge）和规则（Rules），因因此可训练出一个大的策略树，来完成搜索、以及帮助做出决策；www.xuntelift.cn
　　“爸爸” AlphaGo Zero 去掉了人类知识部分，而是只给 AI 提供规则，然后通过自我博弈，就能学习出自己的策略；
　　“孙儿” AlphaZero 则可通过完全信息，利用泛化能力更强的强化学习算法来做训练，并学会不同的游戏，如围棋、国际象棋和日本将棋。
　　“重孙” MuZero 则是前级阶段的升级版，即在没有人类知识以及规则的情况下，，它能通过分析环境和未知条件（Unknown Dynamics），来进行不同游戏的博弈。

　　不过，MuZero 并非首次露面，它诞生于 2019 年 11 月，当时 DeepMind 在预印本平台 arXiv 发表了论文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。

　　今年 12 月 23 日，Nature 于一年后收录了该论文，这也是 MuZero 此次走红的原因。

▲Nature 收录 MuZero 的论文

　　论文的主要思路在于，人类智慧之所以高级，表现之一在于有预测能力，比如看到月朗星稀，即可推断明天大概率是晴天。在重复性计算方面，机器已经非常擅长，但一直缺乏预测能力。此前， DeepMind 曾提出了前向搜索和基于模型的规划算法两种方案。

　　就前向搜索方案来说，二代 AlphaZero 已使用过该方案，它在理解游戏规则的前提下，可通过自我模拟和复盘，去制定下棋时的最佳策略。但在游戏规则未知的情况下，前向搜索方案就会 “失灵”。

　　就基于模型的规划算法方案来说，它能在学习环境动态后，进行精准建模即环境建模，然后制定出最佳策略。但是，环境建模比较复杂，无法让机器良好把握 Atari 游戏。www.xuntelift.cn

　　这意味着，上述两种方案都不是最佳选，因此 MuZero 放弃对环境中所有要素进行建模的方法，而是针对三个最重要的要素进行建模：即价值（The value）、策略（The policy）和奖励（The reward）。

　　仅需两到三周，就能完成对一款 Atari 游戏的训练

　　谈及建模过程，论文共同作者、DeepMind 算法工程师 Julian Schrittwieser 告诉媒体：“MuZero 前期的训练过程需要大量算力，但在训练结束后，它仅需很少的算力就能做出决策，这甚至能在一部智能手机上完成。而前期的训练过程所需的算力其实也并不是什么天文数字，单块 GPU 仅需两到三周就能完成 MuZero 针对一个 Atari 游戏的训练。

　　具体建模时，MuZero 从下面动图的顶部开始，使用表征功能 H将当前状况、映射到神经网络中的嵌入层（S0），然后使用动态函数（G）和预测函数（F），来推测接接下来的动作序列（A）。

AlphaGo论文

▲基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划

　　只知道下一步怎么做还不够，还得判断做得好不好，为此 MuZero 可以跟环境互动，进而模拟出对手的下一步走向。

AlphaGo论文

▲MuZero 通过模拟下棋走向训练神经网络

　　每一步棋的走法，都会被累加为棋局最后的奖励。如下图，每当策略函数 P 获得一次预测走法，价值函数 V 就会得到一次奖励。

AlphaGo论文

▲预测走法带来奖励

　　凭借该策略，在围棋、国际象棋和日本将棋中，MuZero 在多训练步骤的情况下，达到甚至超过了前辈 AlphaZero 的水平。下图分别为 MuZero 在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果，横坐标代表着训练步骤数量，纵坐标表示 Elo 评分（Elo，一个衡量各类对弈活动水平的评价方法）。

AlphaGo论文

▲在国际象棋、日本将棋、围棋和 Atari 游戏上的评估结果

　　其中，蓝色线代指 MuZero 的表现，黄色线代表三代 AlphaZero 的表现，可以看出在围棋和 Atari 游戏中，MuZero 的表现比上一代更佳。

　　此外，为验证 MuZero 的精确规划能力，DeepMind 让其尝试学习了围棋高精度规划能力，也就是下完一步棋就能判断胜负。

　　如下图右侧，在 Ms Pac-Man 游戏的测试中，训练时间越长、MuZero 就更强大，当下一步棋的判断时间从 0.1 秒增加到 50 秒，Elo 指标就能增加 1000，这相当于从业余棋手跳跃到最强职业棋手的水平。

▲左：步骤判断时间和围棋 Elo 指标之间的关系；右：训练时长和训练效果的关系

　　李博认为： “这种利用强化学习进行端到端训练的方法，是 AI 的重点之一，对于强化学习来说，其本质之一是要设计合适的奖励（Reward Function），并且可以考虑到不确定环境条件从而提高算法的泛化能力。”

　　而另一位不愿具名的计算机教授表示，DeepMind 攻克的第一个游戏就是 Atari，因为 Atari 是基准线，能测出算法到底是否管用。传统的强化学习，学习的是 Agent (智能体)，而 MuZero 对下棋规则（Environment ）也做了建模，与此同时它还能学会规则，这就是它的最大创新。但从机器学习角度来看，无非就是搜索空间变得更大，所以计算量会大大增加，理论上仍旧是强化学习。

　　Muzero 有望成为广泛使用的强化学习算法

　　对于其进步，重庆大学汽车工程学院副教授王科评价称：“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化，那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是，Muzero 有潜力成为广泛使用的强化学习算法。”

　　对于它的应用前景，另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说：“目前，我们正在尝试将 MuZero 用于优化视频压缩。”

　　除优化视频压缩之外，MuZero 的潜在应用还包括赢咖4注册技术和医药生物研究领域里的蛋白质设计，比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

　　王科向 DeepTech 重点展望了 MuZero 可能在赢咖4注册领域的应用： “Muzero 作为 DeepMind 最新 AI 算法，具备了一定的类人成长和学习能力。” 他以赢咖4注册汽车举例称，目前的赢咖4注册汽车离实现 L5 级完全无人驾驶还很远，还都需要在 ODD（Operational Design Domain）即运行设计域中运行，其原因是当前赢咖4注册汽车技术无法应对未知开放环境带来的挑战，相信 MuZero 强大的学习能力和规划能力，能在一定程度上推动包括赢咖4注册汽车在内的很多领域的进步。”

　　-End-

　　翻译支持：武文浩

　　参考：

　　http://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules

　　http://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

　　http://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

关于本站

加入我们

网站合作

标签（推荐）