AlphaGo后裔AlphaZero创造奇迹不到24小时训练击败国际象棋、围棋和日本将棋顶尖程序_数控雕刻机

原标题：AlphaGo后裔AlphaZero创造奇迹，不到24小时训练击败国际象棋、围棋和日本将棋顶尖程序

昨天，AlphaGo 研究团队提出了 AlphaZero：一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称，新的算法经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。

对于 DeepMind 来说，其最终目的远非在棋盘游戏中击败人类。他们盼望可以打造出一种通用AI，解决更多的人类问题。虽然距离这一圣杯还很遥远，但是这周展示的最新研究成果显示，他们正走在正确的道路上。

在其发表的论文中，最初攻克围棋的 AI 程序的后代自学了许多其他游戏，均达到超人水平。经过八个小时地自我练习，击败最初战胜人类围棋冠军的 AI 程序，再经过四个小时的训练后，又击败了当前世界国际象棋冠军程序 Stockfish。更令人惊讶的是，仅经过两个小时的训练后，就战胜了世界最顶尖的日本将棋程序之一 Elmo。

AlphaZero 代表着 AI 技术一个最重要的进步，那就是它不是专门为玩这些游戏而设定的。也就是说，没有一点人类关于这些游戏的经验被输入进 AlphaZero。在每个案例中，人类只给定 AlphaZero 基本规则，不编程其他策略或战术。在一次次自我对弈中，程序玩得更好，步伐不断加快，这种训练方式也是所谓的强化学习。

强化学习技术的应用并不鲜见，今年 10 月亮相的 AlphaGo Zero 就是这一技术的成果。但是，正如本周发布的这篇论文所说，新版 AlphaZero 是 AlphaGo Zero「更加通用」的版本，这在某种程度上预示着 AlphaZero 能够被应用在更广阔的范围中，且无需事先过多准备。

最赞的地方是，在不到 24 小时里，同一个计算机程序就能自学如何玩这三种棋盘游戏，并超越人类水平。这可谓是 AI 世界的新壮举。

DeepMind 一直梦想着能够建造通用的人工智能，上述任务的成功完成使得 DeepMind 向这一愿景又靠近了一些，但前方仍旧充满挑战。今年早一点的时候，在 DeepMind CEO Demis Hassabis 展示 AlphaGo Zero 时，他提到，在未来将有一个能够解决更大范围内的科学问题的新版本出现，这一新版本能够肩负起从药物研发到新材料合成等一系列科研问题。这样一些问题和游戏不同，为了找出精确解决它们的方法，仍有大量工作摆在 DeepMind 面前。但我们现在能确定的是，人工智能正在前进，AlphaGo 也不单单是玩棋类游戏的 AI 了。返回搜狐，查看更加多

上一篇:烘焙食物股票名单一览哪些烘焙食物概念股票利好？

下一篇:运用Ryzen AI软件渠道推进AI开发

AlphaGo后裔AlphaZero创造奇迹不到24小时训练击败国际象棋、围棋和日本将棋顶尖程序

相关产品