原标题:AlphaGo后裔AlphaZero创造奇迹,不到24小时训练击败国际象棋、围棋和日本将棋顶尖程序
昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 AlphaGo Zero。
对于 DeepMind 来说,其最终目的远非在棋盘游戏中击败人类。他们盼望可以打造出一种通用AI,解决更多的人类问题。虽然距离这一圣杯还很遥远,但是这周展示的最新研究成果显示,他们正走在正确的道路上。
在其发表的论文中,最初攻克围棋的 AI 程序的后代自学了许多其他游戏,均达到超人水平。经过八个小时地自我练习,击败最初战胜人类围棋冠军的 AI 程序,再经过四个小时的训练后,又击败了当前世界国际象棋冠军程序 Stockfish。更令人惊讶的是,仅经过两个小时的训练后,就战胜了世界最顶尖的日本将棋程序之一 Elmo。
AlphaZero 代表着 AI 技术一个最重要的进步,那就是它不是专门为玩这些游戏而设定的。也就是说,没有一点人类关于这些游戏的经验被输入进 AlphaZero。在每个案例中,人类只给定 AlphaZero 基本规则,不编程其他策略或战术。在一次次自我对弈中,程序玩得更好,步伐不断加快,这种训练方式也是所谓的强化学习。
强化学习技术的应用并不鲜见,今年 10 月亮相的 AlphaGo Zero 就是这一技术的成果。但是,正如本周发布的这篇论文所说,新版 AlphaZero 是 AlphaGo Zero「更加通用」的版本,这在某种程度上预示着 AlphaZero 能够被应用在更广阔的范围中,且无需事先过多准备。
最赞的地方是,在不到 24 小时里,同一个计算机程序就能自学如何玩这三种棋盘游戏,并超越人类水平。这可谓是 AI 世界的新壮举。
DeepMind 一直梦想着能够建造通用的人工智能,上述任务的成功完成使得 DeepMind 向这一愿景又靠近了一些,但前方仍旧充满挑战。今年早一点的时候,在 DeepMind CEO Demis Hassabis 展示 AlphaGo Zero 时,他提到,在未来将有一个能够解决更大范围内的科学问题的新版本出现,这一新版本能够肩负起从药物研发到新材料合成等一系列科研问题。这样一些问题和游戏不同,为了找出精确解决它们的方法,仍有大量工作摆在 DeepMind 面前。但我们现在能确定的是,人工智能正在前进,AlphaGo 也不单单是玩棋类游戏的 AI 了。返回搜狐,查看更加多