通用自学习围棋程序:AlphaGo 元解析

本课程详细解读了AlphaGo Zero的运作原理。它通过自我对弈,仅用40天就超越了所有旧版本,并指出人类3000年的围棋文化只不过是局部最优……(课时:57 分钟)

强化学习 深度学习 AlphaGoZero 残差网络 AlphaGo

讲师:   高飞


课程背景

AlphaGo Zero是DeepMind围棋软件AlphaGo的最新版。2017年10月19日,AlphaGo团队在《自然》上发表文章介绍了AlphaGo Zero,文中指出此版本不依靠人类玩家的数据创建,且比之前的所有版本都要强大。通过自我对弈,AlphaGo Zero在三天内以100比0的战绩战胜了AlphaGo Lee,花了21天达到AlphaGo Master的水平,用40天超越了所有旧版本。DeepMind联合创始人兼CEO杰米斯·哈萨比斯说,AlphaGo Zero“不再受限于人类认知”,非常强大。由于专家数据“经常很贵、不可靠或是无法取得”,不借助人类专家的数据集训练人工智能,对于人工智能开发超人技能具有重大意义,因为这样的AI不是学习人,是通过对自我的反思和独有的创造力直接超越人类。

那么AlphaGo Zero是如何进行自我对弈的?它又是如何决策每一步棋的布局,又是怎样在每盘棋局的对弈中学习到最优的路径,甚至碾压人类3000年的围棋经验的?本节课程将从模型原理出发,为您分析AlphaGo Zero的奇妙之处。

课程目的

学完本课程,你能做到

  • 熟悉AlphaGoZero的技术背景

  • 了解AlphaGoZero的模型定义方法

  • 了解其自我对弈的实现方法

  • 了解AlphaGoZero的训练方法以及能够达到的效果

课程详情

本课程包含的内容有:

  • AlphaGoZero技术背景

  • 模型解析

  • 自我对弈

  • 神经网络训练

  • 模型效果对比