通用自学习围棋程序:AlphaGo 元解析

本课程详细解读了AlphaGo Zero的运作原理。它通过自我对弈,仅用40天就超越了所有旧版本,并指出人类3000年的围棋文化只不过是局部最优……(课时:57分钟)


    课程背景

    AlphaGo Zero是DeepMind围棋软件AlphaGo的最新版。2017年10月19日,AlphaGo团队在《自然》上发表文章介绍了AlphaGo Zero,文中指出此版本不依靠人类玩家的数据创建,且比之前的所有版本都要强大。通过自我对弈,AlphaGo Zero在三天内以100比0的战绩战胜了AlphaGo Lee,花了21天达到AlphaGo Master的水平,用40天超越了所有旧版本。DeepMind联合创始人兼CEO杰米斯·哈萨比斯说,AlphaGo Zero“不再受限于人类认知”,非常强大。由于专家数据“经常很贵、不可靠或是无法取得”,不借助人类专家的数据集训练人工智能,对于人工智能开发超人技能具有重大意义,因为这样的AI不是学习人,是通过对自我的反思和独有的创造力直接超越人类。

    那么AlphaGo Zero是如何进行自我对弈的?它又是如何决策每一步棋的布局,又是怎样在每盘棋局的对弈中学习到最优的路径,甚至碾压人类3000年的围棋经验的?本节课程将从模型原理出发,为您分析AlphaGo Zero的奇妙之处。

    课程目的

    学完本课程,你能做到

    • 熟悉AlphaGoZero的技术背景

    • 了解AlphaGoZero的模型定义方法

    • 了解其自我对弈的实现方法

    • 了解AlphaGoZero的训练方法以及能够达到的效果

    课程详情

    本课程包含的内容有:

    • AlphaGoZero技术背景

    • 模型解析

    • 自我对弈

    • 神经网络训练

    • 模型效果对比

    课程大纲

讲师介绍