深度强化学习算法:价值迭代网络

本课程讲解的是深度强化学习的一种实现方法:价值迭代网络。价值迭代网络将卷积人工神经网络方法与经典的价值迭代算法进行耦合,从而创造出可以规划的智能主体。(课时:28 分钟)

强化学习 深度学习 价值迭代网络 VIN Q-learning DeepMind

讲师:   张江


课程背景

深度强化学是目前人工智能研究中的一个热门、前沿的方向,解决方案也是五花八门。今天讲解的这个价值迭代网络就是其中一种方法,它将卷积人工神经网络方法与经典的价值迭代算法进行耦合,从而创造出可以规划的智能主体。这种方法可以对规划进行泛化,也就是通过一定的学习可以在一些未见过的问题领域进行很好的规划。其做法也是令人称奇,它将环境的状态映射到一个“大脑”中的虚拟环境,然后运用多个层级的卷积神经网络来对评价函数进行反复迭代,也就是完成了多步的“虚拟规划”过程,从而生成可以指导主体在环境中表现的最优策略。为了表彰该论文的巧妙构思,NIPS2016会议将其评为best paper。

课程目的

学完本课程,你能做到

  • 熟悉基本的强化学习框架

  • 了解经典强化学习方法:Q-Learning算法

  • 了解经典的价值迭代算法

  • 熟悉结合了神经网络模型的价值迭代算法:价值迭代网络

  • 了解价值迭代网络(VIN)的优点

课程详情

本课程的主要内容有:

  • 强化学习框架

  • Q-learning算法回顾

  • 经典的价值迭代算法

  • 价值迭代网络

  • VIN的表现

相关课程


image.png

AI打游戏背后的深度强化学习技术