深度强化学习算法:价值迭代网络

​深度强化学是目前人工智能研究中的一个热门、前沿的方向,解决方案也是五花八门。今天讲解的这个价值迭代网络就是其中一种方法,它将卷积人工神经网络方法与经典的价值迭代算法进行耦合,从而创造出可以规划的智能主体。

讲师:   张江

价值迭代网络

课程背景:

深度强化学是目前人工智能研究中的一个热门、前沿的方向,解决方案也是五花八门。今天讲解的这个价值迭代网络就是其中一种方法,它将卷积人工神经网络方法与经典的价值迭代算法进行耦合,从而创造出可以规划的智能主体。这种方法可以对规划进行泛化,也就是通过一定的学习可以在一些未见过的问题领域进行很好的规划。其做法也是令人称奇,它将环境的状态映射到一个“大脑”中的虚拟环境,然后运用多个层级的卷积神经网络来对评价函数进行反复迭代,也就是完成了多步的“虚拟规划”过程,从而生成可以指导主体在环境中表现的最优策略。为了表彰该论文的巧妙构思,NIPS2016会议将其评为best paper。

课程资料:

课程讲稿:购买课程后可见

参考文献:value iteration networks.pdf

课程大纲:

本课程详细讲解价值迭代网络的构思与结果,具体内容包括:

1.强化学习框架

2.Q-learning算法回顾

3.经典的价值迭代算法

4.价值迭代网络

5.VIN的表现

相关课程:

image.png

AI打游戏背后的深度强化学习技术



讲师介绍
张江

北京师范大学系统科学学院教授,博士生导师,集智俱乐部、集智AI学园创始人,集智科学家,阿里研究院、腾讯研究院、网络智库专家,人工智能研究者与布道者。主要讲授课程:人工智能、复杂性思维、计算机建模与模拟、Matlab基础及其应用。主要从事的研究领域包括:复杂系统建模、计算社会科学等。曾发表学术论文数十篇,访问过圣塔菲研究所、密西根复杂系统中心等知名国外大学。曾带领集智俱乐部写作、出版书籍:《科学的极致——漫谈人工智能》,《走近2050——注意力、互联网与人工智能》。