
-
课程介绍
课程背景
人工智能的终极状态应该是这样的:我们再也不需要对它编程序,它就可以通过自己的尝试从与环境、与我们的互动中学会任何算法,从而自己给自己编程!没错,是任何的算法!甚至它应该能够把自己的程序也给学习出来,这就是通用人工智能!2015年Google的DeepMind团队发表在《Nature》上的工作:训练深度强化学习神经网络DQN打游戏,令人印象深刻。然而,这仅仅是部分实现了通用人工智能的强化学习系统的一次实践,它的背后则是更加强大的通用人工智能理论(AIXI)。
所谓的AIXI是一套由德国计算机科学家,现就任于澳大利亚国立大学的Marcus Hutter在2000年提出来的一套通用人工智能(Artificial General Intelligence)数学框架,它结合了Solomonoff的通用归纳理论以及序惯决策理论,从数学的角度定义了一个尽可能合理决策的前提下最大化一生的预期回报的强化学习智能主体。在此工作中,Marcus Hutter曾与LSTM的缔造者Jurgen Schmidhuber和DeepMind的联合创始人Shane Legg密切合作。
而本课程主要介绍的Marcus Hutter的通用人工智能理论。这是一套数学框架,描述了一个智能主体(Agent)和环境的基本互动;主体具备自己的效用函数,它的目的就是让一生的累积效用函数最大化。于此同时,Agent的学习体验在以通用先验理论为基础的理论表达之中。
课程要求
学习该课程之前,你需要掌握如下基础数学知识:
概率论,特别是概率论的贝叶斯学派(也称主观概率论)
图灵机基本理论
决策论
强化学习
课程目的
学习该课程之前,你需要掌握如下基础数学知识:
了解AIXI基本架构
了解AIXI的一些问题和变种
课程内容
本课程详细介绍了AIXI的架构设计,具体内容涵盖:
AIXI的基本要素
强化学习主体的基本框架
价值函数
信用更新
AIXI定义
基本定义
极限价值定理
确定与随机
智能与游戏(博弈)
AIXI的性质极其各种变体
教义先验(Dogmatic Prior)
通用图灵机依赖
愚蠢的AIXI
AIXI的最优性
内在效用
追求知识的Agent