通用人工智能的数学框架:AIXI

本课程介绍了Marcus Hutter的AIXI理论框架,本课程是李熙博士讲解通用人工智能的第二部分。(课时:70 分钟)

通用人工智能 AIXI 强化学习

讲师:   李熙

课程背景

人工智能的终极状态应该是这样的:我们再也不需要对它编程序,它就可以通过自己的尝试从与环境、与我们的互动中学会任何算法,从而自己给自己编程!没错,是任何的算法!甚至它应该能够把自己的程序也给学习出来,这就是通用人工智能!2015年Google的DeepMind团队发表在《Nature》上的工作:训练深度强化学习神经网络DQN打游戏,令人印象深刻。然而,这仅仅是部分实现了通用人工智能的强化学习系统的一次实践,它的背后则是更加强大的通用人工智能理论(AIXI)。


所谓的AIXI是一套由德国计算机科学家,现就任于澳大利亚国立大学的Marcus Hutter在2000年提出来的一套通用人工智能(Artificial General Intelligence)数学框架,它结合了Solomonoff的通用归纳理论以及序惯决策理论,从数学的角度定义了一个尽可能合理决策的前提下最大化一生的预期回报的强化学习智能主体。在此工作中,Marcus Hutter曾与LSTM的缔造者Jurgen Schmidhuber和DeepMind的联合创始人Shane Legg密切合作。


而本课程主要介绍的Marcus Hutter的通用人工智能理论。这是一套数学框架,描述了一个智能主体(Agent)和环境的基本互动;主体具备自己的效用函数,它的目的就是让一生的累积效用函数最大化。于此同时,Agent的学习体验在以通用先验理论为基础的理论表达之中。


课程要求

学习该课程之前,你需要掌握如下基础数学知识:

  • 概率论,特别是概率论的贝叶斯学派(也称主观概率论)

  • 图灵机基本理论

  • 决策论

  • 强化学习


课程目的

学习该课程之前,你需要掌握如下基础数学知识:

  • 了解AIXI基本架构

  • 了解AIXI的一些问题和变种


课程内容

本课程详细介绍了AIXI的架构设计,具体内容涵盖:

  • AIXI的基本要素

    • 强化学习主体的基本框架

    • 价值函数

    • 信用更新

  • AIXI定义

    • 基本定义

    • 极限价值定理

    • 确定与随机

    • 智能与游戏(博弈)

  • AIXI的性质极其各种变体

    • 教义先验(Dogmatic Prior)

    • 通用图灵机依赖

    • 愚蠢的AIXI

    • AIXI的最优性

    • 内在效用

    • 追求知识的Agent