视觉理解新突破:关系推理模型

本系列课主要讨论基于深度学习的计算机推理技术,内容包括围绕DeepMind发表的两篇有关对非结构化数据进行复杂关系推理的两篇论文的解读与讨论。(课时:32分钟)

机器视觉 物体识别 关系推理 DeepMind CNN 图像理解

    课程资料

    • 课程讲稿:(报名后可见)

    • 相关论文

      • (报名后可见)

    课程背景

    我们人类的大脑可以轻易的总结出观察到的物体之间的关系。

    比如在我们观察都市运行的道路时,我们能快速的觉察到路中央一辆辆车位于前面的车后面,路边有人匆忙的穿行在人群中。一个足球飞向墙壁,我们能预知它定然会从墙壁上反弹回来,我们甚至能预测足球在一段时间内的弹跳路径。

    从某种意义上来说,我们会在潜意识中将世界理解为事物之间的关系,同时我们会对事物之间的关系进行推理。就我们的视觉感官而言,我们的视觉系统每天会接收到大量的图像信息,而我们的大脑会从巨量的图像信息中分析出事物之间的关系,以供我们认知所处的环境。

    所以想要开发具有人类认知水平的人工智能系统,就必须让它们能够从非结构化的数据中推理出实体,并认识其中的关系。

    对此,人工智能领域的大佬DeepMind一直在探索深度神经网络对非结构化数据执行复杂关系推理的能力,并在最近发表了两篇论文《A simple neural network module for relational reasoning》和《Visual Interaction Networks》。

    在第一篇论文中,DeepMind 描述了 Relation Network(RN),它可以根据图像中的物体信息进行推理。

    1.jpeg

    比如它可以推理出在上图中有一个小的橡胶物体和大个的圆筒形有相同的颜色,那么它是圆形状的。在特定的数据集下,它进行关系推理的准确率竟然能超过人类。

    在第二篇论文中,研究者们描述了一种叫做视觉交互网络(VIN)的通用模型,它可以纯粹基于视觉观察结果来预测物理对象的未来状态。正如人可以粗略预测足球从墙上反弹的路径,视觉交互网络也可以预测,并且能够在短时间内预测的更加准确。

    课程目的

    学完本课程,你能做到

    • 基本了解神经网络的发展历史,知晓深度神经网络的由来

    • 了解常用的神经网络模型:卷积神经网络

    • 熟悉反向传播算法、梯度下降算法等深度学习的基本概念

    • 了解正则化方法

    课程详情

    在本讲解中,我们基于两篇论文为您对关系推理模型做出详细解析:

    • A simple neural network module for relational reasoning

      • Visual QA 构架

      • 三种关系推理数据集

      • CNN+LSTM+RN 模型在 CLEVR 数据集上的运行效果

    • Visual Interaction Networks

      • 框架解析

      • 优异成绩:预测类三体运动