视觉理解新突破——关系推理模型

想要开发具有人类认知水平的人工智能系统,就必须让它们能够从非结构化的数据中推理出实体,并认识其中的关系。人工智能领域的大佬DeepMind一直在探索深度神经网络对非结构化数据执行复杂关系推理的能力,并在最近发表了两篇论文。

    视觉理解新突破——关系推理模型

    课程背景:

    我们人类的大脑可以轻易的总结出观察到的物体之间的关系。


    比如在我们观察都市运行的道路时,我们能快速的觉察到路中央一辆辆车位于前面的车后面,路边有人匆忙的穿行在人群中。一个足球飞向墙壁,我们能预知它定然会从墙壁上反弹回来,我们甚至能预测足球在一段时间内的弹跳路径。


    从某种意义上来说,我们会在潜意识中将世界理解为事物之间的关系,同时我们会对事物之间的关系进行推理。就我们的视觉感官而言,我们的视觉系统每天会接收到大量的图像信息,而我们的大脑会从巨量的图像信息中分析出事物之间的关系,以供我们认知所处的环境。


    所以想要开发具有人类认知水平的人工智能系统,就必须让它们能够从非结构化的数据中推理出实体,并认识其中的关系。


    对此,人工智能领域的大佬DeepMind一直在探索深度神经网络对非结构化数据执行复杂关系推理的能力,并在最近发表了两篇论文《A simple neural network module for relational reasoning》和《Visual Interaction Networks》。


    在第一篇论文中,DeepMind 描述了 Relation Network(RN),它可以根据图像中的物体信息进行推理。

    1.jpeg

    比如它可以推理出在上图中有一个小的橡胶物体和大个的圆筒形有相同的颜色,那么它是圆形状的。在特定的数据集下,它进行关系推理的准确率竟然能超过人类。


    在第二篇论文中,研究者们描述了一种叫做视觉交互网络(VIN)的通用模型,它可以纯粹基于视觉观察结果来预测物理对象的未来状态。正如人可以粗略预测足球从墙上反弹的路径,视觉交互网络也可以预测,并且能够在短时间内预测的更加准确。


    说到这里,相信你已经对这两种最新的深度神经网络模型充满好奇。当然你可以自己去阅读晦涩难懂的论文,或者换种方式,来听听来自北京师范大学的年轻美女博士对这两种技术的原理解读吧!


    在视频中,来自北师大的女博士楼晓丹老师将会带领大家详细了解两种模型的工作原理,并对比展示模型能够达到的效果。如果您对这两种神奇的模型感兴趣,那么不要犹豫,快快观看本课程吧!


    相关课程:

    image.png

    PATHNET: 大规模迁移学习技术

    通用人工智能(articial general intelligence/AGI)至今看起来仍然是一个遥不可及的技术圣杯。迁移学习则是实现它的重要一环,它可以把在A任务上学习到的本领迁移到B领域中去。但是,如何进行大规模迁移学习仍然是未解决的问题。近日,一直研究成果不断的 DeepMind 又在 arXiv 上发布了一篇也许向这个方向迈进了一步的新论文,该论文提出了一种 PathNet,宣称能够实现某种巨型神经网络(giant neural network),并结合遗传算法技术实现大规模的迁移学习。


讲师介绍
楼晓丹

2013年毕业于西北农林科技大学,获学士学位。现北京师范大学系统科学学院博士生在读。研究兴趣:集中在社会计算科学,包括集体注意力等人类行为分析以及信息传播过程。目前研究基于图信号处理的网络预测问题。