知识表征学习专题

知识图谱(Knowledge graph)技术是近年来兴起的,它可以被广泛地应用在知识表达、自动推理、对话生成、自动问答等人工智能系统中。本课程首先概要性地介绍了什么是知识图谱,以及它的应用范围;紧接着,我们介绍了多种计算知识图谱向量的算法。

    知识图谱与知识表征学习系列

    课程背景:

    知识图谱(Knowledge graph)技术是近年来兴起的热门人工智能技术,它可以被广泛地应用在知识表达、自动推理、对话生成、自动问答等人工智能系统中。表示学习(也称为表征学习,Representation learning)是将考虑的实体或关系计算出相应的向量化表示的方法,它是深度学习的最核心技术。

    什么是知识图谱?

    所谓的知识图谱其实就是一个由大量的三元组<head, relation, tail>所构成的集合,其中head和tail都是所谓的实体(Entity),它们分别对应主语和宾语,而relation是所谓的关系,它通常表达了某种动作或关系。用这种三员组可以表达很多种关系,比如“奥巴马曾经在哥伦比亚上学”,我们就可以表达为三元组<奥巴马, 学校, 哥伦比亚大学>。

    从另一个角度说,这种三元组的集合可以构成一个多关系网络,其中实体是节点,关系是连边。由于连边可能有多种类型,比如学习,比如住所,比如父子,等等,那么对应的连边也就有多种类型,如下图所示:

    blob.png

    知识图谱有什么用?

    用这样的多关系网络我们能做什么?我们可以做自动推理,比如现在的搜索引擎实际上都可以和用户完成自然语言问答。例如我们输入"who is the son of Albert Einstein"的时候,系统并不是简单地对这些出现的关键词做匹配,而是利用知识图谱,自动推理出爱因斯坦的儿子是Hans Einstein。2013年,印度裔Google工程师Amit Sinhal将知识图谱引入到了Google搜索引擎之中。

    另外,知识图谱在金融领域存在着广泛的用途,包括 •数据自动校准 •防欺诈 •法金授信 •二级市场分析 •投资研究等等。知识图谱还可以用于问答系统中。比如著名的IBM超级计算系统Watson就利用了YAGO、DBpedia以及Freebase这些大型的知识图谱系统来完成自动推理,并最终在Jeopardy游戏之中战胜人类选手的。

    怎么构建知识图谱?

    如下图所示,目前主要存在四种构建知识图谱的方式,它们被分为了手动方式和自动方式两大类。目前,人们利用最多的当然是自动构建方式,其中自动半结构化的构建方式就是利用一些人工指定的规则或者正则表达式来进行模版匹配,从而从自然语言文本中提炼出实体关系三元组,例如Wikipedia infoboxes、YAGO、DBpedia的构建就属于这种;而自动非结构化的方式则利用机器学习和自然语言处理等技术从大量文本中自动地提炼知识。例如Google的Knowledge Vault(知识金库)就是通过扫描大量的网页从而提炼出知识,构建知识图谱。

    1490306913701833.png

    但是,当我们在知识图谱中做推理的时候通常会遇到一些问题,这就是知识图谱是符号化的、离散的点,而我们的应用通常需要连续性地推理,从而实现一定的鲁棒性。其次,传统的知识图谱推理很难进行长链、全局化的推理,因为需要存在着组合爆炸的问题。

    解决这个问题的方法就是利用表示学习技术。

    表示学习技术

    表示学习又称表征学习(Representation learning)就是利用机器学习技术自动获取每一个实体或者关系的向量化表达。深度学习之所以现在大获成功,并具有非常广泛的应用就在于表示学习。

    bigdatakk-04-02.png

    Word2Vec就是一套非常成功的表示学习技术,它将单词转化成了向量,并且可以让语义上相似的向量具有很高的相似度。而且,Word2Vec还可以在一定程度上学习到了单词之间的抽象关系。比如著名的公式:(男人-女人=国王-王后)就告诉我们Word2Vec可以学习到“男女”关系。

    除了Word2Vec,在知识表征学习领域还应用有大量基于神经网络和基于“翻译”的模型,其中包括SE模型,TransE、TransR、TransG…… 这些模型都是怎样实现的?每个模型各有什么特点?认真学习本系列课程,你讲找到答案。


讲师介绍
张江

北京师范大学系统科学学院教授,博士生导师,集智俱乐部、集智AI学园创始人,集智科学家,阿里研究院、腾讯研究院、网络智库专家,人工智能研究者与布道者。主要讲授课程:人工智能、复杂性思维、计算机建模与模拟、Matlab基础及其应用。主要从事的研究领域包括:复杂系统建模、计算社会科学等。曾发表学术论文数十篇,访问过圣塔菲研究所、密西根复杂系统中心等知名国外大学。曾带领集智俱乐部写作、出版书籍:《科学的极致——漫谈人工智能》,《走近2050——注意力、互联网与人工智能》。

文雷

北京师范大学系统科学学院研究生 研究方向:复杂网络及深度学习技术在经济系统中的应用

龚力

北京师范大学系统科学学院硕士研究生,彩云小译的开发者之一。研究兴趣:机器翻译、语音识别及其应用。

崔浩川

北京师范大学系统理论研究生在读 研究兴趣和方向:计算社会学及可视化相关,复杂网络建模

谷伟伟

北京师范大学系统科学学院研究生。 研究方向为复杂网络嵌入,深度学习在复杂网络中的应用等。