无处不在的自然语言处理

本课程将结合应用案例介绍近年来在人工智能领域快速发展的自然语言处理技术。内容包括自然语言处理技术的概念,应用方向,目前的发展方向等等。

讲师:   李嫣然

课程资料

课程背景

近年来,机器在理解人类语言方面已经有了突飞猛进的发展。首先,IBM的超级计算机Watson在美国知名电视节目Jeopardy上大显身手,和主持人对答如流;其次,机器可以像人一样完成阅读理解任务;最近,Google利用最新的深度学习技术在机器翻译方面取得了显著的成功,准确率大幅度提升。所有这些突出表现的背后是自然语言处理技术。

本讲座主要介绍什么是自然语言处理,以及目前的主要应用包括哪些,现在的进展如何、结合具体应用案例介绍。

课程目的

学完本课程,你能做到

  • 从语言学的角度了解语言的起源与发展,以及它的本质作用

  • 了解基本的语言模型,以及对语言建模所需的语言表示法

  • 了解基于神经网络模型的机器翻译原理

  • 了解语言生成的原理及应用

课程详情

本课的主要内容有:

  • 语言的起源发展与作用

  • 语言模型。包括N-gram模型、词嵌入、Word2Vec

  • 词语表示。包括词组、句子表示,以及基于RNN的序列化表示,基于CNN的自底向上的组成式表示。

  • 神经网络机器翻译。包括Encoder-Decoder构架,注意力机制。

  • 语言生成。包括看图讲故事、对话生成等等。

相关课程

11ecfaaed3014775afd57111615e8475.png

李嫣然:Word2Vec: 词向量技术的基础与模型 - 深度学习与自然语言处理1

课程笔记


“无处不在的自然语言处理”笔记

  • 笔记作者:王泽宇


一、语言的起源与发展


1.认为语言产生无先天基础,是后天社会的产物。

2.认为语言是先天本能(较为普遍)

·每个人都有先天的语法知识

原因:

      ①语言的普遍性:各种语言都能找到相似的语法结构

      ②输入贫乏

      ③生理基础

      具体参见《语言本能》一书

·称基本语法为“原则”,语言与语言细微差别为“参数”。人类学习语言的过程就是在原则上训练出不同的参数。

·对“狼孩”的反驳:后天的发展、参数的学习与后天社会有关


二、语言的作用


1.感知:经历世界时产生的感受用语言做基本的描述存在于心理

2.理解:看别人听别人的观点             

3.交流:说出自己的观点

4.它们分别相关于:语言模型、怎么表示、机器翻译、语言生成

5.相关的原因:需要一个基本框架才能感知,从中细化的表示能以更好的方式存储于大脑、心智模型中。机器翻译和语言生成是两个理解和交流的具体任务。


三、语言模型


1.综述:语言模型是衡量一个句子是否合理的概率。

具体过程:将句子的每个词建模为从x1到xl的序列(x1,x2,…,xl);

计算序列在语言模型下的概率,概率高则可能是合理的句子。

2.经典语言模型:N-gram语言模型

·例如将中文的两个字为一个单位,定义为一个gram,计算n-gram序列的概率

·认为这个序列符合马尔科夫假设:

如图,两个东西的转变过程有一个概率。这种概率依赖关系很普遍:如“一蹴而”的状态后面是“就”的状态的概率很高

从而有方法:用语料训练这些信息,如统计“一蹴而就”出现的次数计算概率。其中还可具体分为四个字分别出现的概率、“一蹴”“蹴而”“而就”的概率、“一蹴而”“蹴而就”的概率等。


3.存在的问题

·数据稀疏:造新词的能力更强了,而新词的语料不足,机器无法认识,因而概率为零。

  解决:加一个微小扰动,使概率不为零。

·缺少泛化:如太阳和月亮有相似性,若有“明亮的太阳”,也应可说“明亮的月亮”,但机器不知道可以这样推广。

缺少泛化的原因——离散表达:比如把一万个常用汉字编成字典,每个字用一个一万维向量表示,则每个向量只有一位是1,从而相互没有相似性

过去一直没有很好的解决方法,直到深度学习的神经网络语言模型出现。


……


更多内容,请购买课程观看