无处不在的自然语言处理

近年来,机器在理解人类语言方面已经有了突飞猛进的发展。 本课程主要介绍什么是自然语言处理,以及目前的主要应用包括哪些,现在的进展如何,结合具体应用案例介绍。

讲师:   李嫣然

近年来,机器在理解人类语言方面已经有了突飞猛进的发展。首先,IBM的超级计算机Watson在美国知名电视节目Jeopardy上大显身手,和主持人对答如流;其次,机器可以像人一样完成阅读理解任务;最近,Google利用最新的深度学习技术在机器翻译方面取得了显著的成功,准确率大幅度提升。所有这些突出表现的背后是自然语言处理技术。


本讲座主要介绍什么是自然语言处理,以及目前的主要应用包括哪些,现在的进展如何、结合具体应用案例介绍。

chinese-nlp-trends-big-data-4.png

主要内容包括:

  1. 语言的起源与发展

  2. 语言的作用

  3. 语言模型

  4. 语言表示

  5. 语言翻译

  6. 语言生成



“无处不在的自然语言处理”笔记


  • 笔记作者:王泽宇


一、语言的起源与发展


1.认为语言产生无先天基础,是后天社会的产物。

2.认为语言是先天本能(较为普遍)

·每个人都有先天的语法知识

原因:

      ①语言的普遍性:各种语言都能找到相似的语法结构

      ②输入贫乏

      ③生理基础

      具体参见《语言本能》一书

·称基本语法为“原则”,语言与语言细微差别为“参数”。人类学习语言的过程就是在原则上训练出不同的参数。

·对“狼孩”的反驳:后天的发展、参数的学习与后天社会有关


二、语言的作用


1.感知:经历世界时产生的感受用语言做基本的描述存在于心理

2.理解:看别人听别人的观点             

3.交流:说出自己的观点

4.它们分别相关于:语言模型、怎么表示、机器翻译、语言生成

5.相关的原因:需要一个基本框架才能感知,从中细化的表示能以更好的方式存储于大脑、心智模型中。机器翻译和语言生成是两个理解和交流的具体任务。


三、语言模型


1.综述:语言模型是衡量一个句子是否合理的概率。

具体过程:将句子的每个词建模为从x1到xl的序列(x1,x2,…,xl);

计算序列在语言模型下的概率,概率高则可能是合理的句子。

2.经典语言模型:N-gram语言模型

·例如将中文的两个字为一个单位,定义为一个gram,计算n-gram序列的概率

·认为这个序列符合马尔科夫假设:

如图,两个东西的转变过程有一个概率。这种概率依赖关系很普遍:如“一蹴而”的状态后面是“就”的状态的概率很高

从而有方法:用语料训练这些信息,如统计“一蹴而就”出现的次数计算概率。其中还可具体分为四个字分别出现的概率、“一蹴”“蹴而”“而就”的概率、“一蹴而”“蹴而就”的概率等。


3.存在的问题

·数据稀疏:造新词的能力更强了,而新词的语料不足,机器无法认识,因而概率为零。

  解决:加一个微小扰动,使概率不为零。

·缺少泛化:如太阳和月亮有相似性,若有“明亮的太阳”,也应可说“明亮的月亮”,但机器不知道可以这样推广。

缺少泛化的原因——离散表达:比如把一万个常用汉字编成字典,每个字用一个一万维向量表示,则每个向量只有一位是1,从而相互没有相似性

过去一直没有很好的解决方法,直到深度学习的神经网络语言模型出现。


……


更多内容,请购买课程观看

讲师介绍
李嫣然

香港理工大学在读博士生,集智科学家,著名公众号:程序媛的日常 的运营者之一,人称小S。研究方向为自然语言处理中的语义表达和语言生成,致力于利用深度学习、认知科学等相关领域的方法和成果探究人类语言习得和语言表达的奥秘。