自然语言生成 - 自然语言处理与深度学习10

自然语言生成是自然语言处理领域中一个非常热门的研究课题,本讲座对对话生成系统做了一个比较全面详细的综述。课程内容包括:回顾了语言生成的发展简史;主流框架:讲解了基于编码-解码(Encoder-decoder)框架的端到端(End2end)架构,以及对其的改进:可变编码-解码(Variational encoder-decoder)方法、可变自编码(Variational autoencoder)方法;常见问题:介绍了目前对话系统中的一些常见问题,例如语义漂移、高频模式、文不对题等,以及相应的解决方案,如混合生成策略;谷歌对话系统Allo架构:刨析了Google对话系统Allo的架构。

讲师:   李嫣然
  • 课程内容包括:


  • 历史回顾:从早期的模版匹配、语言模型,到最近的一些进展如生成春联、天气预报、看图说话等,再到最近非常火热的故事生成、机器自动对话,本讲座首先带领你回顾了语言生成的发展简史。

  • 主流框架:讲解了基于编码-解码(Encoder-decoder)框架的端到端(End2end)架构,以及对其的改进:可变编码-解码(Variational encoder-decoder)方法、可变自编码(Variational autoencoder)方法。

  • 常见问题:介绍了目前对话系统中的一些常见问题,例如语义漂移、高频模式、文不对题等,以及相应的解决方案,如混合生成策略。

  • 谷歌对话系统Allo架构:刨析了Google对话系统Allo的架构。





自然语言生成笔记


  • 笔记作者:王泽宇、陈浩然、李茵


Current Developments and Future Directions

自然语言生成,这是一个前沿的、不成熟的、tricky的内容


1.无限猴子定理:无数只猴子在打字机上打东西,能有一个猴子打出莎士比亚的作品。

考虑以下问题:

①可以做到的概率是多少?

②如果猴子能做到的话,机器能不能可以?

③如果机器可以,那么如何驱动机器的行为做到?

④能否生成其他类型的自然语言?

⑤终极问题:机器如何自动生成自然语言?


2.早期对自然语言处理的尝试:当时计算机、模型等都很落后

①方法:基于模板的方法,类似数据库,告诉机器某个空填哪一类的数据,真实值放到对应位置。

②效果:能实现短的、结构的东西。

③问题:

·需要定义的模板太多,没有可操作性;

·生成的东西太死板,没有自然语言的感觉;

·没有对真实语境进行了解,还是人告诉的;


3.泛化性的努力(1994年):

·Text planning:取决于交流的目的,语言要传达什么内容的归类

·Sentence planning:具体的话用什么样的逻辑框架、语法结构来表达

·Surface realization:内容具体用什么词表达

问题:需要投入大量的人力、物力、专业人士去做,离机器代劳的自动生成差得很远


4.进一步抽象问题:复杂来自于抽象得不够

自然语言的本质:

·content:内容;

·language model:语法:怎么像人话——比如字的顺序本身不影响阅读;

·text types:文体,与content和language model相关


5.进入自动生成的时代:一旦意识到了交流目标,机器可以理解内容的含义,自动生成语言。

①能实现的:

 ·天气预报:模板时代就解决了

·中国对联:微软亚洲研究院

·英文诗歌、中文古诗、宋词:结构有对称性所以好做

②不成熟的:

·Image caption, Image and Video Description:机器根据图片或视频生成对它的描述。

——做的事情:目标识别、理解目标间关系、将关系组合成语法规则的句子

——实现架构:encoder与decoder的架构。

……


若要阅读全文,请购买该课程

讲师介绍
李嫣然

香港理工大学在读博士生,集智科学家,著名公众号:程序媛的日常 的运营者之一,人称小S。研究方向为自然语言处理中的语义表达和语言生成,致力于利用深度学习、认知科学等相关领域的方法和成果探究人类语言习得和语言表达的奥秘。