在中文语言理解中,该被重视的传统分析任务

本课程探讨了在自然语言理解领域可以采取的多种巧妙的解决办法,内容包括善用树状LSTM进行句法分析,结合汉字行音意制作汉字字向量等等。

讲师:   尹相志

课程背景

如果你对自然语言处理有一些了解,相信你对中文分词这一问题一定不会陌生。中文是一种古老的象形文字语言,由于语言的特殊结构,使它不能像西方符号语言那样直接处理,必须首先经过分词操作。尤其是在目前流行的词向量领域,中文分词作为词向量的基础,对后续的处理效果有着巨大的影响。

目前大部分研究人员都是采用一些常规的中文分词方法,比如使用网上流行的分词工具。但是你是否知道,如今业界流行的分词工具仍旧使用刻板的人民日报语料进行训练,早已不能适应我们这个网络用语日常化的时代了。比如我们经常见到的“蓝瘦香菇(难受想哭)”,“炒鸡(超级)难吃”,传统的处理方式根本无法进行分词,更别提语义理解了。

DeepBelief.ai的创始人尹相志先生,独辟蹊径,将中文文字字型与读音引入到中文分词与语义理解的问题中,提出同音字解决非辞典语言语义理解问题(如我们能理解”蓝瘦香菇“就是”难受想哭“是因为两者同音),使用同型字建立更有效的词向量方法(汉字偏旁能起到对汉字的自解释作用)等多种新式解决方案。还探讨了在深度学习技术流行之时,传统语法分析方法仍能起到的巨大作用。

本堂讲座即富有激情,又发人深省,吸引了在场所有听众的注意力。如果你正在研究自然语言理解或对自然语言处理感兴趣,那么本讲座应是你必上的一课。

课程目的

学完本课程,你能做到

  • 了解什么是自然语言理解(NLU),它与NLP的区别是什么

  • 了解深度学习技术是如何加速自然语言技术的发展的

  • 熟悉中文分词的方法、困难、意义

  • 通晓中文“形音义”是如何对语意理解提供帮助的

课程详情

在本讲解中,我们从如下方面介绍了Word2Vec技术:

  • 自然语言处理(NLP)与自然语言理解(NLU)的区别

    • 什么是NLP,什么是NLU

    • NLP和NLU有着哪些不同的应用方式

  • 深度学习技术加速了自然语言技术的发展

    • 深度学习网络百花齐放

    • LSTM,让语言在深度学习领域“热起来”

    • 图像与文字融合——抽象的机器翻译

    • 深度学习下语言翻译的局限性

    • 中文文字的复杂性

    • 象形文字的魅力,中文字型的自描述性

  • 中文自然语义理解的基石——中文分词

    • 常规分词工具的局限性

    • 分词难题举例

    • 同音错字如何进行词性标注

    • 分词对词向量的重要意义

    • 早期的分词方法

    • Seq2seq助力,分词与词性标注一起进行

  • 汉字形音结构对语意理解的帮助

    • 使用中文字部首建立中文文字向量

    • 汉字作为小图像处理的新方法尝

    • 使用模糊语法规则处理电商评价

    • 使用树状LSTM来提取依存关系特征

  • 答疑部分