在中文语言理解中,该被重视的传统分析任务

在自然语言语意理解领域,不能仅对深度学习技术一边倒,还应该重视传统的语言分析技术。比如对于“蓝瘦香菇”这类使用极其普遍的网络语言。要对于它们进行语意分析,就可以采用一些传统方法,比如将汉字的读音加入到模型中,因为“蓝瘦香菇”和“难受想哭”同音,所以可以轻易的推测出网络用词的意义。

讲师:   尹相志

在中文语言理解中,该被重视的传统分析任务

课程背景:

如果你对自然语言处理有一些了解,相信你对中文分词这一问题一定不会陌生。中文是一种古老的象形文字语言,由于语言的特殊结构,使它不能像西方符号语言那样直接处理,必须首先经过分词操作。尤其是在目前流行的词向量领域,中文分词作为词向量的基础,对后续的处理效果有着巨大的影响。

目前大部分研究人员都是采用一些常规的中文分词方法,比如使用网上流行的分词工具。但是你是否知道,如今业界流行的分词工具仍旧使用刻板的人民日报语料进行训练,早已不能适应我们这个网络用语日常化的时代了。比如我们经常见到的“蓝瘦香菇(难受想哭)”,“炒鸡(超级)难吃”,传统的处理方式根本无法进行分词,更别提语义理解了。

来自“DeepBelief.ai”的首席数据科学家尹相志先生,独辟蹊径,将中文文字字型与读音引入到中文分词与语义理解的问题中,提出同音字解决非辞典语言语义理解问题(如我们能理解”蓝瘦香菇“就是”难受想哭“是因为两者同音),使用同型字建立更有效的词向量方法(汉字偏旁能起到对汉字的自解释作用)等多种新式解决方案。还探讨了在深度学习技术流行之时,传统语法分析方法仍能起到的巨大作用。

本堂讲座即富有激情,又发人深省,吸引了在场所有听众的注意力。如果你正在研究自然语言理解或对自然语言处理感兴趣,那么本讲座应是你必上的一课。

课程资料:

现场讲稿.pdf

课程大纲:


课程大纲如下(附时间点):

一、自然语言处理(NLP)与自然语言理解(NLU)的区别(00:04:00)

  • 1.什么是NLP,什么是NLU

  • 2.NLP和NLU有着哪些不同的应用方式:

二、深度学习技术加速了自然语言技术的发展(00:11:35)

  • 1.深度学习网络百花齐放

  • 2.LSTM,让语言在深度学习领域“热起来”(00:14:00)

  • 3.图像与文字融合——抽象的机器翻译(00:17:30 )

  • 4.深度学习下语言翻译的局限性(00:19:40)

  • 5.中文文字的复杂性(00:30:00)

  • 6.象形文字的魅力,中文字型的自描述性(00:33:00)

三、中文自然语义理解的基石——中文分词(00:34:00)

  • 1.常规分词工具的局限性(00:36:00)

  • 2.分词难题举例(00:39:20)

  • 3.同音错字如何进行词性标注(00:47:20)

  • 4.分词对词向量的重要意义(00:52:25)

  • 5.早期的分词方法(00:59:00)

  • 6.Seq2seq助力,分词与词性标注一起进行(01:06:20)

四、汉字形音结构对语意理解的帮助(01:10:00)

  • 1.使用中文字部首建立中文文字向量(01:15:00)

  • 2.将汉字作为小图像处理的新方法尝试(01:18:00)

  • 3.使用模糊语法规则处理电商评价(01:24:00)

  • 4.使用树状LSTM来提取依存关系特征(01:35:00)

五、答疑部分(01:40:00)



讲师介绍
尹相志

华院数据首席数据科学家 1994年国际奥林匹亚化学竞赛世界银牌; 2002年在台湾开设亚洲资采(asiaMiner)为台湾第一家大数据公司; 2002年起连续15年为微软最有价值专家; 2015年加盟华院数据,透过技术来孵化更多的数据新创公司; 2016年中国首届人工智能竞赛上海BOT大赛(Brain of Things)赛题设计;