用机器视觉解放长文本

本课程主要讲解的是使用机器视觉解决中文语言问题。(课时:111 分钟)

自然语言理解 CNN 中文形音义预测

讲师:   尹相志

课程资料

  • 讲稿下载:(报名后可见)

  • 课程实做及讨论记录:(报名后可见)

课程笔记

1. CNN——并不是那么在语乎序的网架络构

课程背景

我们知道西欧语言中的每个字母单独是是没有任何的含义的。与西欧字母不同,汉字本身就是一个充满压缩信息的数据源,在文字里就已经包含了表示其意义的“上下文”。当你看到一个字有“艹”字头,你应该会想到这是一种植物;当你看到一个字有“口”字边,你可能会想到这是一个动作。所以从象形文字的角度来看,中文中的每一个字都可以当成一张图来看待。

汉字的部首与字形中包含了隐藏的词性和语义,将汉字的部首、字形纳入自然语言维度,可大幅改善未知词性推断、实体标注、人名辨识的精确度。

课程目的

学完本课程,你能做到

  • 掌握使用文字卷积(Text CNN)进行语意识别的方法

  • 了解中文的数据增强技巧

  • 了解让机器从形音义理解中文的方法

课程详情

本课程的主要内容有:

  • 谁说中文必须要分词,让机器学会「看中文」

  • 中文的造字法则,如何能让形音义三位一体

  • 用字向量从分词任务中解脱

  • 文字卷积(Text CNN)进行语意识别

  • 从卷积的角度看语言

  • 中文的数据增强技巧

课程实做

  • 使用文字卷积评估长文本语意