词汇的星空

本课程将为大家解读词向量技术,内容包括词向量的训练方法以及词向量的特殊性质。(课时:117 分钟)

讲师:   张江

课程资料

  • 讲稿下载:报名后可见

  • 课程代码包:报名后可见

  • 运行本课程程序需要安装如下软件包:

    • Sktlearns:conda install scikit-learn

    • 结巴分词:pip install jieba

    • Gensim:pip install gensim

课程背景

我们要创造一个宇宙,在这里,每颗星星就是一个单词,它们不仅烁烁发光,而且还会自动地聚类形成家族。看,“徐静蕾”、“赵薇”,和“冯小刚”抱成了一团;“美元”、“台币”、“卢比”、“比索”聚成了一堆;“星星”、“月亮”、“太阳”跑到了一块儿。更有意思的是,这些星星还懂得复杂的人际关系,例如当我们在“汪峰”和“章子怡”之间连一条线,再在“窦唯”与“王菲”之间连条线,那么这两条线几乎就是平行的,这个平行的向量就对应了“男女关系”。这就是Word2Vec的神奇力量。Word2Vec是Google开发的一种将词汇嵌入到向量空间的技术,有了它,我们就可以用神经网络的方式来处理单词,甚至完成各种复杂的自然语言处理任务了。


课后作业:

利用现成的中、英文词向量进行简单的词到词的翻译

课程目的

学完本课程,你能做到

  • 了解自然语言处理(NLP)技术的基本概念

  • 了解词向量的基本概念与特殊性质

  • 掌握NPLM神经概率语言模型

  • 熟悉Word2Vec技术,掌握Word2Vec技术的实现方法

  • 熟悉使用词向量进行语义运算的特殊性质

课程详情

本课程的内容包括:

  • NLP总体介绍

  • 词向量介绍

  • Bengio的神经概率语言模型(NPLM)

    • NPLM的PyTorch实现

    • 《三体》中的词向量

    • 中文分词与预处理

    • 运用Sklearn包进行PCA降维

  • Word2Vec技术介绍

    • Skip Gram模型

    • 负采样技术

    • gensim的Word2Vec包

    • 加载大型词向量

    • 降维可视化

    • 运用词向量进行类比推理

    • 运用词向量进行查询与搜索

相关课程

讲师介绍
张江

北京师范大学系统科学学院教授,博士生导师,集智俱乐部、集智AI学园创始人,集智科学家,阿里研究院、腾讯研究院、网络智库专家,人工智能研究者与布道者。主要讲授课程:人工智能、复杂性思维、计算机建模与模拟、Matlab基础及其应用。主要从事的研究领域包括:复杂系统建模、计算社会科学等。曾发表学术论文数十篇,访问过圣塔菲研究所、密西根复杂系统中心等知名国外大学。曾带领集智俱乐部写作、出版书籍:《科学的极致——漫谈人工智能》,《走近2050——注意力、互联网与人工智能》。