
本课程将为大家解读词向量技术,内容包括词向量的训练方法以及词向量的特殊性质。(课时:117 分钟)
课程资料
讲稿下载:报名后可见
课程代码包:报名后可见
运行本课程程序需要安装如下软件包:
Sktlearns:conda install scikit-learn
结巴分词:pip install jieba
Gensim:pip install gensim
课程背景
我们要创造一个宇宙,在这里,每颗星星就是一个单词,它们不仅烁烁发光,而且还会自动地聚类形成家族。看,“徐静蕾”、“赵薇”,和“冯小刚”抱成了一团;“美元”、“台币”、“卢比”、“比索”聚成了一堆;“星星”、“月亮”、“太阳”跑到了一块儿。更有意思的是,这些星星还懂得复杂的人际关系,例如当我们在“汪峰”和“章子怡”之间连一条线,再在“窦唯”与“王菲”之间连条线,那么这两条线几乎就是平行的,这个平行的向量就对应了“男女关系”。这就是Word2Vec的神奇力量。Word2Vec是Google开发的一种将词汇嵌入到向量空间的技术,有了它,我们就可以用神经网络的方式来处理单词,甚至完成各种复杂的自然语言处理任务了。
课后作业:
利用现成的中、英文词向量进行简单的词到词的翻译
课程目的
学完本课程,你能做到
了解自然语言处理(NLP)技术的基本概念
了解词向量的基本概念与特殊性质
掌握NPLM神经概率语言模型
熟悉Word2Vec技术,掌握Word2Vec技术的实现方法
熟悉使用词向量进行语义运算的特殊性质
课程详情
本课程的内容包括:
NLP总体介绍
词向量介绍
Bengio的神经概率语言模型(NPLM)
NPLM的PyTorch实现
《三体》中的词向量
中文分词与预处理
运用Sklearn包进行PCA降维
Word2Vec技术介绍
Skip Gram模型
负采样技术
gensim的Word2Vec包
加载大型词向量
降维可视化
运用词向量进行类比推理
运用词向量进行查询与搜索
相关课程

北京师范大学系统科学学院教授,博士生导师,集智俱乐部、集智AI学园创始人,集智科学家,阿里研究院、腾讯研究院、网络智库专家,人工智能研究者与布道者。主要讲授课程:人工智能、复杂性思维、计算机建模与模拟、Matlab基础及其应用。主要从事的研究领域包括:复杂系统建模、计算社会科学等。曾发表学术论文数十篇,访问过圣塔菲研究所、密西根复杂系统中心等知名国外大学。曾带领集智俱乐部写作、出版书籍:《科学的极致——漫谈人工智能》,《走近2050——注意力、互联网与人工智能》。