对语言最强大的降维攻击武器--词向量

本课程讲解了自然语言理解技术中的词向量技术。用大量语料训练的词向量可以通过向量运算指引出事物之间的联系,甚至还能发现人类一般意识不到的关系。(课时:120 分钟)

讲师:   尹相志

课程资料

  • 讲稿下载:(报名后可见)

  • 课程实做及讨论记录:(报名后可见)

课程背景

词向量可以说是近年来NLU最有趣的技术之一,它正面解决了维度复杂性问题,成为自然语言理解的基础配备。

为什么词向量如此强大?是因为词向量创造了一个词汇宇宙,在其中,每个单词就是一颗星星。更奇妙的是,这些星星会自动地聚集成类。我们可以看到,“美元”、“台币”、“卢比”、“比绍”聚成了一堆,“中国银行”、“工商银行”、“招商银行”走到了一块。同时,我们会发现词向量能够指引出事物之间的联系,利用这个原理,我们可以提取出市场中的潜规则……

课程目的

学完本课程,你能做到

  • 了解神经概率语言模型及Word2Vec

  • 熟悉在训练词向量前要对数据进行哪些处理

  • 熟悉从词向量中挖掘信息的方法

课程详情

本课程的主要内容有:

  • Bengio的神经概率语言模型(NPLM)

  • Word2Vec技术介绍

  • 制作词向量的数据清洗

  • 还有哪些有趣的语言向量?

  • 捡拾低垂的语意果子--类比推理、实体枚举

  • 知识图谱抽取、同义字推断

  • 降维可视化

课程实做

  • 从词向量中挖掘出类比信息


讲师介绍
尹相志

微软金牌讲师

中国首届人工智能大赛发起人与题目设计

前华院数据(上海)首席数据科学家,数据决策(台湾)技术长

台湾微软特约讲师与2006~2017年最有价值专家(MVP)

微软Tech ED 2002, 2004~2015讲师

专长:

自然语言理解、人工智能算法开发、数据挖掘、商业智慧、分析型CRM、风险管理、数据仓库