
-
课程介绍
课程背景
事实上,在幂律分布这个词提出以前,就已经有了相关研究。比如语言统计学中发现的Zipf律,Pareto分布等。我们现在可以方便的验证其规律,通过在COCA(Corpus of Contemporary American English)网站——是一个4.5亿字的当代英语语言文字的集合,进行检测,列出在其中最常用的英文单词及其实际使用频率,发现在双对数坐标图中绘制它们的频率-排名关系,近乎于线性关系,满足Zipf律;通过对收入的分布进行描绘,可以发现其满足Pareto分布。那么如何从这些唯象的发现中,总结出幂律分布呢?
本课程中,我们将深入探讨和分析Zipf律及其最省力原则,Pareto分布,长尾理论和幂律分布,对其脉络进行梳理。
课程目的
认真学完本课程,你能做到
了解语言统计学中规律——Zipf定律
了解如何运用最小系统信息熵理论解释Zipf律的原则
了解Pareto分布、长尾理论
了解Zipf律,Pareto分布和幂律分布的关系
课程详情
本课程的主要内容有:
不同语言的统一法则
Zipf律的最省力原则解释
你相信80/20定律/Pareto法则吗?
长尾理论
Zipf律,Pareto法则和幂律的关系