一、统计学的历史
统计方法可以追溯到很早,几乎在计数方法被发明的时候就有了原始的统计方法。到了16世纪,由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。
统计方法发展成为现代(数理)统计学,则是更近的事。17、18世纪的数学家继续发展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes,他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。
不得不提到的一个巨人是Karl Pearson。没错,就是Pearson test 那个Pearson,他还用姓氏首字母命名了一个折磨了统计系学生们一百年的变量—— p value。除此之外,他在统计理论的各个方面都有创新,最重要的是,他创建了世界上第一个统计系。他被公认为是现代(数理)统计学的创建者,也是生物统计的创建者(第一个生物统计学期刊就是他开的)。其实能者是无所不能的,他在业余还取得了大律师资格,还是一个坚定的基因改良主义者,要知道那才是1890年!
下面这幅图是Pearson的老婆为他的学术著作画的插页(1),主题就是:Chance of eath。从左到右意思是人从出生到老要经历不同的死亡风险。
Pearson之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了。在这之后,比较大的变化是贝叶斯主义的兴盛。
在贝叶斯主义之前,使用prior knowlege是不规范的。你必须比较确切地知道某个随机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴,根据一些prior knowlege,直接给概率赋值。看似武断,其实大大拓展了统计学的发展和应用空间。
二、 统计学的划分
统计学可以这样划分:理论统计学和应用统计学。
统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。现在又包括了computational statistics。Computational statistics发展了bootstrapping、Monte Carlo simulation这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量太大了(不太确定computational statistics是否应该放在理论统计学里,不过这个不重要)。
应用统计学基本分为两大块:escriptive statistics 和 inferential statistics。前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。
这样直观的记忆比较好:前者:population ---> sample后者:sample ---> population
从population到sample,这个是以使用概率论为主。不过escriptive statistics本身并不发展新的理论知识。从sample到population,这个才是应用统计学的重要目的。因为统计学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做出估计。
统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域):
理论研究:概率论(比如stochastic process),计算统计理论(比如asymptotic theory,在CS系的computational theory下面)。
统计模型(在前人基础上继续发展各种regression moel,stratification,clustering,blocking,classification等等)、各种test的发展(比如time series,likelihoo ratio test, Wal test, permutation test 等等)。
计算统计方法的发展(比如Monte Carlo simulation,Bootstrap)
数据采集(census,survey和clinical trial等)
生物统计(比如longituinal analysis, spatial analysis)
ata mining
目前最火热的学科都是跟计算机结合比较紧密的。统计学领域也不例外,ata mining 和 machine learning都是一出生就建立在统计学(和概率论)基础之上的,现在大量的人在做这个。而解决的实际问题包括:卫生、环境、行为等等。比如你的每一次点击都部分地决定了Google将要给你投放什么样的广告,你的每一个手机使用行为都部分地决定了苹果下一款手机的开发方向。这里面海量的数据的搜集、统计分析、行为分析,都是以统计学为核心的。
三、就业走向
1、 统计/数据相关:不需要考证
ata analyst -- 统计/BA/数学/以及其他各种想转专业的同学/(本科,硕士,博士均可)
ata scientist -- 统计/数学/计算机/ (倾向硕士,博士多一些)
ata engineer -- 计算机/有相关经验/(本科,硕士,博士均可)
statistician -- 统计/数学 (倾向硕士,博士多一些)
选专业与对应必备软件语言与工作内容概括
ata analyst -- Excel, Tableau, Sql, 可能有SAS或R -- 写分析报告,描述趋势,销量等,占比等
ata scientist -- R, SAS, Python, Sql -- 建预测模型,比如银行根据个人信息历史账单等,建模,决定是否拒绝给申请人开信用卡。也可以数据量很大。
ata engineer -- Haoop, Java/python/scala, Spark, Sql, Hive, Hbase,linux等 -- etl 倒数据,数据量极大,例如上亿条数据。从web server清理提取日志数据,存入非关系型数据库,再用Java或Scala根据业务逻辑写代码。用Hive查询数据。需要很多前后端的知识。有的做推荐系统,或者machine learning
statistician -- SAS, SPSS, Excel -- 方差分析或t检验看几组数据有无差别,得出药效或服务是否有提升