数据科学简介

数据科学专业是当今最受学生欢迎的热门专业。在互联网科技高速发展的今天,大数据时代已经正式来临,分析大数据可以帮助企业更好的进行产品制定与推广规划,从而最大程度帮助企业盈利,所以各大公司对于数据科学专业人才可谓是求贤若渴。而说到这一行业的领军国家,美国自然成了很多同学的求学之地。
数据科学顾名思义,是指和数据相关的科学研究。具体点说的话, 数据科学是指通过挖掘数据,处理数据,分析数据从而得到有用信息的技术和研究 。 随着科技的发展,每天每时每刻都有大量数据被产生和存储下来。如何才能把这些数据变成有用的信息价值被人类所利用,这就需要通过一系列的收集、统计、整理、分析、挖掘等方法和技术来实现整个过程。数据科学的作用就体现于此。
数据科学是一门交叉的学科,涉及到很多的领域包括统计学、数学、计算机、人工智能、机器学习、数据库、模式识别、可视化技术等多学科的知识。大数据时代的到来,为各个科学领域带来了新的改革。
与商业分析的区别
这里很多同学会问,之前谈到的BA(Business Analytics)商业分析不就已经是利用数据分析来进行商业决策的科学了吗?它们二者不一样吗?又有什么区别呢?
其实二者性质上其实相差不大, 数据科学是商业分析的整合 ,所以数据科学家做的部分不仅仅只有商业分析。如果说区别的话,你可以认为数据科学家是商业分析的plus版本。
专业课程
数据科学的学习主要分为下面三个模块: 数据模型、数据处理、数据可视化 。 很容易看出来,这些相关的知识和CS,统计学,数学都有密切联系。因为数据科学属于交叉类学科,所以学习数据科学就要学习很多其他方向的课程。
数学统计课程
数学和统计是必要的基础,课程包括概率理论、算法、统计干涉和模型、科学计算、随机过程、计算建模等。
计算机类课程
主要是学习如何用数据建立计算机模型,包括计算机系统、机器学习、数据分析和可视化。
其他方向课程
因为数据科学可用于各个行业,因此方向类课程也是每个学校的特色,例如哥伦比亚大学的MSDS有开金融量化大数据分析、可持续发展智慧城市大数据分析、生物信息大数据;斯坦福大学开设数据驱动医疗课程,视觉识别神经网络、地理统计信息等。
未来方向
全球最顶尖管理咨询公司麦肯锡(McKinsey)就出具过一份详细的分析报告。报告中预测大数据或者数据工作者的岗位需求将会激增,其中大数据科学家的缺口在14万到19万之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将会达到15万。
对大数据处理需求最旺盛的行业包括:计算机软件、互联网、科研、IT技术服务、生物技术、制药业等。事实上,大数据工作者可以施展拳脚的领域还不仅如此,从国防部、互联网创业公司到金融机构,到处需要大数据项目来做创新驱动。
同样,数据分析或数据处理的岗位报酬也非常丰厚。在硅谷,入门级的数据科学家的收入已经是6位数了(单位是美元)。
数据科学的三类职业方向: 机器学习、数据分析和数据科学家
- 机器学习工程师 Machine Learning Engineer
机器学习工程师代表了技术含量较高的方向,工作内容主要是开发机器学习系统和用这些系统解决实际问题。一般需要ship prouction coe,做出来的是数据产品。
- 数据分析员 Data Analyst
工作内容俗称analytics,从数据中提取insight,估计投资回报比,为产品方向提建议,所用工具一般较基础,比如写SQL语言、用R/Python做简单的分析、用Tableau/Excel作图比较常见。
- 数据科学家 Data Scientist
此类职位工作内容以高级建模为主,会针对复杂的问题来设计技术方案,比如Uber叫车的ETA、各种定价系统、Airbnb和金融行业的Frau Detection等这样供需双方Marketplace市场规模的实验。这些例子,听上去就不是写SQL能解决的,也不是会写代码就能做出来的,都需要比较深层次的知识。