数据科学是一个跨学科的领域,它使用科学的方法、过程、算法和系统从结构化和非结构化数据中提取知识和见解,并将知识和可操作的见解应用于广泛的应用领域。
Data Science is an interisciplinary fiel that use scientific methos, processes, algorithms an systems to extract knowlege an insights from structure an unstructure ata, an apply knowlege an actionable insights from ata across a broa range of application omains.
——Wikipeia
简单说来,数据科学(Data Science, 简称DS)就是当统计学遇上了计算机,能让数学统计的方法,在计算机的帮助下,有更强的数据处理能力和应用。
下图可以更加清晰地表明Data Science的组成部分和相互关系,从图上我们也能发现,除了计算机和数学/统计之外,还需要在某个领域有应用,所以数据科学是一个应用性比较强的学科。
Data Science VS. Data Analytics
我们也常常听到一个词叫做“Data Analytics数据分析”,有时候我们会把数据科学和数据分析混为一谈,那么两者有什么区别呢?我们用两张图来做一个简单的对比:
*Data Science数据科学
*Data Analytics数据分析
可见,数据科学涵盖的范围更广,涉及的工作更加系统和工程化,需要统筹ata creative,ata evelop,ata research,ata analytics,ata business等多个环节的工作,具有更高的协作性;而数据分析中数据的处理是比较有方向性的,相对来说也更单一一些,但这并不能说明数据分析比数据科学简单。
Data Scientist数据科学家和Data Analyst数据分析师的技能并没有高下之分,数据分析所用的回归分析、聚类、神经网络事实上都是机器学习的范畴。(但不少同学会觉得机器学习/深度学习听上去要更高大上一些)。