热门专业解析之数据科学
首页 > 顾问主页 > 热门专业解析之数据科学

热门专业解析之数据科学

2021-09-30...

阅读:126 收藏:0 评论:0 点赞:0

3秒免费留学费用评估

提前算一算,出国留学要花多少钱?

获取验证码

开始计算

热门专业解析之数据科学

数据科学是什么?

数据科学, 顾名思义即数据相关的科学研究,它是一门利用数据学习知识的学科,包含两方面——用数据的方法来研究科学和用科学的方法来研究数据。其目标是通过从数据中提取出有价值的部分来生产数据产品,结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,数据可视化,数据库,以及高性能计算。

数据科学的应用覆盖了医学与公共卫生,工程,法律,教育,设计,商业,经济,政策规划等广泛的领域,也将为这些领域带来巨大的变革与发展。


数据科学的由来

数据科学在目前还算是一门新兴学科, 追溯其发展历史, 我们可以看到只有短短的40年时间, 而真正快速发展阶段也就10年左右时间。

1974年彼得诺尔(Peter Naur)发表文章首次提出“数据学“和“数据科学“的概念。他认为“数据学“是计算机科学的延伸,其研究对象是数码化的数据。

1996年在日本神户的一个国际会议上,第一次正式在会议上使用“数据科学“这一名称。1997年杰夫-吴 (Jeff Wu, 密西根大学)在演讲中提出“统计学=数据科学“的命题并建议将统计学改名为数据科学, 统计学家改名为数据科学家。

2001年威廉-克里富兰 (William Clevelan) 第一次将数据科学作为由统计延伸出来的一个独立研究领域。 他认为应将统计学中与数据分析有关的技术层面 (区别于概率理论) 在6个方面扩展后形成一个新的, 独立的学科数据科学。 这6个方面包括:

 (1) 多学科的联合研究 (Multiisciplinary Investigations) 

 (2) 数据模式和分析方法 (Moels an Methos for Data) 

 (3) 数据计算 (Computing with Data) 

 (4) 数据科学教程 (Peagogy)

 (5) 工具评估 (Tool Evaluation) 

 (6) 理论 (Theory)

2002年国际科学委员会(International Council for Science)正式使用“数据科学“并创办了“数据科学杂志“(Data Science Journal)。2003年哥伦比亚大学开办了数据科学杂志(Journal of Data Science),为数据工作者建立了一个交流平台。

2007年2月美国北卡罗来纳州立大学 (North Carolina State University) 成立高级数据分析研究院 (IAA, Institute for Avance Analytics) ,成为美国第一个正式的数据分析硕士研究生学位授予单位,并开发了著名的决策支持大型集成信息系统SAS(Statistics Analysis System)。

2012年3月,时任美国总统奥巴马宣布启动「大数据研究与开发计划」(Big Data Research an Development Initiative),标志着数据科学爆炸式发展时代的到来。

数据科学在我国的发展历史则更为短暂。

随着大数据时代的到来以及目前社会对于大数据研究人才的巨大需求,国内高校也纷纷响应这一潮流。 在2014-2015年期间,多所国内知名高校首先采取设立大数据研究院的形式,从学校其他优势专业或相关专业选拔研究员和学生,探索和规划数据科学专业的未来发展。第一所建立研究院的是清华大学,其后西南交通大学,贵州大学,北京大学,中国人民大学等7所大学也相继设立。

除了高校自身对于数据科学这一领域的探索外, 各大互联网企业也对数据科学领域人才培养给予了多方面的支持。 2015年6月15日, 国内著名云计算服务商阿里云携手慧科教育集团,启动了阿里云大学合作项目(AUCP, Aliyun university cooperation program),联合高校开设云计算与数据科学专业方向。通过产教融合的方式,阿里云在AUCP中提供云计算,大数据,工程师以及生态圈伙伴等资源,培养下一代数据科学家。经过互联网企业不断地研究与探索,数据科学成为一门独立专业的时机日渐成熟,社会各行业对这一领域人才的需求也在不断扩大。

哪些人适合学数据科学专业?

专业内的要求基本就是对数据的意识,逻辑性,业务理解力和一些技能的掌握。

数据意识方面:

要做数据分析师最基本的就是不讨厌数字,如果对指标是通过怎么样的乘除加减得到的,他会觉得不耐烦,那么显然他不适合做数据分析。如果对数据较敏感,能够一眼发现异常值,数据分布情况,这会是最好的。 

逻辑性方面:

试着做一些经典的逻辑题,看看能否解出来,需要多久;逻辑思维对数据分析尤其重要,不然会被各种指标的定义规则、与业务的联系纠结死,逻辑思维好的人写SQL等数据处理脚本也会更加高效。

业务理解能力:

因为数据分析最终价值的实现,一般来说不会是分析师亲自去制定或者实施。所以一定要很有条理、逻辑清晰向别人表达,让业务方认识到你分析结果的价值,从而影响业务方去愿意使用你从数据中得到的观点。比如你能否定义下网站的目标是什么,哪些指标可以作为KPI,用户从进入网站到达成网站目标的整个过程是怎么实现转化的?能否画出业务流程图类似等等。如果偏技术则需要懂一些数据库结构和SQL,如果偏展现需要考验下对图表的掌控能力,什么时候用什么图表合适,甚至如何配色。

愿意学习:

你分析的内容永远不会一尘不变,即使你分析的主题是相对固定,但业务是变化的,你需要不断的学习业务,与不同人沟通,吸收别人的观点。所以分析师一定要有很好的学习态度。 

细心、耐心和交流能力(这个很重要):

做数据分析有时会很纠结,细心和耐心是必需的,好的交流能力可以让数据分析师更好地阐述清楚各类问题。


需要学习的课程

先修课程:数据科学原理、算法、数据库管理系统、统计

基础课程:计算统计方法、机器学习和数据挖掘、视觉分析、所媒体检索、数据分析和商业智能、数据安全管理、预测分析、高级数据模型、云计算、自然语言处理、高级机器学习、统计学习和数据挖掘、复杂系统、空间数据分析、环境足迹和IO分析……

研究开发项目(毕业项目)

数据科学专业的就业

数据科学是这两年迅速火起来的专业方向,就业方向还时比较广泛的,主要可以分为以下三类:

第一类:纯数据分析类

1.Data Analyst 数据分析师

数据分析师侧重于利用统计学、数学等知识进行数据挖掘,日常的主要工作内容为收集数据、清洗数据、然后做一些分析或可视化处理,对编程语言有一定的要求,如R,Python,Javascript,C/C++,SQL等。初级的Analyst的工作就是配合Scientist和Engineer,当业务需求使用某些方法的时候,他们就是一线操作者,当scientist要数据,他们要收集清理数据,当客户或者子公司要数据,他们也要收集清理数据。得出最终的分析报告给产品组工程组或管理层。 所以从这个角度讲,analyst只是非常纯粹的在和数据打交道罢了。

2.Data Scientist 数据科学家

数据科学家是数据领域非常具有复合型的高级岗位,往往需要具备能够独立完成一整套数据分析过程的能力:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。实际工作中主要的精力大概在分布式算法的实现和优化上,特别是后者,是极具挑战性的,需要资深的数据科学家来完成,因此需要非常强大的数学、统计、计算机背景,在优化问题上很有经验。

3.Data Architect 数据架构师

都说不想当数据架构师的程序猿不是一个好前端。因为一个优秀的数据架构师应该对所在领域的主流技术体系有一个全面清晰的认识,对某一种技术的原理、运作机理有深入的理解,是该领域的专家,同时具有将客观事物抽象出来的能力,关注当前技术前沿和热点,使用最高效的方式解决问题。他们的日常主要任务为创建数据管理系统,对数据源进行整合、集中、和维护。具体来讲,要求会SQL,XML,HIVE,PIG,SPARK等,对数据库体系结构有深入了解,擅长数据仓库解决方案等。

4.Data Engineer 数据工程师

作为一个新兴的职业类型, 数据工程师更倾向于掌握 “战术层面” 的具体数据技能,专注于使数据可用并能够在生产环境中对数据进行处理,如具体的编程语言、操作系统与数据库等;而数据科学家更倾向于“战略层面”的数据技能,如数据分析、数据挖掘、统计分析、机器学习等。他们的日常主要工作内容是用SQL来回答分析型问题,用脚本来做数据集成,清洗ETL(提取-转换-装载)任务和使用Haoop生态工具等,对编程语言要求较高,SQL,HIVE,PIG,R,MATLAB,SAS,SPSS,Python,Java,Ruby,C++,Perl等等都要会。

5.Database Aministrator 数据库管理员

数据库管理员和数据分析的关联不是很大,类似于一个IT职位,职责为管理数据以及支持数据管理的设施,确保数据库是提供给所有相关用户,正在正确、安全的执行,因此可能会用到SQL,haoop及相关查询语言,如Hive和Pig。日常专注于优化数据仓库,负责数据的读写和管理。

第二类:以数据为驱动的商业分析类

1.Business Analyst 商业分析师

商业分析师和纯数据科学家都是使用数据的专家,但他们的工作内容是有比较大差别的。通常,商业分析师要对某专业领域具有深入的了解和深刻的认识,商业敏感度高,擅长于从某一领域的数据中挖掘信息,以此评估过去、现在和未来可能的经营业绩。确定最有效的分析模型和途径,为商业用户提供和解释解决方案。

这个过程一般包括先和客户沟通,确定客户的问题和诉求,之后定义业务问题,搜集原始数据,运用预测性、规范性和描述性分析来研究、解释和可视化这些数据,让它们变得具有价值且能为客户展示。在这一过程中与客户反复商讨需求,更新模型,最终利用数据模型理解、整合,得出最佳解决方案。

2.Data an AnalyticsProuct Manager数据产品经理

管理团队分析师和数据科学家,除了要会一些必备的基础语言如SQL,R,SAS,Python,Java,Matlab和数据挖掘、数据建模等能力,还需要对产品有深刻的理解、熟练应用数据可视化工具,和良好的人际沟通能力。他们的主要职责包括但不限于搭建数据pipeline,做分析,实验场景,评估和实施分析结果,同时要针对结果针对数据逻辑提出需求,解答来自其他部门的问题,设计出更好的产品,留住更多的客户,产生更多的利润。

第三类:统计学家

统计学家顾名思义,需要熟悉统计理论方法,分布式计算,数据库系统,云工具,数据挖掘机器学习等,语言方面需要R, SAS, SPSS, Mtlab, Stata, Python, Perl, Hive, Pig, Spark, SQL

如果此文章对您有所帮助,是对我们最大的鼓励。对此文章以及任何留学相关问题有什么疑问可以点击下侧咨询栏询问专业的留学顾问,愿金吉列留学成为您首选咨询服务机构。
分享到
去主页浏览TA的更多精彩内容 >>
上一篇文章: 闻名于世的澳大利亚货币
下一篇文章: 即将开放!送给赴澳留学生们的16条建议
相关推荐
免费领取留学手册
获取验证码
我已阅读并同意《隐私保护协议》
申请领取
温馨提示
我已阅读并同意《隐私保护协议》
确定
温馨提示
确定