数据科学与人工智能:基于SQL和Python的数据挖掘、计算与分析研究【大学组】
专业:人工智能,计算机科学
项目类型:全球华人导师-香港
是否可加论文:是
项目周期:6周在线小组科研+5周论文指导
语言:中文
有无剩余名额:名额充足
建议学生年级:大学生
是否必需面试:否
适合专业:计算机科学机器学习计算机工程数据科学数据分析深度学习人工智能数据工程数据结构与算法编程语言数据库和操作系统
建议具备的基础:对数据挖掘、人工智能、机器学习、深度学习、数据库及对相关专业感兴趣的大学生,建议具备Python基础
产出:
6周【在线小组科研+全球就业力大师课】+5周论文指导,共126课时
1500字左右的项目报告
优秀学员获得主导师推荐信(8封网推)
项目结业证书 EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别国际会议全文投递与发表指导或者CNKI检索的英文普刊全文投递与发表指导
项目背景:Hadoop和Spark是当前处理大数据计算问题应用最为广泛的系统及编程框架,具有快速、通用、鲁棒、分布式等特点,支持多种编程语言和数据源,并提供多个可扩展的组件库如机器学习、图处理、流处理等。
项目介绍:本课程将通过大量实例让学生对Hadoop及Spark有充分了解,并能够动手编写程序,为未来面向大数据的科研工作打下良好基础。
项目大纲:
MapReduce and Hadoop:简介大数据处理的挑战和方法、介绍MapReduce编程模型、介绍Hadoop生态系统的基本概念和架构
Spark基础与RDD:介绍Spark的概念和特点、深入研究弹性分布式数据集(RDD)的概念和原理、学习如何使用Spark进行数据处理和转换操作、实践编写基于RDD的Spark应用程序 SparkSQL和MLlib:介绍SparkSQL的基本概念和功能、学习如何使用SparkSQL进行数据查询和分析、探索Spark的机器学习库(MLlib)的功能和使用方法、实践构建和训练Spark的机器学习模型
大数据系统的算法设计:学习大数据系统中的算法设计方法、探讨分布式算法设计的最佳实践、实践运用算法设计解决实际大数据问题
GraphX/GraphFrames:介绍图数据处理的基本概念和应用场景、学习使用Spark的图处理库GraphX/GraphFrames进行图计算和分析、探索图算法的实现和优化策略、实践构建和分析大规模图数据
如需了解更多内容,请电话咨询。