DATA1001
DATA1001作为一门入门级别的数据科学课程,包含了必要的统计学知识。商科,经济,IT等等学生都需要学过这门课后,才能进一步学习高阶的数据分析课。
内容简介
DATA1001虽然属于ata science范畴,但同时也是Bachelor of Avance Computing的必选科目。作为大一的课程,其主要内容是对从未接触过数据统计学的学生进行大致的引导,对使用R进行数据分析和处理进行入门讲解。
该课程的主要目的是帮助学生发展数据统计思维,并使学生熟悉合理收集、观测、分析数据并得出结论的流程。通过这门课程的学习,学生能够对Data Science方面产生一个系统的理解。
老师简介
学校中这门课程分配的tutor不同,在打分上面也会有所不同。在tutor中,最值得单独详细讲解的一位,名叫Diana Warren。
Diana是一名逻辑思维非常清晰,讲课水准很高,但语速也非常快的lecturer。她对每一个知识点的介绍都很明确,并且在slies上做的总结也能让没去lecture的同学能够比较轻松地理解。这位Lecturer同时兼任Tutor,如果运气好的话分到她的班里,她差不多是给分最松的一位tutor,正常情况下一个project基本在85%以上。同时,由于她本身是final的出题人,在上课的时候可以多问她一些重点,她本人也会偶尔透露一些final可能出现的相对重要的知识点。
Assessment内容
Quiz (10%):
Online rquiz,通常为开卷,对给出的题目通过r进行分析处理最后得出结果。难度通常不高,大多数问题是给出一小段代码然后询问这段代码执行后会发生什么。遇到不会的问题可以直接谷歌或者在rstuio上面跑一下,很好拿分。同时也有少量的与课程概念相关的内容,难度较低,只要每周跟着lecture和lab走基本都可以拿分。
Project 1 (0%):
Group project (可单人)或iniviual project(疫情影响无法在学校面对面组队,否则按照课程设计以下所有的project是group project),project内容是寻找一个ataset或课程给出一个ataset,根据ataset提出有意义的statistical questions并进行简单的数据清理和数据分析。这些question需要围绕着moule 1学习的主题提出。往期课程中,这里会有一个以组为单位进行5分钟的presentation。由于疫情影响无法到校,presentation大概会被取消(如果可以返校的话,presentation应该会恢复正常)。
Project 2 (15%):
Group project (可单人,可换组,由于疫情影响大概率会是iniviual project),project开始之前会对所有学习DATA1001的学生开放survey,survey并非强制参加,但最终project使用的ataset来自于这个survey的结果。根据这个ataset,提出有意义的statistical questions并进行简单的数据清理和分析,最终得出答案。Question需要围绕moule 2的学习内容提出(linear moel)。如果能够返校,project assessment内容大概还会包括5分钟的presentation。
Project 3 (15%):
Group project (可单人,可换组,由于疫情影响大概率会是iniviual project),最后的project会由学校提供一个ataset。根据这个ataset,提出有意义的statistical questions并进行简单的数据清理和分析。Question需要围绕moule 3或moule 4和先前所学的内容综合提出(hypothesis testing)。同时,以组为单位进行5分钟的presentation。
Final Exam (60%):
关于整个课程的考核。课程一共包括四个moule,分别为exploring ata、moelling ata、sampling ata以及ecision with ata,final出题的范围相对来说比较平均。对于大部分学生来说,前两个moule的难度相对较低,pass到creit的题目基本都在这两个模块当中,后两个模块的出题模式大多为简答题,通常是给出一组数据或事例,要求学生根据数据对某些问题进行分析。对于这门课程来说,掌握对数据进行总结分析的能力是必要的。根据给出的可视化数据,需要懂得如何判断它对应的模型,计算相关的模型数据,并根据要求代入新的数据对未知结果进行预测。或者根据给出的数据,判断某个数据假设是否成立。对于这门课程来说,只要你掌握了对应问题的答题“公式”,大多数题目都能迎刃而解,因而final的难度通常不大。然而今年由于疫情影响,final的题量可能会有所提升。
老师分析
作为大一第一学期的入门课程,DATA1001本身的概念理解起来难度并不是很大,而且有很多内容是学生在高中就接触过的数学知识。只是该课程覆盖范围较广泛,需要掌握的知识虽然并不深入,但难点在于记忆量较大,因此理论难度给出4/5。
而对于作业难度来说,对于给出的数据的分析本身难度并不大,只要你制作出一张清晰的可视化数据图,基本就能够轻松地从图像上获得想要的信息。而作业的难点主要难点在于对R语言的运用,对于没有接触过计算机编程的同学来说,这门语言在一开始会显得非常复杂。这个时候不要因为它的复杂度和令人费解的报错信息而退却,学会运用谷歌,StackOverflow可以帮助你解决很多入门的r语言问题。同时,这门课程只要掌握了部分常用的函数就能够保证轻松完成三个project,因此平时的lab不要缺席也不要划水,遇到问题就向善良的tutor们提问,r语言一旦入门,用起来还是很便捷的。
通常情况下,该课程final考试难度相对简单,大多是lecture上面的知识点以及简单的计算内容,同时也会包含一些理论分析题。然而由于疫情影响,如果始终无法返校,final以canvas quiz形式进行的话题量和难度可能会有所提升。以防万一,建议final复习之前用textbook上面给出的例题进行复习,对于学校给出的sample exam,写的时候推荐大家按照exam moe进行计时。对于大多数科目来说,刷题是提高答题效率最直接的方法。
总言之,该门科目是一项入门课程,知识点的难度并不是非常大,但也有需要注意的问题。在学习过程中,绝对不要因为入门简单就不听lecture,全都挤到考前最后一周恶补。课程中间穿插的概念有一些甚至会延伸到大二大三,突击复习很难在短短一周把所有内容吃透。这门课程主要需求是把概念弄熟,不要害怕写代码,R coe都是练出来的。
本身R语言并不是特别难,而且这门课需要掌握的基本只有几个常见操作,了解基础工作原理和简单的函数就能保证完成project和rquiz。当然,想要拿高分还是要下一点功夫的。对于project,如果开学可以返校,强烈建议与看起来靠谱的老外组队,尽量不要一组大量中国人抱团,presentation还是本地人有巨大优势,而且project不仅仅只写代码,还要有良好的语言组织能力对分析数据得出的结论进行评价和总结。
更多资讯,欢迎与我联系~