模块
- 生物学、数学和统计学基础 (20学分)
- 基因组学与下一代测序(20学分)
- 数据分析与统计机器学习(20学分)
- 代谢组学和先进(组学)技术 (20学分)
- 复杂系统的计算生物学 (20学分)
- 跨学科生物信息学小组项目 (20学分)
- 个人项目 (60学分)
生物学、数学和统计学基础 (20学分)
本模块将介绍(或复习)支撑现代生物信息学的基本生物学和定量理论。概念将通过一系列核心问题进行介绍,这些核心问题的细节将在后面的模块中更深入地探讨。
定量主题将包括:
- 线性代数:基本矩阵向量运算,最小二乘法
- 概率论:概率规则、条件概率、贝叶斯法则、分布
- 描述性统计:汇总统计、可视化
- 假设检验:Fisher 精确检验、卡方检验、t 检验
- 相关性和因果关系:参数和非参数测量
- R 编程语言中的统计建模简介:线性模型、估计
此外,该模块将介绍生物学、生物化学和生物技术的基本知识,包括细胞、蛋白质、DNA 和基因,以达到您理解必修模块的水平。
该模块包含各种综合学习环境,包括互动讲座以及解释和反馈评估方面的教程。
在本模块结束时,您将能够:
- 了解基本的数学和统计概念,并应用正确的技术来解决基本数据分析问题
- 正确应用数据的图形表示和可视化技术
- 使用计算机编程语言(特别是 R)执行基本的统计数据分析
- 了解细胞生物学和遗传学的基本概念,例如DNA,RNA和蛋白质的作用以及它们与特定生物信息学问题的关系。
- 解决受现实世界生物信息学启发的定量问题,这些问题需要了解基础生物学并应用正确的数学和统计技术
- 展示就业所需的素质和可转移技能,需要行使主动性和个人责任感,在复杂和不可预测的情况下做出决策,以及持续专业发展所需的独立学习能力
基因组学与下一代测序(20学分)
本模块将向您介绍*组学的各个方面:
- 基因组学
- 转录组学
- 甲基化
- 转录因子分析
- RNA结合蛋白分析
- 染色质可及性分析(例如 DNase-seq、ATAC-seq)
- 染色质结构分析(例如 HiC、ChIA-PET)
该模块将包括对技术进步的介绍:
- 历史:通过阵列技术进行 Sanger 测序
- 二代测序
- 用于专业检测的高级文库构建程序,包括 ChIP、DNase、ATAC、HiC、eCLIP 等
本模块还将讨论经典遗传学、群体遗传学和癌症基因组学的特定领域。它将涉及生物学、技术和分析维度,以帮助您使用适当的数据类型设计最佳实验,并使用最新的技术方法进行分析。
在本模块结束时,您应该能够:
- 了解各种*组学领域的生物学解释,特别是基于DNA,RNA和甲基化。
- 了解可用于测量各种类型信息的各种技术,从 Sanger 测序、微阵列、质谱到下一代测序
- 使用命令行和Web界面(如Galaxy)分析现场生成的各种类型的数据
- 整合各种类型的数据,以了解结果的生物学意义
- 处理可用信息的复杂性,以实现不同数据类型的集成
数据分析与统计机器学习(20学分)
该模块的目的是深入了解数据集成、挖掘和分析的最新技术,并在生物学和生物医学中应用。
该模块涵盖与数据相关的主题:
- 数据类型,
- 数据建模,
- 数据管理,
- 语义表示,
- 集成
- 分析
该模块将包括各种统计技术:
- 频率主义和贝叶斯方法,
- 单因素和多因素分析,
- 具体的统计定义。
此外,它还将介绍建模和优化方法,以处理大型结构化但异构的数据集,并将包括多种技术
- 隐马尔可夫模型,
- 自组织地图,
- 引导和重新取样程序,
- 基于智能体的建模,
- 统计机器学习。
该模块还将提供分析、可视化和集成各种类型数据的方法,并包括对几种广泛使用的基于网络的资源(如 OMIM、TCGA、DAVID、REACTOME)的培训
在本模块结束时,您将能够:
- 展示对组学和临床数据的复杂性及其管理(包括其语义表示)的良好理解
- 展示对执行数据集成、挖掘和分析的深入理解和能力
- 展示对计算、算法和编程的概念理解,使学生能够评估方法并对其进行批评,并在适当的情况下提出新方法
- 处理可用信息的复杂性,以实现不同数据类型的集成
- 在处理和解决问题时表现出自我指导和独创性,以执行适当的建模和优化