总览
一级目录 | 课时(Lecture) |
---|---|
课程介绍 | 1 |
数据认知 | 3 |
统计分析 | 6 |
预测分析 | 5 |
设计思路
一级目录的设计思路从下面四个方面出发。
数据科学过程
许多文章和课程提到数据科学过程,准确来说应该是构建一个数据科学产品的过程,过程大致如下:
- 提出问题:提出实际问题并转化为数据科学问题
- 准备数据:根据需要准备用于分析的数据
- 探索性数据分析:许多数据难以直接“看出”其特征,无法直接套用模型
- 建立模型:根据数据的“特征”建立并优化模型而解决问题
- 结果展示与交流:结果需要能够以能够被人理解的方式展示
名校的情况
我们调研了美国多所名校数据科学基础课程的情况。多数课程的讲课大致遵循数据科学介绍->数据管理->数据分析->数据科学中的伦理这一顺序。
数据分析
数据科学过程中的第三步和第四步,即探索性数据分析和建模,可以统称为数据分析。而数据分析从数理统计到机器学习可以说的内容很多,这也是各个学校教授内容的主要差异所在。
数据分析可以大致分为四步:
- 描述统计:描述数据以理解数据
- 统计推断:从样本估计总体数据
- 预测性分析:从当前数据预测未来的情况
- 最优决策:部署合适的模型
前两步可以统一为对数据进行分析,目的是建立对数据的直觉,了解数据,从而更好地完成后两步工作,即使用数据进行分析,解决问题。
差异与特色
考虑到该课程是由传统统计课程发展而来,同时机器学习和大数据等数据科学的热门话题之后会有其他课程讲授。因此本门课程着重于统计分析基础,预测性分析中也有一部分是以往统计课程的内容。