18.09.10 课程建设进展报告
1. 设计思路
1.1 数据科学工作流程
(修改自 Harvard CS109 - Lecture 1)
1.2 数据分析的四个阶段
第一阶段 描述性统计
对历史数据进行统计分析,描述过去发生了什么。
第二阶段 统计推断
对历史数据进行数据挖掘,发现过去发生的原因。
第三阶段 预测性分析
结合规则、机器学习以及实时外界数据,能够对未来进行实时预测,实时动态分析一个事件发生的概率。例如交通流量预测、客户流失预测、用户画像。
第四阶段 最优决策
在第三阶段预测性分析的基础上,结合收益分析、风险分析给出最优决策,这一阶段的分析需要基于实时数据流做出动态预测决策,根据外界数据变化持续调整自动化决策以达到最优效益。例如推荐系统,客户挽留。
(截取自 数据科学与数据挖掘的区别)
1.3 其他课程的安排情况
1.3.1 CMU Practical Data Science
话题 | 课时 | 话题 | 课时 | 话题 | 课时 | 话题 | 课时 |
---|---|---|---|---|---|---|---|
介绍和Jupyter | 2 | 机器学习介绍+线性回归 | 2 | 推荐系统 | 1 | 概率模型 | 1 |
设计数据 | 2 | 线性分类 | 1 | 异常检测 | 1 | Debugging数据科学 | 1 |
数据探索 | 1 | 非线性模型+模型评估 | 2 | 时间序列 | 1 | 数据科学过程 | 1 |
线性代数 | 1 | 朴素贝叶斯 | 1 | 决策树 | 1 | 数据科学的未来 | 1 |
图论 | 1 | 假设检验 | 1 | 深度学习 | 1 | ||
NLP | 1 | 聚类和降维 | 1 | 大数据 | 1 |
特征
- 知识点非常多
- 大部分时间在讲机器学习
- 网上的热门课程
- 有教学讲义和视频
1.3.2 Harvard CS109 Data Science I
话题 | 课时 | 话题 | 课时 | 话题 | 课时 |
---|---|---|---|---|---|
介绍 | 1 | 主成分分析 | 1 | 伦理和思考 | 1 |
设计数据和Python基础 | 2 | 交流可视化 | 1 | Storytelling | 1 |
数据可视化 | 1 | 逻辑回归 | 2 | 回归树和随机森林 | 1 |
回归分析和模型评估 | 2 | 数据缺失 | 1 | 集成学习 | 2 |
模型选择 | 1 | LDA QDA | 1 | SVM | 2 |
正则化 | 1 | 决策树 | 1 | 试验设计 | 1 |
特征
- 机器学习讲得很多
- 课程有统计课要求
- 话题的分布较乱
1.3.3 Berkeley DS100 Principles and Techniques of Data Science
话题 | 课时 | 话题 | 课时 | 话题 | 课时 |
---|---|---|---|---|---|
课程总览 | 1 | 建模和评估 | 2 | 假设检验 | 2 |
Python基础和数据 | 4 | 概率论基础 | 1 | 大数据 | 1 |
探索性数据分析 | 3 | 线性回归和特征工程 | 1 | 数据科学中的伦理 | 1 |
网络技术 | 1 | 模型选择 | 1 | 试验设计和AB测试 | 1 |
文本处理 | 1 | 分类和逻辑回归 | 2 | ||
数据库 | 2 | 参数估计 | 1 |
特征
- 有完整的在线教材
- 从模型开始难度大,各种数学公式
- 话题安排逻辑比较清晰
1.3.4 Microsoft Introduction to Data Science
话题 | 课时 | 话题 | 课时 | 话题 | 课时 | 话题 | 课时 |
---|---|---|---|---|---|---|---|
数据入门 | 数据分析基础 | 统计入门 | 机器学习基础 | ||||
排序和过滤 | 1 | 数据聚合 | 1 | 集中趋势 | 1 | 介绍 | 1 |
派生数据 | 1 | 数据分组和总结 | 1 | 方差 | 1 | 回归 | 1 |
高亮数据 | 1 | 数据可视化 | 1 | 分布 | 1 | 分类 | 1 |
Excel入门 | 1 | Excel分析数据 | 1 | 相关性 | 1 | 聚类 | 1 |
探索数据 | 1 | 假设检验 | 1 |
特征
- 话题分类清晰
- 讲得不是很深,课程长度也较短
1.3.5 课程情况汇总
- 有些课程主要讲机器学习 如 CMU 和 Harvard CS109
- 有些课程讲了很多Python基础知识 如 Berkeley Data8 和 UCSD DSC10
- 网上的课程一般分类比较清晰 按照 数据->探索数据->机器学习
- 概率统计大都讲得不多,一般一两节课讲基础。当然也有课程有统计课程的前提要求
- 总得来说还是讲到了 三个方面的内容:数据科学介绍、数据处理和数据分析,其中数据分析可以讲的内容很多,也是各个课程的主要差异所在。
1.4 总结
1.4.1 一级目录的设计
数据分析
可以包括:探索性数据分析
、描述性统计
、统计推断
、机器学习
、最优模型
探索
和 描述统计+统计推断
==> 统计分析
建模
和 预测分析+最优决策
==> 预测分析
1.4.2 二级目录的设计
(1)对收集的课程的话题点进行了汇总,选择了一些比较热门的话题。
(2)结合陈老师之前的统计课的目录
(3)和何老师讨论了机器学习需要讲的内容
2. 当前的目录设计
3. 资源建设
资源文件 托管在Github
Features
- 关键词搜索资源(类型、名称、资源涉及的知识点)
- 根据设计的目录过滤资源,选择目录后可过滤标签
- 根据资源的提供方过滤资源
- 根据资源类型过滤资源
- 可点击资源的知识点标签过滤资源
4. 之后的工作
4.1 现在要做的事
- 一级目录的设计是否存在问题(分类和课时分配)
- 知识点(三级目录)的确定
- 二级目录的增删改
4.2 我正在做的事
- 实验内容的资料收集和设计
- 补充资源描述和增加资源
- 完善目录中的描述
- and ?