18.09.10 课程建设进展报告

1. 设计思路

1.1 数据科学工作流程

数据科学工作流程

(修改自 Harvard CS109 - Lecture 1)

1.2 数据分析的四个阶段

第一阶段 描述性统计

对历史数据进行统计分析,描述过去发生了什么。

第二阶段 统计推断

对历史数据进行数据挖掘,发现过去发生的原因。

第三阶段 预测性分析

结合规则、机器学习以及实时外界数据,能够对未来进行实时预测,实时动态分析一个事件发生的概率。例如交通流量预测、客户流失预测、用户画像。

第四阶段 最优决策

在第三阶段预测性分析的基础上,结合收益分析、风险分析给出最优决策,这一阶段的分析需要基于实时数据流做出动态预测决策,根据外界数据变化持续调整自动化决策以达到最优效益。例如推荐系统,客户挽留。

(截取自 数据科学与数据挖掘的区别

1.3 其他课程的安排情况

1.3.1 CMU Practical Data Science

话题 课时 话题 课时 话题 课时 话题 课时
介绍和Jupyter 2 机器学习介绍+线性回归 2 推荐系统 1 概率模型 1
设计数据 2 线性分类 1 异常检测 1 Debugging数据科学 1
数据探索 1 非线性模型+模型评估 2 时间序列 1 数据科学过程 1
线性代数 1 朴素贝叶斯 1 决策树 1 数据科学的未来 1
图论 1 假设检验 1 深度学习 1
NLP 1 聚类和降维 1 大数据 1

特征

  1. 知识点非常多
  2. 大部分时间在讲机器学习
  3. 网上的热门课程
  4. 有教学讲义和视频

1.3.2 Harvard CS109 Data Science I

话题 课时 话题 课时 话题 课时
介绍 1 主成分分析 1 伦理和思考 1
设计数据和Python基础 2 交流可视化 1 Storytelling 1
数据可视化 1 逻辑回归 2 回归树和随机森林 1
回归分析和模型评估 2 数据缺失 1 集成学习 2
模型选择 1 LDA QDA 1 SVM 2
正则化 1 决策树 1 试验设计 1

特征

  1. 机器学习讲得很多
  2. 课程有统计课要求
  3. 话题的分布较乱

1.3.3 Berkeley DS100 Principles and Techniques of Data Science

话题 课时 话题 课时 话题 课时
课程总览 1 建模和评估 2 假设检验 2
Python基础和数据 4 概率论基础 1 大数据 1
探索性数据分析 3 线性回归和特征工程 1 数据科学中的伦理 1
网络技术 1 模型选择 1 试验设计和AB测试 1
文本处理 1 分类和逻辑回归 2
数据库 2 参数估计 1

特征

  1. 有完整的在线教材
  2. 从模型开始难度大,各种数学公式
  3. 话题安排逻辑比较清晰

1.3.4 Microsoft Introduction to Data Science

话题 课时 话题 课时 话题 课时 话题 课时
数据入门 数据分析基础 统计入门 机器学习基础
排序和过滤 1 数据聚合 1 集中趋势 1 介绍 1
派生数据 1 数据分组和总结 1 方差 1 回归 1
高亮数据 1 数据可视化 1 分布 1 分类 1
Excel入门 1 Excel分析数据 1 相关性 1 聚类 1
探索数据 1 假设检验 1

特征

  1. 话题分类清晰
  2. 讲得不是很深,课程长度也较短

1.3.5 课程情况汇总

  • 有些课程主要讲机器学习 如 CMU 和 Harvard CS109
  • 有些课程讲了很多Python基础知识 如 Berkeley Data8 和 UCSD DSC10
  • 网上的课程一般分类比较清晰 按照 数据->探索数据->机器学习
  • 概率统计大都讲得不多,一般一两节课讲基础。当然也有课程有统计课程的前提要求
  • 总得来说还是讲到了 三个方面的内容:数据科学介绍、数据处理和数据分析,其中数据分析可以讲的内容很多,也是各个课程的主要差异所在。

1.4 总结

1.4.1 一级目录的设计

数据分析 可以包括:探索性数据分析描述性统计统计推断机器学习最优模型

探索描述统计+统计推断 ==> 统计分析

建模预测分析+最优决策 ==> 预测分析

1.4.2 二级目录的设计

(1)对收集的课程的话题点进行了汇总,选择了一些比较热门的话题。

(2)结合陈老师之前的统计课的目录

(3)和何老师讨论了机器学习需要讲的内容

2. 当前的目录设计

目录

3. 资源建设

资源列表

资源文件 托管在Github

Features

  • 关键词搜索资源(类型、名称、资源涉及的知识点)
  • 根据设计的目录过滤资源,选择目录后可过滤标签
  • 根据资源的提供方过滤资源
  • 根据资源类型过滤资源
  • 可点击资源的知识点标签过滤资源

4. 之后的工作

4.1 现在要做的事

  • 一级目录的设计是否存在问题(分类和课时分配)
  • 知识点(三级目录)的确定
  • 二级目录的增删改

4.2 我正在做的事

  • 实验内容的资料收集和设计
  • 补充资源描述和增加资源
  • 完善目录中的描述
  • and ?