18.09.10 会议记录
两个角度
1. 数据分类
什么叫数据?数据、信息和知识的定义和之间的关系。
不同的数据类型(如文本、图像和代码)需要使用不同的方法来表征和处理。
体现出方法对数据的适应性和不适应性=>不适应该怎么办?
比如对代码采用自由文本的方式进行处理和分析可能会丢失许多信息。
2. 工程方法
从工程的角度上度量和清洗数据
工程和数据质量:六个维度不够用?
工程上模型的适用性和不适用性,通用意味着损失信息
工程上的挑战:规模和成本控制
工程下的数据科学
如何应对未知数据?
从发展历史来看新技术新方法出现的逻辑和原因。
用现在的技术为什么不行,出现了什么问题?该如何从现在技术无法处理的信息中获取知识?
为什么要有数据科学?
数据科学从哪些学科和领域发展而来?
本课程的理想目标
数学+工程
工具无关