1.数据分析
1.1 数据分析的过程
提出问题:
提出的问题与数据保持较高的相关性,让问题更加有趣,并且可以引导出有价值的结论。
数据处理:
数据搜集、数据评估、数据清洗(异常值、缺失值、重复值等)
探索数据:
数据可视化等。
得出结论:
算法建模、推断统计、数据预测。
结果报告:
传达结果的方法有多种:报告、幻灯片、博客帖子、电子邮件、演示文稿等。
1.2 数据分析函数库
Numpy
:
是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算。此外也针对数组运算提供大量的数学函数库。运算效率高,是大量机器学习框架的基础库。
Pandas
:
Python的一个数据分析包。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具以及能使我们快速便捷地处理数据的函数和方法。
Matplotlib
:
Python的2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过Matplotlib,开发者可以仅需要几行代码,便可以生成绘图、直方图、功率谱、条形图、错误图、散点图等。
2.过程
2.1 提出问题
需要解决的问题
2.2 数据处理
整理数据的相关性
2.2.1数据收集
公开数据:
UCI, Kaggle, KDDcup, mldata
专业性数据:
银监会、证监会、统计局等
2.2.2 数据评估
缺失?重复
2.2.3 数据清洗
数据整理,高质量
2.3 探索数据
数据(可视化)寻找规律和关键点
2.4 得出结论
算法建模,推断统计,结果预测(准确性反应了模型的优劣)
2.5 结果报告
报告,数据可视化。需求使用