数据分析基本流程

确定问题

获取数据

数据清洗和预处理

填充缺失值
处理异常值
构造衍生特征

探索性数据分析

简称EDA,是“数据处理”与“建模分析”的过渡阶段。

目的:充分理解数据,发现数据中潜在的规律和问题。

常用:
描述性统计(均值,方差...)
groupby 与聚合
可视化


建模

模型的作用:解读数据 -> 预测 -> 决策

两个简单的模型:线性回归,逻辑回归

数据拆分成训练集,测试集(还可以再分为验证集),是为了防止过拟合,提高数据的泛化能力。



结果分析与业务报告

转化成业务可执行方案

评论