确定问题
获取数据
数据清洗和预处理
填充缺失值
处理异常值
构造衍生特征
探索性数据分析
简称EDA,是“数据处理”与“建模分析”的过渡阶段。
目的:充分理解数据,发现数据中潜在的规律和问题。
常用:
描述性统计(均值,方差...)
groupby 与聚合
可视化
建模
模型的作用:解读数据 -> 预测 -> 决策
两个简单的模型:线性回归,逻辑回归
数据拆分成训练集,测试集(还可以再分为验证集),是为了防止过拟合,提高数据的泛化能力。
结果分析与业务报告
转化成业务可执行方案
评论