数据清洗
目的:让数据更真实可靠
+ 缺失值
+ 重复值
+ 异常值处理
+ 数据格式转换
数据预处理
目的:让数据更容易分析,更适配建模要求
+ 数据标准化
最终数据:均值为0,标准差为1
+ 数据归一化
最终数据:压缩至 [0, 1]
+ 分类变量编码
目的:将文本转化为数值,满足算法的输入需求
+ 独热编码
+ 标签编码
+ 目标编码
+ 频率编码
+ ...
+ 特征构造与衍生
目的利用特征工程,从原始数据中挖掘出更多有价值的信息。比如,利用现有信息(身高,体重),通过数学公式创造出更有意义的变量(bmi)
+ 组合特征
+ 时间特征
+ 统计特征
+ 数据降维
目的:压缩信息,提高运算效率,避免数据冗余
+ 数据平衡
目的:避免模型偏向多数类
评论