对于数据分析的认知
目前的认知就是:处理 excel 表格中的数据,用 python 代码写成脚本来做到高效自动化处理。说白了就是减少重复性工作。
实际上:数据分析应该是从大量的数据中通过分析,提炼出一些实际有效的信息,以辅助我们人类根据数据分析提供的情况作出正确的决策。
数据是表象,而通过表象,我们可以总结出规律。
数据分析的流程
1. 数据获取
来源多种多样,不仅仅是excel,还有json;还有MySQL数据库;甚至还可以通过API Web从网站、系统接口来抓取实时数据。
2. 数据清洗
处理缺失值、异常值、重复值、数据类型转换;数据标准化、归一化;
3. 数据处理和分析
按照某些规则筛选数据;给整个数据分组,并按照自己的需求聚合;计算平均值等指标;特征工程
4. 数据可视化
画图表
5. 数据报告与后续决策
目前能想到利用数据分析可做的事情
模型预测的基础
利用现有数据来分析未来趋势
收获
excel,sql,python 等工具使用的能力
与业务相结合,提升工程思维和解决实际问题的能力
可以与哪些现学知识结合起来:
MySQL数据库:数据分析的大型数据来源
机器学习:预测
python Web:分析数据后可以做网页展示或者内部数据系统
学习目标
加强自身技术栈当然不用说
目前:争取寒假找一份有关数据分析的实习,工作无论多简单都没关系,主要就是感受下工作氛围,明确自己未来到底想要从事哪些方面的工作
入门Kaggle数据竞赛,丰富除编程竞赛外的其他类型竞赛经历
学习流程
1. 掌握numpy,pandas,matplotlib三大数据分析框架。其中:
numpy: 科学计算
pandas: 处理数据
matplotlib: 数据可视化
2. 操纵数据源,包括excel,SQL,API,爬虫等(这部分可以和正在学的python web相结合)
3. 做项目,将数据分析与实际业务相结合;和科研相结合
评论