初识数据分析

对于数据分析的认知


目前的认知就是:处理 excel 表格中的数据,用 python 代码写成脚本来做到高效自动化处理。说白了就是减少重复性工作。

实际上:数据分析应该是从大量的数据中通过分析,提炼出一些实际有效的信息,以辅助我们人类根据数据分析提供的情况作出正确的决策。

数据是表象,而通过表象,我们可以总结出规律。

数据分析的流程


1. 数据获取

来源多种多样,不仅仅是excel,还有json;还有MySQL数据库;甚至还可以通过API Web从网站、系统接口来抓取实时数据。

2. 数据清洗

处理缺失值、异常值、重复值、数据类型转换;数据标准化、归一化;

3. 数据处理和分析

按照某些规则筛选数据;给整个数据分组,并按照自己的需求聚合;计算平均值等指标;特征工程

4. 数据可视化

画图表

5. 数据报告与后续决策


目前能想到利用数据分析可做的事情


模型预测的基础
利用现有数据来分析未来趋势


收获


excel,sql,python 等工具使用的能力
与业务相结合,提升工程思维和解决实际问题的能力

可以与哪些现学知识结合起来:
MySQL数据库:数据分析的大型数据来源
机器学习:预测
python Web:分析数据后可以做网页展示或者内部数据系统


学习目标


加强自身技术栈当然不用说
目前:争取寒假找一份有关数据分析的实习,工作无论多简单都没关系,主要就是感受下工作氛围,明确自己未来到底想要从事哪些方面的工作
入门Kaggle数据竞赛,丰富除编程竞赛外的其他类型竞赛经历

学习流程


1. 掌握numpy,pandas,matplotlib三大数据分析框架。其中:
numpy: 科学计算
pandas: 处理数据
matplotlib: 数据可视化
2. 操纵数据源,包括excel,SQL,API,爬虫等(这部分可以和正在学的python web相结合)
3. 做项目,将数据分析与实际业务相结合;和科研相结合

评论