大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01 逆风北极光

加入收藏

1、什么是数据分析

结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。

2、数据分析师工作的核心流程：

（1）界定问题：明确具体问题是什么；

●what 发生了什么（是什么）

●why 为什么会发生这个问题（为什么）

●how 针对这个问题，我们改怎么做？（怎么样）

（2）数据搜集：根据业务问题，确定所需要的的数据维度，进行数据收集；（工具Excel、 sql、 Python/ target=_blank class=infotextkey>Python）

● 我们需要哪些数据；

●这些数据在哪里可以获得；

●这些数据可以通过什么手段获得；

（3）数据清洗：把数据格式、数据（真实性、完整性、准确性）进行加工整理、剔除干扰数据；（工具excel、 sql、 python）

●如果数据存在缺失，应该怎么办？

●如果数据存在错误，应该怎么办？

●如果数据格式不一致，应该怎么办？

（4）数据可视化：把数据转化成图表，直观呈现数据的结构与关系，方便快速发现关系及问题；（工具：Tableau、Python）

（5）数据建模：利用数据之间的规律建模，评估和预测结果及判断未来趋势；（工具：python）

3、个人学习问题：

（1）问题：界定问题，这一环节，比较依靠案例实际经验。不同的项目，虽然都是分析是什么，为什么，怎么样？这3个角度。但是具体细化的维度不好选取，因为每个人的知识储备、个人经历不一样，则对同一问题的理解就会有差别，那么界定的最终问题结论就会不一样。

（2）建议的解决方案：肯定是不同类别的项目分析3个案例——归纳总结（了解在同类项目中应该选取哪些参考的维度进行分析）。但是这个短期不好提升，是一个长期的知识积累、阅历思考的过程，不断优化改进。

4、数据分析工具：

（1）Excel；

（2）SQL是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；

（3）Python；

5、数据分析工具之间的优势比较

5.1、SQL VS excel优势比较

（1）SQL处理大量数据，效率更高；

（2）SQL处理复杂问题，优势更明显；eg：合并多个不同文件中的数据；

5.2、SQL VS python比较

SQL主要用于超大数据的查询并导出数据；而Python和R主要用于超大数据的导出数据后的分析整理。

6、SQL常用语句

（1）select from 可以在表中查询特定字段的数据

示例：Select 字段名 from 数据表 limit 行数；

（2）order by 可以对某个字段进行排序

示例：Select 字段名 from 数据表 order by 字段名；

（3）limit 可以限制显示多少行数据——放程序最后

示例：select 字段名 from 数据表 limit 行数；

（4）group by 可以进行字段分组；（一般会和sum一起使用）

示例1：select 要分组的字段,sum （要统计的字段） as 给统计出的数据起的字段名

Group by 要分组的字段

示例2：select

reg_channel, （注意求和程序前面是要加,号的）

sum(pushed) as total_pushed, （注意求和字段名是要加（）的）

sum(viewed) as total_viewed,

sum(checked) as total_checked,

sum(used) as total_used （注意最后一个sum是没有,号的）

from pdd_data

group by reg_channel;

7、python基础知识介绍

7.1、python数据分析功能

（1）可以快速找到网页上的重要信息；爬虫

7.2、python编程语言的基础知识

（1）怎么让机器说话？print()

（2）基期能理解什么？（最常见的3中数据类型，字符串，整数，浮点数）

（3）怎么把你想要的东西存起来。（赋值=）

7.3、print()函数 ——结果输出

（1）可以输入数字、文字、符号；

（2）多个数据组用,隔开；

（3）文本用单引号’’引用；

（3）示例：print("我爱学习","校招商业分析",”666”)

7.4、3种最常见的字符串

（1）字符串（str）——文本数据类型，文本中已有单引号，外面就用双引号引用。示例：print("Let's Go!")

（2）整数（int）

（3）浮点数（float）

7.5、通过=赋值，可以赋值一切变量，中文、英文、符号、数字、表格等

示例：

7.6、python常用数据分析工具包

（1）Matplotlip——自助（可以组合、高度定制化，支持配色）

（2）Seaborn——套餐（固定模板）

7.7、实战演示

（1）准备资料——库（python自带的工具包）数据

①调包

import pandas as pd

import seaborn as sns

%matplotlib inline

②读取数据

pdd=pd.read_csv('pdd_data.csv')

（2）处理数据

①查看数据基本情况：来哦接数据基本情况，看是否有需要加工处理的地方eg：空值、非数字数据等

pdd.info()

②把非数字型变量变成数字型变量

pdd=pd.get_dummies(pdd)

pdd.info()

（3）数据可视化

Eg：不同的项目考虑的指标可能也会不同

示例：

①计算相关性

pdd.corr()[['gmv']]      注意：是两个方括号

②绘制热力图

sns.heatmap(pdd.corr()[['gmv']])

8、数据分析书籍推荐

8.1、sql学习书籍推荐：

《SQL必知必会》《深度学习》

8.2、python学习书籍推荐

8.2.1、数据分析理论：

（1）、机器学习——吴恩达的Coursera机器学习课——入门级

——吴恩达的斯坦福大学的公开课——进阶级

说明：虽然吴恩达的机器学习书籍网络上依旧有部分人吐槽，说数学知识涉及太少，谈不上真正的数据分析，但是纵观全网公开免费的大多数数据分析书籍或课程来说，他的机器学习，应该算是相对而言比较通俗易懂的，适合小白，适合零基础，毕竟对数学的知识要求较为基础。

8.2.2、统计学：

（1）周志华的机器学习（俗称，西瓜书）；

（2）李航的统计学习方法。

写在文末：野蛮生长，向善而生，积跬步，至千里。我是“逆风北极光”，公众号同名。追光者，照亮前行的路，期待与您共同成长，谱写自己的美好青春。