十分钟掌握数据分析及可视化基本操作

2020-08-17

为了更好地掌握数据科学必备库Pandas的基本使用，本文通过精灵宝可梦的数据集实战，我们一起过一遍Pandas的基本操作，文中的代码都附有注释，并给出了结果的配图。

话不多说，我们开始吧！

导入pandas库，并读取csv文件

import pandas as pd
df=pd.read_csv('pokemon/Pokemon.csv')

查看DataFrame信息

df.info()        # 数据类型，内存消耗等信息
df.describe()    # 统计特征，均值方差等

查看DataFrame的前几行以及后几行

pd.head(n=5)  # 可以添加参数n，表示显示几行
pd.tail()

显示行列信息

df.index    # 列索引
df.columns  # 行索引
df.values   # array对象
df.dtypes   # 列元素属性

删除行列

df.drop(['#'],axis=1,inplace=True)
# 删除‘#’列数据，在原DataFrame上改变
df.drop([1,2,3],axis=0)
# 删除行索引为1、2、3的行，不在原DataFrame上改变

修改列名(两种方法将‘Type 1’以及‘Type 2’中间的空格去掉)

df.rename(columns={'Type 1':'Type1','Type 2':'Type2'})
df.columns=df.columns.str.replace(' ','')

数据观察

df['Defense'].mean()     # 所有宝可梦Defense的均值
df['Attack'].argmax()    # Attack最高的行索引
df['Sp.Atk'].idxmax()    # Sp.Atk最高的行索引
df.sort_values('HP',ascending=False).head(3)
# HP最多的前三条数据
df['Type1'].unique()     # Type1一共有哪些种类
df['Type1'].nunique()    # Type1一共有几种
df['Type2'].value_counts()
# Type2每种共有多少条

检测空值

df.isnull().sum().sort_values(ascending=False)
# 将空值判断进行汇总，按从高到低排序

空值填充

df['Type2'].fillna(value="Unknown",inplace=True)
# 将所有空缺值填为Unknown
df['Type2'].fillna(df['Type1'], inplace=True)
# 将所有Type2空缺值填为其对应Type1的值

删除空值

df.dropna(how='any')
# 去除所有包含空值的行

去重

df.drop_duplicates(['Type1'],keep='first')
# 去除相同的Type1的数据，仅保留第一个

数据条件查询

df[df['Name']=='Squirtle']
# 查看杰尼龟的数据
df[df['Type1'].isin(['Fire'])]
# 查看所有Type1为Fire的数据
df[(df['Generation']==1)&(df['Attack’]>=100)]
# 查看Generation为1并且攻击力大于100的宝可梦

数据访问方式(单行索引)

df.loc[3]   # 访问行索引为3的数据
df.iloc[3]  # 访问第4行数据，两行代码结果相同

数据访问方式(区域索引，先行后列)

df.iloc[:5,:2]    # 数据前5行前两列，按位置索引

df.loc[10:15,['Generation','Attack','Sp.Atk']]
# 数据行标签10-15，列标签Generation,Attack和Sp.Atk，按标签索引
df.loc[[10,11,12,13,14,15],['Generation','Attack','Sp.Atk']]
# 与上述写法结果相同

df.loc[(df['Legendary']==True)|(df['Type1']=='Grass')]
# Legendary为真或者Type1为Grass的数据

参考资料：Pandas官方文档

接下来我们主要涉及seaborn以及matplotlib两个可视化库。

上半篇我们主要使用matplotlib来进行柱状图、散点图、饼图折线图等的绘制，下半篇主要使用seaborn来进行箱线图、小提琴图、分簇散点图、热力图等的绘制。本文是下半篇，上半篇链接在这里。

箱线图

箱线图可以提供数据位置及其分散情况的关键信息，主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。

如上图所示，箱线图主要包含几个关键的数据，上、下四方位数，中位数，上、下边缘以及异常值。简单来说，上四分位数表示全部数据中有四分之一的数据大于它，异常值表示远离上或下四分位数。

我们来用箱线图观察一下宝可梦的各项属性的分散情况。

df2=df.drop(['Generation','Total','Legendary'],axis=1)
sns.boxplot(data=df2)
plt.show()

可以看到每种属性都有异常值，远超于普通宝可梦，其中血量值的异常值数量最多。

接着我们来看不同的代目的各种属性的分布特征，共用同一个Y轴，同时绘制四张子图。

fig,axes=plt.subplots(1,4,sharey=True)
sns.boxplot(x="Generation",y="Attack",data=df,ax=axes[0])
sns.boxplot(x="Generation",y="Sp.Atk",data=df,ax=axes[1])
sns.boxplot(x="Generation",y="Defense",data=df,ax=axes[2])
sns.boxplot(x="Generation",y="Sp.Def",data=df,ax=axes[3])
fig.set_size_inches(20,7)

总体来看，五代目宝可梦的攻击力水平要高于其他代目，二代目宝可梦的特殊攻击水平要低于其他代目。

我们还可以用箱线图来观察不同类型的宝可梦对其防御数值的影响，结果显而易见，钢铁类型的宝可梦拥有最为卓越的防御属性。

plt.subplots(figsize=(20,5))
plt.title('Defence by Type 1')
sns.boxplot(x='Type1',y='Defense',data=df2)
plt.ylim(0,240)  # 设置y轴的范围
plt.show()

另外我们还可以在boxplot中添加参数hue，分门别类地进行箱线图绘制，这里根据是否为神兽来做区分，显然神兽的防御属性远超非神兽。

小提琴图

小提琴图结合了箱线图与核密度估计图的特点，它表征了在一个或多个分类变量情况下，连续变量数据的分布并进行了比较，它是一种观察多个数据分布有效方法。

这里我们绘制不同类型的宝可梦的攻击力值小提琴图。

plt.title('Attack by Type1')
sns.violinplot(x="Type1", y ="Attack",data=df2)
plt.ylim(0,200)
plt.show()

小提琴图中宽度较厚的部分表示具有较高密度点的区域，而较薄的部分则表示低密度点的区域。我们可以清楚地看到有一部分电系宝可梦的攻击力在60左右，小提琴图有明显的膨胀部分；而岩石系的宝可梦的攻击力分布较为平均，小提琴图呈长窄形状。

我们对不同代目的宝可梦绘制了总属性值的小提琴图，并且将是否为神兽区分开来。

plt.title('Strongest Generation')
sns.violinplot(x="Generation",y="Total",data=df,hue="Legendary",split=True)
plt.show()

根据小提琴图我们似乎可以得出一代目的神兽实力最为强劲，三代目的非神兽实力则更优。

热力图

这里采用热力图来可视化数据各列之间的相关性。可以看到特殊攻击、攻击和特殊防御的数值与是否为神兽的相关性较高，而代目与其他数据的相关性较低。

df3=df.drop(['Total'],axis=1)
sns.heatmap(df3.corr(),annot=True)
plt.show()

分簇散点图

分簇散点图可以理解为数据点不重叠的分类散点图，swarmplot函数类似于stripplot函数,但该函数可以对点进行一些调整，使得数据点不重叠。

swarmplot()可以自己实现对数据分类的展现，也可以作为箱线图、小提琴图的一种补充，用来显示所有结果以及基本分布情况。

首先通过melt将宝可梦的各项数据汇到同一列中，即把窄宽的数据拉伸为长瘦型，将宝可梦的各项数值按照类型以分簇散点图的形式展现出来。

df5=pd.melt(df2, id_vars=["Name", "Type1", "Type2"], var_name="Stat")
sns.swarmplot(x="Stat", y="value", data=df5, hue="Type1",dodge=True)
plt.legend(bbox_to_anchor=(1, 1), loc=2, borderaxespad=0.)
plt.show()

参考资料

Visualizing Pokémon Stats with Seaborn
Seaborn官方文档