Python类库pandas

2023-05-28 风趣运维工程狮

pandas是Python/ target=_blank class=infotextkey>Python中的一个数据分析库，它提供了各种用于数据操作和数据分析的函数和数据结构。Pandas是专门为处理表格和混杂数据设计的，非常适合于清洗、整理和处理数据。他的主要功能包括：

数据读取：支持多种格式的文件读取，如csv、Excel、dbf、html、json等。
数据结构：Pandas提供了两种主要的数据结构——Series和DataFrame。
数据清洗：支持数据筛选，缺失数据、重复数据处理，数据类型转换等。
数据合并：可以根据某一列的值把两个DataFrame合并成一个DataFrame
数据分组：可以按照指定的列将数据分组，对每一组数据进行聚合运算。

下面是pandas的20个常用示例：

读取csv文件

import pandas as pd

df = pd.read_csv('path/to/file.csv')

读取Excel文件

import pandas as pd

df = pd.read_excel('path/to/file.xlsx')

读取JSON文件

import pandas as pd

df = pd.read_json('path/to/file.json')

数据清洗：筛选行

df_new = df[df['column_name'] == 'column_value']

数据清洗：筛选列

df_new = df[['column_name1', 'column_name2']]

数据清洗：去除重复项

df_new = df.drop_duplicates()

数据清洗：替换缺失值

df_new = df.fillna('missing')

数据清洗：数据类型转换

df_new['column_name'] = df_new['column_name'].astype('int64')

数据合并：内连接

df_new = pd.merge(df1, df2, on='column_name', how='inner')

数据合并：左连接

df_new = pd.merge(df1, df2, on='column_name', how='left')

数据合并：右连接

df_new = pd.merge(df1, df2, on='column_name', how='right')

数据分组：按列进行分组

grouped = df.groupby('column_name')

数据分组：添加聚合运算

grouped = df.groupby('column_name')['column_name1'].sum()

数据分组：添加多个聚合运算

grouped = df.groupby('column_name').agg({'column_name1': 'mean', 'column_name2': 'max'})

数据透视表：创建透视表

pivot = pd.pivot_table(df, values='value', index='index_column', columns='column_name')

数据透视表：计算透视表

pivot = pd.pivot_table(df, values='value', index='index_column', columns='column_name', aggfunc='mean')

排序：按照某一列排序

df_new = df.sort_values('column_name', ascending=False)

统计：计算平均数、标准差、最小值、最大值、中位数、四分位数等

mean = df['column_name'].mean()
std = df['column_name'].std()
min_value = df['column_name'].min()
max_value = df['column_name'].max()
median = df['column_name'].median()
q1 = df['column_name'].quantile(0.25)
q3 = df['column_name'].quantile(0.75)

列重命名

df_new = df.rename(columns={'old_column_name': 'new_column_name'})

列删除

df_new = df.drop(['column_name'], axis=1)

注意事项：

pandas常用于处理较大的数据集，需要充分利用其提供的向量化操作以及其他高效的操作方式。
在进行数据清洗时，需要特别注意缺失值、异常值、重复值、数据类型等问题，否则会影响后续分析结果。
在进行数据合并时，需要注意数据是否有重叠，以及如何决定合并方式（内连接、左连接、右连接等）。
在进行数据分组时，需要注意分组依据是否合理，以及如何进行聚合运算等问题。
在进行排序和统计时，需要注意选取正确的列，并且注意数据分布是否符合假设。