<返回更多

Python类库pandas

2023-05-28    风趣运维工程狮
加入收藏

pandas是Python/ target=_blank class=infotextkey>Python中的一个数据分析库,它提供了各种用于数据操作和数据分析的函数和数据结构。Pandas是专门为处理表格和混杂数据设计的,非常适合于清洗、整理和处理数据。他的主要功能包括:

  1. 数据读取:支持多种格式的文件读取,如csv、Excel、dbf、html、json等。
  2. 数据结构:Pandas提供了两种主要的数据结构——Series和DataFrame。
  3. 数据清洗:支持数据筛选,缺失数据、重复数据处理,数据类型转换等。
  4. 数据合并:可以根据某一列的值把两个DataFrame合并成一个DataFrame
  5. 数据分组:可以按照指定的列将数据分组,对每一组数据进行聚合运算。

下面是pandas的20个常用示例:

  1. 读取csv文件
import pandas as pd

df = pd.read_csv('path/to/file.csv')
  1. 读取Excel文件
import pandas as pd

df = pd.read_excel('path/to/file.xlsx')
  1. 读取JSON文件
import pandas as pd

df = pd.read_json('path/to/file.json')
  1. 数据清洗:筛选行
df_new = df[df['column_name'] == 'column_value']
  1. 数据清洗:筛选列
df_new = df[['column_name1', 'column_name2']]
  1. 数据清洗:去除重复项
df_new = df.drop_duplicates()
  1. 数据清洗:替换缺失值
df_new = df.fillna('missing')
  1. 数据清洗:数据类型转换
df_new['column_name'] = df_new['column_name'].astype('int64')
  1. 数据合并:内连接
df_new = pd.merge(df1, df2, on='column_name', how='inner')
  1. 数据合并:左连接
df_new = pd.merge(df1, df2, on='column_name', how='left')
  1. 数据合并:右连接
df_new = pd.merge(df1, df2, on='column_name', how='right')
  1. 数据分组:按列进行分组
grouped = df.groupby('column_name')
  1. 数据分组:添加聚合运算
grouped = df.groupby('column_name')['column_name1'].sum()
  1. 数据分组:添加多个聚合运算
grouped = df.groupby('column_name').agg({'column_name1': 'mean', 'column_name2': 'max'})
  1. 数据透视表:创建透视表
pivot = pd.pivot_table(df, values='value', index='index_column', columns='column_name')
  1. 数据透视表:计算透视表
pivot = pd.pivot_table(df, values='value', index='index_column', columns='column_name', aggfunc='mean')
  1. 排序:按照某一列排序
df_new = df.sort_values('column_name', ascending=False)
  1. 统计:计算平均数、标准差、最小值、最大值、中位数、四分位数等
mean = df['column_name'].mean()
std = df['column_name'].std()
min_value = df['column_name'].min()
max_value = df['column_name'].max()
median = df['column_name'].median()
q1 = df['column_name'].quantile(0.25)
q3 = df['column_name'].quantile(0.75)
  1. 列重命名
df_new = df.rename(columns={'old_column_name': 'new_column_name'})
  1. 列删除
df_new = df.drop(['column_name'], axis=1)

注意事项:

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>