使用 Pandas 进行数据分析_数据分析

pandas是python中一个功能强大且灵活的数据分析库。它提供了数据结构和数据操作工具，使数据清洗、分析和操作变得简单。pandas的核心数据结构是dataframe，它是一个二维的表格数据结构，可以看作是带有行标签和列标签的电子表格。pandas还提供了series数据结构，表示一维的数据。

1. 数据导入

pandas支持从多种数据源导入数据，包括csv、excel、sql数据库、json等。以下是一些常见的数据导入方法：

1.1. 从csv文件导入数据

import pandas as pd

df = pd.read_csv('data.csv')

read_csv函数读取csv文件，并返回一个dataframe对象。可以使用header参数指定行作为列名，使用index_col参数指定某列作为行索引。

1.2. 从excel文件导入数据

df = pd.read_excel('data.xlsx', sheet_name='sheet1')

read_excel函数读取excel文件，可以使用sheet_name参数指定要读取的工作表。

1.3. 从sql数据库导入数据

import sqlite3

conn = sqlite3.connect('database.db')
df = pd.read_sql_query('select * from table_name', conn)

read_sql_query函数执行sql查询，并将结果返回为dataframe。

2. 数据清洗

数据清洗是数据分析的重要步骤，pandas提供了丰富的功能来处理缺失数据、重复数据、数据格式化等问题。

2.1. 处理缺失数据

pandas使用nan表示缺失值，可以使用isnull()和notnull()检查缺失值。

df.isnull().sum()  # 检查每列的缺失值数量

2.1.1. 删除缺失值

df.dropna(inplace=true)

dropna函数删除包含缺失值的行。inplace=true表示在原数据上修改。

2.1.2. 填充缺失值

df.fillna(0, inplace=true)  # 用0填充缺失值
df.fillna(method='ffill', inplace=true)  # 前向填充
df.fillna(method='bfill', inplace=true)  # 后向填充

fillna函数用指定的值或方法填充缺失值。

2.2. 处理重复数据

df.drop_duplicates(inplace=true)

drop_duplicates函数删除重复行。

2.3. 数据格式化

可以使用astype()函数转换数据类型：

df['column'] = df['column'].astype('float')

还可以使用str方法处理字符串数据，如去除空格、大小写转换等。

df['column'] = df['column'].str.strip()

3. 数据操作

pandas提供了丰富的数据操作功能，包括选择、过滤、排序、分组等。

3.1. 数据选择

可以使用标签或位置选择数据。

3.1.1. 选择列

df['column_name']  # 选择单列
df[['col1', 'col2']]  # 选择多列

3.1.2. 选择行

df.loc[0]  # 按标签选择单行
df.iloc[0]  # 按位置选择单行

3.2. 数据过滤

可以根据条件过滤数据：

df[df['column'] > 10]
df[(df['col1'] > 10) & (df['col2'] < 20)]

3.3. 数据排序

可以使用sort_values()函数对数据排序：

df.sort_values(by='column', ascending=false)

3.4. 数据分组

可以使用groupby()函数按指定列分组，然后对分组数据进行聚合操作：

grouped = df.groupby('column')
grouped['another_column'].mean()  # 计算每组的平均值

4. 数据汇总

pandas提供了多种数据汇总方法，包括描述统计、相关性分析、透视表等。

4.1. 描述统计

可以使用describe()函数生成数据的描述性统计信息：

df.describe()

这将返回数据的计数、平均值、标准差、最小值、最大值、四分位数等信息。

4.2. 相关性分析

可以使用corr()函数计算列与列之间的相关性：

df.corr()

4.3. 透视表

透视表类似于excel中的透视表，可以对数据进行汇总和分组：

pd.pivot_table(df, values='value_column', index='index_column', columns='columns_column', aggfunc='mean')

5. 数据可视化

pandas集成了matplotlib库，可以方便地进行数据可视化。

5.1. 绘制图表

可以使用dataframe的plot()方法绘制各种图表：

df['column'].plot(kind='line')  # 折线图
df.plot(kind='bar')  # 柱状图
df.plot(kind='hist')  # 直方图
df.plot(kind='scatter', x='col1', y='col2')  # 散点图

5.2. 自定义图表

可以使用matplotlib的函数进一步定制图表，如添加标题、标签、图例等：

import matplotlib.pyplot as plt

df['column'].plot(kind='line')
plt.title('title')
plt.xlabel('x-axis label')
plt.ylabel('y-axis label')
plt.legend(['legend'])
plt.show()

6. 高级功能

pandas还支持更多高级功能，如时间序列分析、连接和合并数据等。

6.1. 时间序列分析

pandas具有强大的时间序列处理能力。可以将日期字符串转换为日期对象，并进行时间序列操作：

df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=true)
df['column'].resample('m').mean()  # 按月重采样并计算平均值

6.2. 数据连接和合并

pandas提供了merge()、join()和concat()函数，用于合并多个dataframe。

# 左连接
pd.merge(df1, df2, on='key', how='left')

# 连接列
df1.join(df2.set_index('key'), on='key')

# 按行或列合并
pd.concat([df1, df2], axis=0)  # 按行合并
pd.concat([df1, df2], axis=1)  # 按列合并

pandas是python中功能强大的数据分析工具。本文介绍了pandas的基本用法，包括数据导入、数据清洗、数据操作、数据汇总、数据可视化和高级功能。通过掌握这些基本技能，可以有效地处理和分析各种类型的数据。无论是数据科学、金融分析还是一般的数据处理任务，pandas都是一个不可或缺的工具。

使用 Pandas 进行数据分析

2024年08月03日 • 数据分析 •我要评论