一、什么是pandas库
(1)、pandas 应用
pandas 可以从各种文件格式比如 csv、json、sql、excel 导入数据。
pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
pandas 广泛应用在学术、金融、统计学等各个数据分析领域。
(2)、pandas 功能
pandas 是数据分析的利器,它不仅提供了高效、灵活的数据结构,还能帮助你以极低的成本完成复杂的数据操作和分析任务。
pandas 提供了丰富的功能,包括:
- 数据清洗:处理缺失数据、重复数据等。
- 数据转换:改变数据的形状、结构或格式。
- 数据分析:进行统计分析、聚合、分组等。
- 数据可视化:通过整合 matplotlib 和 seaborn 等库,可以进行数据可视化。
(3)、数据结构
pandas 的主要数据结构是 series (一维数据)与 dataframe(二维数据)。
series 是一种类似于一维数组的对象,它由一组数据(各种 numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
dataframe 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。dataframe 既有行索引也有列索引,它可以被看做由 series 组成的字典(共同用一个索引)。
二、安装pandas库
(1)、在终端中运行
pip install pandas
(2)、导入pandas库并重命名为pd
import pandas as pd # 查看pandas版本 print(pd.__version__)
输出: 2.2.3
三、操作教学
1.基础操作
我想存储一些人的信息和对应的数据
import pandas as pd df = pd.dataframe( { "name": ["alice", "bob", "charlie"], "age": [25, 30, 35], "city": ["new york", "los angeles", "chicago"] } ) print(df)
打印的结果:
dataframe是一个二维数据结构,可以存储 不同类型的 (包括字符、整数、浮点值、 分类数据等)。它类似于电子表格,每一行都有自己的列标签和值
2.拿取指定列的数据
print(df['city'])
打印的结果:
3.从头开始创建dataframe
a = pd.series(["黑色", "红色", "白色"], name="color") print(a)
打印的结果:
4.dataframe的统计数据
df = pd.dataframe( { "name": ["alice", "bob", "charlie"], "age": [25, 30, 35], "city": ["new york", "los angeles", "chicago"] } ) print(df.describe())
结果为:
5.分析csv文件中的数据
csv文件内容如下:
table_schema | table_name | engine | version | data_length | create_time |
information_schema | character_sets | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | collations | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | columns | innodb | 10 | 16384 |
|
information_schema | column_privileges | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | engines | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | events | innodb | 10 | 16384 |
|
information_schema | files | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | global_status | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | global_variables | memory | 10 | 0 | 2025/3/10 10:04 |
information_schema | key_column_usage | memory | 10 | 0 | 2025/3/10 10:04 |
只读取数据
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df)
结果为:
只想看前几行的数据
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df.head(8))
结果为:
分析每列的数据类型
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df.dtypes)
结果为:
读取更加详细的数据
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df.info)
结果为:
6.excel表格的操作
与csv同理,读取方法换成read_excel()这个就可以了
import xlrd df = pd.read_excel("c:/users/65742/desktop/tables.xls") print(df)
注意: read_excel()需要依赖xlrd模块,所以需要安装xlrd。
7.选择需要的列
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df['table_name'])
结果为:
需要选择多个列直接使用逗号拼接在中括号里面就ok了
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df[['table_name', 'create_time']])
结果为:
查看返回数据的行数以及列数
df = pd.read_csv("c:/users/65742/desktop/tables.csv") print(df[['table_name']].shape)
结果为:
请注意,返回的数据包括行数和列数
筛选固定条件的数据
above_0 = df[df["data_length"] > 0] print(above_0)
结果为:
如果你想检查数据是否大于某个值:
print(df["data_length"] > 0)
结果为:
查询某个列中的多个值的数据
engine_select = df[df["engine"].isin(['innodb', 'memory'])] print(engine_select)
df[]中放置的是列名,isin中放的是感兴趣的数据
结果为:
组合多个条件查询
new_result = df[(df["engine"] == 'innodb') | (df["table_name"] == 'files')] print(new_result)
结果为:
如果想验证列中的数据是不是空值
create_time_not_na = df[df["create_time"].notna()] print(create_time_not_na)
筛选出所有“create_time”列不为缺失值(nan)的行,并将结果存储在一个新的 dataframe 变量
结果为:
查询某列符合条件的数据,并只取该行的数据某一列
table_names = df.loc[df["data_length"] > 0, "table_name"] print(table_names)
结果为:
查询特定行到特定行,特定列到特定列的数据
# 查询第1到4行,第3到5列的数据 print(df.iloc[0:4, 2:5])
结果为:
切记:
选择数据子集时,使用方括号。[]
在这些括号内,您可以使用单个列/行标签、列表 的列/行标签、标签切片、条件表达式或 一个冒号。
使用行时选择特定行和/或列 和列名称。loc
使用 在表中的位置。iloc
您可以根据 / 为选择分配新值。lociloc
8.增加列
df = pd.read_excel("c:/users/65742/desktop/tables.xls", sheet_name='tables') print(df) df["数据长度"] = df["data_length"]*100 # 增加一列 print(df)
等号前面为你要新增加的列名,后面是原本存在的列名,执行之后会帮我们新建一个列名“数据长度”。
结果为:
且等号后面的数据是可以和其他类的数据运算或者直接运算的
9.修改列名
df = pd.read_excel("c:/users/65742/desktop/tables.xls", sheet_name='tables') print(df) c = df.rename(columns={"table_name": "表名"}) print(c)
columns中键值对里面的key是原表格中的列,value是要替换的列名
结果为:
修改多个列的列名
c = df.rename(columns={"table_name": "表名", "data_length": "数据长度"}) print(c)
结果为:
10.对数据进行分组并计算平均数
f = pd.dataframe({ "name": ["吴昊", '赵括', "李月荣", "吴昊", "李月荣"], "age": [28, 32, 35, 30, 36], "gender": ["男", "女", "男", "男", "女"], "score": [92, 85, 98, 88, 95] }) print(f[["name","age","score"]].groupby("name").mean())
结果为:
到此这篇关于python pandas库自学超详细教程的文章就介绍到这了,更多相关python pandas库内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论