Pandas中DataFrame中的nan值处理_Python

1. 方法简介

1.1 dataframe.dropna()

dataframe.dropna()方法的作用：是删除含用空值或缺失值得行或列。
语法为：dropna（axis=0，how=‘any’，thresh=none，subset=none，inplace=false）
参数：

axis:确定过滤的行或列，取值可以为
(1) 0或index：删除包含缺失值的行，默认为0。
(2) 1或columns：删除包含缺失值的列。
how:确定过滤的标准，取值可以为：
(1)any:默认值，如果存在nan值，就删除该行或该列。//有一个就删除行或列
(2)all:如果所有值都是nan值，就删除该行或该列。 //全部都是才删除行或列
thresh:表示有效数据量的最小要求，比如thresh=3，要求该行或该列至少有三个不是nan值时将其保留。
subset:表示在特定的字集中寻找nan值
inplace:表示是否在原数据上操作，如果设为true，则表示直接修改原数据；如果设为false，则表示修改原数据的副本，返回新数据

1.2 .dataframe.fillna()

语法为：fillna(value=none, method=none, axis=none, inplace=false, limit=none, downcast=none, **kwargs)
参数：

value：用于填充的空值的值。
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, none}, default none。定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值， backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
axis：轴。0或’index’，表示按行删除；1或’columns’，表示按列删除。
inplace：是否原地替换。布尔值，默认为false。如果为true，则在原dataframe上进行操作，返回值为none。
limit：int， default none。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）
downcast：dict, default is none，字典中的项为，为类型向下转换规则。或者为字符串“infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。

2. 案例

import pandas as pd
import numpy as np
df = pd.dataframe(np.arange(32).reshape(8, 4), columns=list("abcd"))
df.loc[1, 'a'] = 2
df.loc[1, 'c'] = 2.0
df.loc[6, 'c'] = np.nan
df.loc[3, 'c'] = 10
df.loc[3, ['c', 'd']] = np.nan
df["year"] = '2023'
df["date"] = ['08-25','08-26','08-27','08-28','08-29','08-30','08-31','09-01']
# 合并数据
df["ydate"] =df["year"].map(str) +"-"+ df["date"].map(str) 
df["高温"] = ['15°',  '16°', '20°', '19°', '20°',  '22°', '24°', '23°']
df["低温"] = ['10°',  '11°', '18°', '17°', '10°',  '18°', '20°', '17°']
df["空气质量"] = ['优', '良', '优', '优', '差', '良', '优', np.nan]
print(df)

a b c d year date ydate 高温低温空气质量
0 0 1 2.0 3.0 2023 08-25 2023-08-25 15° 10° 优
1 2 5 2.0 7.0 2023 08-26 2023-08-26 16° 11° 良
2 8 9 10.0 11.0 2023 08-27 2023-08-27 20° 18° 优
3 12 13 nan nan 2023 08-28 2023-08-28 19° 17° 优
4 16 17 18.0 19.0 2023 08-29 2023-08-29 20° 10° 差
5 20 21 22.0 23.0 2023 08-30 2023-08-30 22° 18° 良
6 24 25 nan 27.0 2023 08-31 2023-08-31 24° 20° 优
7 28 29 30.0 31.0 2023 09-01 2023-09-01 23° 17° nan

2.1 删除全部为nan的行

df1 = df.copy()
df1.loc[8, :] = np.nan
df1

a    b    c    d    year    date    ydate    高温    低温    空气质量
0    0.0    1.0    2.0    3.0    2023    08-25    2023-08-25    15°    10°    优
1    2.0    5.0    2.0    7.0    2023    08-26    2023-08-26    16°    11°    良
2    8.0    9.0    10.0    11.0    2023    08-27    2023-08-27    20°    18°    优
3    12.0    13.0    nan    nan    2023    08-28    2023-08-28    19°    17°    优
4    16.0    17.0    18.0    19.0    2023    08-29    2023-08-29    20°    10°    差
5    20.0    21.0    22.0    23.0    2023    08-30    2023-08-30    22°    18°    良
6    24.0    25.0    nan    27.0    2023    08-31    2023-08-31    24°    20°    优
7    28.0    29.0    30.0    31.0    2023    09-01    2023-09-01    23°    17°    nan
8    nan    nan    nan    nan    nan    nan    nan    nan    nan    nan

df1 = df.dropna(axis=0, how='all')
df1

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0.0	1.0	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2.0	5.0	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8.0	9.0	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
3	12.0	13.0	nan	nan	2023	08-28	2023-08-28	19°	17°	优
4	16.0	17.0	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20.0	21.0	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
6	24.0	25.0	nan	27.0	2023	08-31	2023-08-31	24°	20°	优
7	28.0	29.0	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

2.2 删除包含nan的行

df2 = df.dropna(axis=0, how='any')
df2

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0.0	1.0	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2.0	5.0	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8.0	9.0	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
4	16.0	17.0	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20.0	21.0	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良

2.3 删除包含nan的列

df3 = df.dropna(axis=1, how='any')
df3

	a	b	year	date	ydate	高温	低温
0	0	1	2023	08-25	2023-08-25	15°	10°
1	2	5	2023	08-26	2023-08-26	16°	11°
2	8	9	2023	08-27	2023-08-27	20°	18°
3	12	13	2023	08-28	2023-08-28	19°	17°
4	16	17	2023	08-29	2023-08-29	20°	10°
5	20	21	2023	08-30	2023-08-30	22°	18°
6	24	25	2023	08-31	2023-08-31	24°	20°
7	28	29	2023	09-01	2023-09-01	23°	17°

2.4 删除全部为nan的列

df4 = df.copy()
df4["unknow"] = np.nan
df4

	a	b	c	d	year	date	ydate	高温	低温	空气质量	unknow
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优	nan
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良	nan
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优	nan
3	12	13	nan	nan	2023	08-28	2023-08-28	19°	17°	优	nan
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差	nan
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良	nan
6	24	25	nan	27.0	2023	08-31	2023-08-31	24°	20°	优	nan
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan	nan

df4 = df4.dropna(axis=1, how='all')
df4

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
3	12	13	nan	nan	2023	08-28	2023-08-28	19°	17°	优
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
6	24	25	nan	27.0	2023	08-31	2023-08-31	24°	20°	优
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

2.5 删除指定列是nan的行

删除指定某一列有nan，这样即可定位到所在行的index，然后对该index进行drop操作即可

df[np.isnan(df['c'])].index #定位某一列是否有nan

输出：

index([3, 6], dtype='int64')

# 直接drop对应indx即可删除该行
df5 = df.drop(df[np.isnan(df['c'])].index)
df5

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

2.6 删除指定的两列都是空的行

df6 = df.dropna(axis=0, how='all', subset=['c', 'd']) 
df6

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
6	24	25	nan	27.0	2023	08-31	2023-08-31	24°	20°	优
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

2.7 筛选出nan的数据

df_nan = df[df['d'].isna()]
df_nan

	a	b	c	d	year	date	ydate	高温	低温	空气质量
3	12	13	nan	nan	2023	08-28	2023-08-28	19°	17°	优

2.8 筛选出非nan的数据

df_notnan = df[~df['d'].isna()]
df_notnan

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
6	24	25	nan	27.0	2023	08-31	2023-08-31	24°	20°	优
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

2.9 替换nan值

df9 = df.fillna('')  # 将nan替换为''
df9

	a	b	c	d	year	date	ydate	高温	低温	空气质量
0	0	1	2.0	3.0	2023	08-25	2023-08-25	15°	10°	优
1	2	5	2.0	7.0	2023	08-26	2023-08-26	16°	11°	良
2	8	9	10.0	11.0	2023	08-27	2023-08-27	20°	18°	优
3	12	13			2023	08-28	2023-08-28	19°	17°	优
4	16	17	18.0	19.0	2023	08-29	2023-08-29	20°	10°	差
5	20	21	22.0	23.0	2023	08-30	2023-08-30	22°	18°	良
6	24	25		27.0	2023	08-31	2023-08-31	24°	20°	优
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°

2.10 多条件筛选

nan_df = df[(df['高温'].str.len() <= 2) | (df['空气质量'].isna())]
nan_df

	a	b	c	d	year	date	ydate	高温	低温	空气质量
7	28	29	30.0	31.0	2023	09-01	2023-09-01	23°	17°	nan

总结

到此这篇关于pandas中dataframe中的nan值处理的文章就介绍到这了,更多相关pandas dataframe nan值内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Pandas中DataFrame中的nan值处理

2024年05月15日 • Python •我要评论