一、简介
isnull()
是pandas库中dataframe和series对象的一个函数,用于检测数据中的缺失值。它返回一个布尔类型的dataframe或series,其中true表示该位置的值是缺失的(nan
或none
),false表示该位置的值不是缺失的。
二、语法和参数
dataframe.isnull()
isnull()
函数没有参数。它直接应用于dataframe或series对象。
三、实例
3.1 基本使用
代码:
import pandas as pd import numpy as np # 创建一个包含nan和none的dataframe df = pd.dataframe({ 'a': [1, np.nan, 3, none], 'b': [4, 5, np.nan, 7], 'c': [8, 9, 10, 11] }) print("原始dataframe:") print(df) print("\n使用isnull()后的结果:") print(df.isnull())
输出:
原始dataframe:
a b c
0 1.0 4.0 8
1 nan 5.0 9
2 3.0 nan 10
3 nan 7.0 11使用isnull()后的结果:
a b c
0 false false false
1 true false false
2 false true false
3 true false false
3.2 与sum()函数结合使用
代码:
import pandas as pd import numpy as np df = pd.dataframe({ 'a': [1, np.nan, 3, none], 'b': [4, 5, np.nan, 7], 'c': [8, 9, 10, 11] }) print("每列缺失值的数量:") print(df.isnull().sum()) print("\n每行缺失值的数量:") print(df.isnull().sum(axis=1))
输出:
每列缺失值的数量:
a 2
b 1
c 0
dtype: int64每行缺失值的数量:
0 0
1 1
2 1
3 1
dtype: int64
3.3 与布尔索引结合使用
代码:
import pandas as pd import numpy as np df = pd.dataframe({ 'a': [1, np.nan, 3, none], 'b': [4, 5, np.nan, 7], 'c': [8, 9, 10, 11] }) print("原始dataframe:") print(df) print("\n含有缺失值的行:") print(df[df.isnull().any(axis=1)]) print("\n所有值都不缺失的行:") print(df[df.notnull().all(axis=1)])
输出:
原始dataframe:
a b c
0 1.0 4.0 8
1 nan 5.0 9
2 3.0 nan 10
3 nan 7.0 11含有缺失值的行:
a b c
1 nan 5.0 9
2 3.0 nan 10
3 nan 7.0 11所有值都不缺失的行:
a b c
0 1.0 4.0 8
四、注意事项
isnull()
函数可以检测nan和none值,但不能检测空字符串或其他可能被视为"缺失"的值。- 对于非数值类型的列(如字符串或日期时间),只有none值会被视为缺失,而nan不会。
isnull()
的逻辑相反函数是notnull()
,它返回true表示非缺失值,false表示缺失值。- 在处理大型数据集时,
isnull()
可能会消耗较多内存,因为它会创建一个与原dataframe大小相同的新dataframe。 isnull()
和isna()
是完全相同的函数,可以互换使用。- 在进行数据清洗和预处理时,
isnull()
是一个非常有用的工具,可以帮助识别和处理缺失数据。
到此这篇关于pandas库中isnull函数的实现的文章就介绍到这了,更多相关pandas isnull函数内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论