pandas的空数据处理方式_Python

pandas空数据处理

数据清洗是对一些没有用的数据进行处理的过程。

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。

数据准备

import pandas as pd

data = pd.read_csv(r'../input/pandas/property-data.csv')
data

data.isna()

对比可以看出：pandas 把 nan 当作空数据，na 和 – 不是空数据

我们可以在读取数据的时候，指定哪些属于空数据

data = pd.read_csv('../input/pandas/property-data.csv', na_values = ["nan", "na", "--"])
data.isna()

#  统计每个特征的空值的数量，再按照空值数量降序排列
data.isna().sum().sort_values(ascending=false)

如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下

dataframe.dropna(axis=0, how='any', thresh=none, subset=none, inplace=false)

参数说明：

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 ‘any’ ，如果一行（或一列）里任何一个数据有出现 na 就去掉整行，如果设置 how=‘all’ ，一行（或列）都是 na 才去掉这整行。
thresh：设置需要多少非空值的数据才可以保留下来的。
subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
inplace：如果设置 true，将计算得到的值直接覆盖之前的值并返回 none，修改的是源数据。

假设我们要删掉 ‘st_num’ 和 ‘num_bedrooms’ 中有空值的行，并且直接在原数据里面删 ( inplace=true )

data.dropna(subset=['st_num', 'num_bedrooms'], inplace=true)
data

data['num_bedrooms'].fillna('0.0', inplace = true)
data

除了直接指定常数替换，常用的替换空单元格的方法是计算列的均值（mean：所有值加起来的平均值）、中位数值（median 排序后排在中间的数）或众数（mode 出现频率最高的数）。

1）用平均值填充

x = data["st_num"].mean()
data["st_num"].fillna(x, inplace = true)
data

2）用中位数填充

```python
x = data["st_num"].median()
data["st_num"].fillna(x, inplace = true)
data

3）用众数填充

x = data["st_num"].mode()
data["st_num"].fillna(x, inplace = true)
data

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

10个python办公自动化案例以下是10个python办公自动化的案例代码及其分析。1.excel数据读取与写入import pandas as pd# 读取... [阅读全文]

在python中，sys模块提供了访问和使用解释器的许多功能的方法，包括命令行参数、环境变量、路径管理、标准输入输出流等。sys模块是python的标准库的一部... [阅读全文]

前言opencv（open source computer vision library）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其... [阅读全文]

引言在pdf文档的设计与内容创作过程中，图像的透明度设置是一个重要的操作。尤其是在处理图文密集型pdf文档时，设置适当的图片透明度能够极大地提升视觉表达的层次感... [阅读全文]

meshgrid函数在二维空间中可以简单地理解为将x轴与y轴的每个位置的坐标关联起来形成了一个网格，我们知道空间中的点是由坐标确定的，因此，当x与y关联起来后，... [阅读全文]

python新建三维数组并赋值本文主要分为2部分：<1>如何建立三维矩阵；<2>如何将二维数组赋值到三维数组，且包含对每个参数的理解。多维矩阵的建立和赋值与…

2024年09月13日 • 前端脚本


验证码：

验证码：