pandas数据缺失的两种处理办法_Python

数据缺失通常有两种情况：

1.为nan数据的处理

1.判断这列有没有nan

has_nan = df['age'].isnull().any()
print(has_nan)

或者直接在控制台根据数据进行判断

在这里插入图片描述

2.处理方式

在这里插入图片描述

假设我操作的是original_publication_year这一列，如何操作才能得到过滤后的显示样式

在这里插入图片描述

处理方式1:只考虑单列

df2 = df[pd.notnull(df["original_publication_year"])

这行代码的目的是去除 original_publication_year 列中含有 nan 值的行，并生成一个新的 dataframe（df2），包含了所有 original_publication_year 列中不含 nan 值的行。

3. df["original_publication_year"] 是获取 df 数据框中的 original_publication_year 这一列。

4. pd.notnull(df["original_publication_year")用于检查数据中的每个元素是否不是 nan。返回一个布尔值的 series.
true 的行会被保留；
false 的行会被排除(book2何book4被去除)。

5. 返回一个所有 original_publication_year 列中不是nan 的行新的dataframe

处理方式2：删除nan所在的行

dropna(axis=0,how='any',inplace=false)

any表示有就删,all表示全部是nan才删
inplace表示是否进行原地修改

处理方式3：填充数据

mean_value = df["original_publication_year"].mean()  # 计算均值
df_filled=df["original_publication_year"].fillna(mean_value)

在这里插入图片描述

t.fillna(t.mean()) #填充均值
t["列名"]=t["列名"].fillna(t["列名"].mean())
#单独对某一列进行操作
t.fiallna(t.median()) #填充中值
t.fillna(0)

t[t==0]=np.nan # 赋值为nan
# 当然并不是每次为0的数据都需要处理
# 计算平均值等情况，nan是不参与计算的，但是0会的

设置成nan后用处理nan的方法处理。

到此这篇关于pandas数据缺失的处理办法解决的文章就介绍到这了,更多相关pandas数据缺失内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

在网页开发和数据抓取过程中，我们经常需要从 html 页面中提取信息，尤其是 span 元素中的文本。span 标签是一个行内元素，通常用于包装一小段文本或其他... [阅读全文]

数据处理流水线是数据分析和工程中非常常见的概念，通过流水线的设计，可以将数据的采集、处理、存储等步骤连接起来，实现自动化的数据流。使用 python 构建一个简... [阅读全文]

nan 值的来源和影响nan 值可能来源于多种情况，比如数据收集过程中的遗漏、数据转换错误或者计算结果的未定义。在数据分析中，nan 值如果不被妥善处理，可能会... [阅读全文]

一、检查python环境和安装flask1.1确保python和pip已安装首先，你需要确保你的计算机上已经安装了python和pip。在大多数现代操作系统中，python和pip…

2024年12月30日 • 前端脚本

1.简介一款由python可以远程控制局域网电脑关机、重启、注销、锁定、休眠、退出登录甚至能操作远程电脑cmd终端命令的一款工具。资源及源码已打包，大家可自行下载。工具分为1.0…

2024年12月31日 • 前端脚本

1.简介由于单位不让用优盘、禁止用飞秋、也不准使共享，禁用ftp，也禁止搭建网站，且目前局域网内用的im不支持1g以上文件传输，于是在找适合内网的大文件传输方法... [阅读全文]


验证码：

验证码：