pandas的drop_duplicates无法去重问题解决_Python

之前没研究过pandas的去重方法，今天用了一下，发现这个方法并不是那么好用，我的需求是去除所有列的重复值，并保留第一个重复的值，按我的想法应该是下面这样写

import pandas as pd
import numpy as np

df1 = pd.dataframe({
    'a':[1,1,float('nan'),1,4,5],
    'b':[3,3,4,4,5,6],
    'c':[4,4,5,5,6,7],
})
df1 = df1.drop_duplicates(keep='first')
df1

但是结果却不尽如人意，

   a   b   c
0   1.0   3   4
2   nan   4   5
3   1.0   4   5
4   4.0   5   6
5   5.0   6   7

如图所示，并没有删除重复值，所以我只能一个一个列的删，删完在重新拼接在一起，

import pandas as pd
import numpy as np

df1 = pd.dataframe({
    'a':[1,1,float('nan'),1,4,5],
    'b':[3,3,4,4,5,6],
    'c':[4,4,5,5,6,7],
})

cols = df1.columns.to_list()
series_list = []
for col in cols:
    tmp_s = df1[col].drop_duplicates(keep='first')
    tmp_s = tmp_s.dropna()
    tmp_s = tmp_s.reset_index(drop=true)
    print(tmp_s)
    series_list.append(tmp_s)

new_df = pd.concat(series_list,axis=1)
new_df

结果

   a   b   c
0   1.0   3   4
1   4.0   4   5
2   5.0   5   6
3   nan   6   7

当然这样数据的索引是无法跟之前的对应起来了，所以我猜pandas是想保留之前的数据的对应关系的，一旦有操作要破坏这种对应，它就不会执行

drop_duplicates()官方的函数说明

解释一下各个参数：

subset：表示要去重的列名，默认为 none。
keep：有三个可选参数，分别是 first、last、false，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，false 则表示删除所有重复项。
inplace：布尔值参数，默认为 false 表示删除重复项后返回一个副本，若为 ture 则表示直接在原数据上删除重复项，改变了原来的数据框。
ignore_index：布尔值参数，默认为false，表示保留原来的行索引，若为true，则表示重新设置行索引。

到此这篇关于pandas的drop_duplicates无法去重问题解决的文章就介绍到这了,更多相关pandas的drop_duplicates无法去重内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Python数据库编程之SQLite和MySQL的实践指南

1. 安装必要的库首先，我们需要安装python的数据库驱动程序，以便与sqlite和mysql进行交互。对于sqlite，python自带了支持；而对于mys... [阅读全文]

python提取视频中的音频的实现示例

一、搭建环境1、安装python2、安装moviepy包pip3 install moviepy二、实现思路1、先通过get请求把视频下载下来2、再通过movi... [阅读全文]

Python中数据解压缩的技巧分享

在日常的数据处理和分析中，经常会遇到需要对压缩数据进行解压缩的情况。python提供了丰富的库和模块来处理各种类型的压缩文件，如zip、gzip、tar、bz2... [阅读全文]

关于TensorFlow、Keras、Python版本匹配一览表

tensorflow、keras、python 版本匹配一览表兴冲冲装完软件，发现运行不了，查了下资料，发现是tensorflow、keras、python 版... [阅读全文]

Python+Mysql实现登录注册完整代码示例

简介基于tkinter的python程序，实现了一个简单的用户登录和注册系统。程序连接了一个mysql数据库，用户可以通过输入正确的用户名和密码进行登录，或者注册新的用户账号。代码…

2024年05月18日 • 前端脚本

详解pytest传递参数的几种方式

测试类内部，属性传递import pytestclass test_case: t = 0 def test_c(self): sel... [阅读全文]


验证码：

验证码：

pandas的drop_duplicates无法去重问题解决

2024年05月18日 • Python •我要评论

相关文章:

Python+Mysql实现登录注册完整代码示例

发表评论