pandas数据处理之取出重复数据实践_Python

pandas取出重复数据

平常我们用pandas做重复数据处理时，常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复，而是把重复数据输出，现有数据如下所示：

dic = {'序号':[2,3,4,5,6,7,8,9,10,11,12,13,14,15],'地市缩写': ['lf', 'cz', 'hs', 'zj', 'ts', 'hd', '广阳', 'cd', 'qh', 'xt', 'xa', 'bd', 'sj', '栾城'],
       '地市': ['廊坊', '沧州', '衡水', '张家口', '唐山', '邯郸', '廊坊', '承德', '秦皇岛', '邢台', '雄安', '保定',
                '石家庄', '石家庄']}
p_city = pd.dataframe(dic)
print(p_city )

输出：

方法一

重复数据保留一个，duplicate_bool输出的是bool类型值，通过判断bool==true，取出重复行。

duplicate_bool = p_city.duplicated(subset=['地市'], keep='first')
print(duplicate_bool )
repeat =p_city.loc[duplicate_bool == true]
print(repeat)

输出：

方法二

采用drop_duplicates对数据去两次重，一次将重复数据全部去除(keep=false)，一次将重复数据保留一个(keep=last/first)，将两个去重后的数据做差集，取出重复行。

# 重复数据全部去除
data1 = p_city.drop_duplicates(subset=['地市'], keep=false)
print(data1)

输出：

# 重复数据保留一个
data2 = p_city.drop_duplicates(subset=['地市'], keep='last')
print(data2)

输出：

# 做差集，取出重复行
data1 = p_city.drop_duplicates(subset=['地市'], keep=false)
data2 = p_city.drop_duplicates(subset=['地市'], keep='last')
repeat = pd.concat([data2,data1]).drop_duplicates(keep=false)
print(repeat)

输出：

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

Python使用schedule库实现任务定时自动化

引言在python的自动化工具库中，schedule是一个简洁又强大的存在。无论是定时备份数据、周期性抓取网页，还是定期发送提醒邮件，schedule库都能让我... [阅读全文]

Python实现网页数据提取完整指南

前言本文手把手带你用 python requests 库 + xpath 写一个可以批量抓取网页图片的爬虫，支持：多级页面递归爬取（翻页 → 标题页 ... [阅读全文]

Python利用XPath的逻辑运算符实现多条件定位

在web自动化测试和网页数据抓取中，xpath作为一种强大的定位语言，能够通过复杂的条件组合精准定位目标元素。当需要同时满足多个属性条件或匹配多种可能性时，an... [阅读全文]

Python项目批量安装依赖库的完整指南

在python项目开发中，我们经常需要安装多个依赖库（比如pyqt5、opencv等）。逐个执行pip install命令不仅繁琐，还容易遗漏、出现版本兼容问题... [阅读全文]

Python结合OpenCV实现打开海康机器人黑白相机

将mvimport内所有文件拷贝至工作目录项目结构requirements.txt# 基础科学计算库numpy>=1.24.0# 计算机视觉opencv-... [阅读全文]

Python脚本生成exe的实用指南

在日常工作中，我们经常会遇到这样的需求：写了一个 python 脚本，想给同事用对方电脑没有 python 环境不想教对方装 python、装依赖希望直接给一个... [阅读全文]


验证码：

验证码：

pandas数据处理之取出重复数据实践

2026年04月22日 • Python •我要评论

pandas取出重复数据

方法一

方法二

总结

相关文章:

发表评论