数据分析数据预处理：重复值（duplicated方法）_数据分析

高频数据的重复值处理

数据源为高频 trades 数据

1. 导入数据

import pandas as pd

df = pd.read_csv('hf_data.csv')

print(df)

2. duplicate方法查看重复值

（1）subset 参数指定columns name

df.duplicated(subset='localtime').sum()

subset指定localtime判断是否存在重复值，返回bool

check_localtime = df.duplicated(subset='localtime')

df[check_localtime>0].tail(20)

可以看到同个时间戳有多笔成交。

3. 重复值处理

针对不同的数据需求，最简单的三种重复值处理方法。

（1）drop_duplicated() 直接删除掉重复数据

df_drop_duplicate = df.drop_duplicates(subset='localtime')

print("原数据shape",df.shape)
print("删除重复值后数据shape",df_drop_duplicate.shape)
print("检验重复值,",df_drop_duplicate.duplicated().sum())

可以看到重复数据占比还是比较多的，若重复数据有意义，比如该数据描述的是交易数据，则当同个时间戳有多个交易数据描述了当下市场的活跃情况；因此用该方案做数据处理并不一定合适。

（2）保留重复值中的第一个或最后一个：drop_duplicated的keep参数

df_keep_last = df.drop_duplicates(subset='localtime',keep='last')

当我们想保留重复数据最后一个值，可以使用drop_duplicated的keep参数，"last"为最后一个值，“first”为第一个值。

（3）使用groupby对重复值做运算

分析原数据：localtime重复是因为同个时间多笔成交单形成，其次数据中有其他的属性比如价格（price)，成交量(qty)，交易方向(side)；因此比较合适的处理方法是将数据时间戳合并到最小单位1ms，而针对不同的属性，可以采取：保留最后一个价格，总成交量等等；这样即处理了重复值的问题，也保留了数据中的信息

df.groupby(by='localtime').agg({'qty':"sum",'price':"last"})

试读：目标检测定义及技术详解

试读：目标检测定义及技术详解…

2024年08月04日 • 人工智能

【目标检测-复制粘贴数据增强】

在目标检测、分类和分割任务中，复制粘贴数据增强（Copy-Paste Data Augmentation）是一种创新的数据增广技术，它通过将训练集中的一部分物体... [阅读全文]

【mmdetection小目标检测教程】四、修改配置文件，训练专属于你的目标检测模型

【mmdetection小目标检测教程】四、修改配置文件，训练专属于你的目标检测模型…

2024年08月04日 • 人工智能

目标检测YOLO实战应用案例100讲-基于双模特征融合的目标检测（续）

检测头由1×1卷积和3×3卷积组成，先用1×1卷积调整通道数，3×3卷积整合FFM 输出后的特征。用于预测的输出特征图尺寸为N×N×(num+5)×2，其中nu... [阅读全文]

火星遥感数据的获取与处理工具安装详解

有关火星遥感影像数据的那些事...…

2024年08月04日 • 人工智能

【论文阅读】 YOLOv10: Real-Time End-to-End Object Detection

在过去几年中，YOLOs 因其在计算成本和检测性能之间的有效平衡而成为实时物体检测领域的主流模式。研究人员对 YOLOs 的架构设计、优化目标、数据增强策略等进行了探索，并取得了显…

2024年08月04日 • 人工智能


验证码：

验证码：

数据分析数据预处理：重复值（duplicated方法）

2024年08月04日 • 数据分析 •我要评论

高频数据的重复值处理

1. 导入数据

2. duplicate方法查看重复值

（1）subset 参数指定columns name

3. 重复值处理

（1）drop_duplicated() 直接删除掉重复数据

（2）保留重复值中的第一个或最后一个：drop_duplicated的keep参数

（3）使用groupby对重复值做运算

相关文章:

试读：目标检测定义及技术详解

【mmdetection小目标检测教程】四、修改配置文件，训练专属于你的目标检测模型

火星遥感数据的获取与处理工具安装详解

【论文阅读】 YOLOv10: Real-Time End-to-End Object Detection

发表评论