DataFrame数据框模糊查询与去重方式_Asp.net

1.数据框模糊查询

数据框查询使用contains函数+正则表达式来实现。

语法格式如下：

data[data.列名.str.contains()]

1.1查询以某某开头的数据

data[data.列名.str.contains('^某某')]

1.2查询包含某某的数据

data[data.列名.str.contains('某某')]

1.3查询以某某结尾的数据

data[data.列名.str.contains('某某$')]

上述dataframe模糊查询是针对某列数据元素格式全为str格式，方可使用该方法！

若遇到下面这样的报错：

valueerror: cannot mask with non-boolean array containing na / nan values

可能某列数据元素格式不全是str格式，可能存在int格式等等，因此把某列的数据格式统一成str格式就可以了！

解决方法如下：

data['列名']=data['列名'].apply(str)#把非字符串格式改为字符串格式

1.4多条件查询

data[data.source.str.contains('某某|某某1')]

1.5对条件查询结果进行删除

data[-data.source.str.contains('某某|某某1')]

2.数据框去重

数据框去重使用drop_duplicates函数可以按某列去重，也可以按多列去重。

语法格式如下：

dataframe.drop_duplicates(subset=none,keep='first',inplace=false)

参数解析：

dataframe：待去重的数据框。
subset：用来指定特定的列。根据指定的列对数据框去重。默认值为none，即dataframe中一行元素全部相同时才去除。
keep：对重复值的处理方式。可选参数有first,last,false。默认值first，即保留重复数据第一条。若选last为保留重复数据的最后一条，若选false则删除全部重复数据。
inplace：是否在原数据集上操作。默认值false，返回新数据框(原数据框不改变)。值为true时直接在原数据视图上删重，没有返回值。

2.1按某列去重

data.drop_duplicates(subset='列名',keep='first',inplace=false)

2.2按多列去重

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=false)

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

C# System.Linq 万能的查询语句示例详解

首先是官方文档：system.linq 命名空间 | microsoft docsenumerable 类 (system.linq) | microsoft ... [阅读全文]

pytorch模型保存方式

pytorch模型保存保存模型主要分为两类：保存整个模型只保存模型参数1.保存加载整个模型（不推荐）保存整个网络模型，网络结构+权重参数torch.save(m... [阅读全文]

C#实现移动窗体的两种共方法

引言在c#form窗体设计中，如果我们不需要使用默认边框设计自己个性化的窗体（fromborderstyle=none时），这时候你会发现拖动窗体的功能就没有了... [阅读全文]

通过C#实现裁剪PDF页面功能

前言在处理pdf文档时，有时需要精确地裁剪页面以适应特定需求，比如去除广告、背景信息或者仅仅是为了简化文档内容。本文将指导如何使用免费.net控件通过c#实现裁... [阅读全文]

Log4Net配置详解及输出自定义消息类示例代码

1.简单使用实例1.1 添加log4net.dll的引用。在nuget程序包中搜索log4net并添加，此次我所用版本为2.0.17。如下图：1.2 添加配…

2024年09月08日 • 编程语言

IIS上部署Asp.net core Webapi的实现步骤

前言本篇文章将为您详细介绍iis上部署asp.net core webapi的详细过程一、iis的安装本人电脑的操作系统是win10。首先打开控制面板，如下图所示：然后点击【程序】…